Navigateur ANNODIS_me pour explorer et visualiser les structures multi-échelles annotées
Qu'appelle-t-on "structures multi-échelles" ?
Des structures susceptibles d'apparaître à des niveaux de granularité divers, y compris à de très haut niveaux, et présentant un intérêt en tant que "briques" dans la construction textuelle. Les structures annotées constituent des segments s'étendant de deux phrases jusqu'à plusieurs sous-sections.
Quelles structures multi-échelles sont annotées ?
Les structures énumératives + les indices qui les signalent
Définition: les structures énumératives (SE en abrégé)
sont des segments de texte résultant d'une stratégie d'organisation
textuelle dans laquelle des éléments textuels sont présentés comme ayant
le même statut eu égard à un critère d'interprétation spécifique (le
critère de co-énumérabilité). Elles sont caractérisées par une
structuration interne mettant en jeu les sous-segments suivants :
Une amorce (optionnelle) : segment qui introduit l'énumération ;
Plusieurs items : segments qui constituent l'énumération (au moins
deux items doivent être identifiés pour qu'une structure soit annotée) ;
Une clôture (optionnelle) : segment qui résume ou clôt l'énumération.
Les objets annotés sont :
l'amorce (si elle existe)
les items (au moins deux)
la clôture (si elle existe)
l'énumérathème (s'il existe), i.e. l'expression qui spécifie le critère de co-énumérabilité
les indices associés aux quatre objets précédents
enfin la structure énumérative elle-même, qui est le segment englobant ces objets.
Les chaînes topicales + les indices qui les signalent
Définition : une chaîne topicale (CT en abrégé) est une
forme spécifique de chaîne de cohésion, un segment de texte regroupant
des phrases reliées par un référent commun. Ce référent doit être
exprimé en position pré-verbale (i.e. potentiellement topicale) dans
plusieurs des phrases du segment.
Les objets annotés sont :
un unique segment appelé "segment"
les indices de continuité topicale associés.
NB. Il n'est pas impératif que le segment soit uniquement composé de
propositions portant sur le référent qui fait l'unité du segment : des
commentaires, illustrations, par exemple, peuvent se trouver inscrits
dans une chaîne topicale.
Vue d'ensemble d'ANNODIS_me : corpus annoté en structures multi-échelles
Corpus
Nombre SE
indices SE
Nombre CT
indices CT
WIKI (Wikipedia, 30 articles, 231 000 mots)
401
2 210
266
1 853
LING (CMLF08, 25 articles, 169 000 mots)
297
1 230
88
478
GEOP (IFRI, 32 articles, 266 000 mots)
293
1 209
234
1 125
991
4 649
588
3 456
Publications
Colléter M., Fabre C., Ho-Dac L.-M., Péry-Woodley M.-P., Rebeyrolle J. & Tanguy L. (2012). La ressource ANNODIS multi-échelle : guide d'annotation et bonus, Carnets de grammaires 20, CLLE-ERSS. [ Article en ligne ]
Ho-Dac L.-M., Fabre C., Péry-Woodley M.-P., Rebeyrolle J. & Tanguy L. (2012).
An empirical approach to the signalling of enumerative structures, Discours 10.
[ Article en ligne ]
Ho-Dac L.-M., Péry-Woodley M.-P., Tanguy L. (2010).
Anatomie des structures énumératives, TALN 2010, ATALA, Université de Montréal, Montréal, July, 2010.
Ho-Dac, L.-M., Fabre, C., Péry-Woodley, M.-P., & Rebeyrolle, J. (2010).
On the signalling of multi-level discourse structures, MAD 2010: Multidisciplinary Perspectives on Signalling Text Organisation,
Moissac (France) 17-20 mars 2010 (2010), pp. 94-105
Communications orales
Ho-Dac L.-M., Fabre C., Péry-Woodley M.-P., Rebeyrolle J. & Tanguy L. (2011).
High-level discourse structures : Topical Chains and Enumerative Structures in a diversified annotated corpus,
Corpus Linguistics, Birmingham, 2011.
Ho-Dac, M., Fabre, C., Péry-Woodley, M.-P., & Rebeyrolle, J. (2009).
Des indices aux marqueurs : méthodes de découverte de marqueurs discursifs complexes,
Linguistic and Psycholinguistic Approaches to Text Structuring, Paris (2009, 21-23 septembre 2009).
Ho-Dac, M., Fabre, C., Péry-Woodley, M.-P., & Rebeyrolle, J. (2009).
Corpus annotation of macro discourse structures,
1st International Conference on Corpus Linguistics, CILC-09, Murcia (2009).