Ressource ANNODIS Annotation Discursive Corpus de français écrit enrichi d'annotations discursives
Description
La ressource ANNODIS est un ensemble diversifié de textes en français enrichis manuellement d'annotations de structures discursives.
Elle est le résultat du projet ANNODIS (ANNOtation DIScursive), projet financé par l'ANR.
Ses caractéristiques principales :
deux annotations (correspondant à deux approches distinctes de l'organisation discursive)
L'annotation en relations rhétoriques comprend la délimitation de 3188 Unités Élémentaires de Discours (EDU) et 1395 Unités Complexes de Discours (CDU) reliées par 3355 relations de discours typées (e.g. contraste, élaboration, résultat, attribution, etc.)
L'annotation en structures multi-échelles qui fournit 991 structures énumératives, 588 chaînes topicales et l'ensemble des indices qui leur sont associés (e.g. 3456 expressions topicales)
des textes (total 687 000 mots) issus de quatre sources :
Actes du Congrès Mondial de Linguistique Française 2008 (25 articles, 169 000 mots)
Rapports de l'Institut Français de Relations Internationales (32 rapports, 266 000 mots)
Les corpus ont été annotés avec Glozz, plate-forme développée dans le cadre d'ANNODIS
Vue d'ensemble de la ressource
Les annotations sont diffusées au format Glozz et XML.
Le corpus ANNODIS sans annotations est diffusé au format xml normés selon la TEI-P5 (TEIP5.dtd incluse) : ANNODIS xml. Ce corpus sans annotation est également diffusé au format Glozz : ANNODIS glozz.
La ressource ANNODIS est disponible sous licence
Creative Commons By-NC-SA 3.0
(Paternité, usage non commercial, partage à l'identique). Merci de la lire attentivement.
Partenaires du projet ANNODIS (ANR appel corpus 2007)
CLLE (UMR 5263), Université de Toulouse UTM
(Myriam Bras, Cécile Fabre, Lydia-Mai Ho-Dac, Anne Le Draoulec, Marie-Paule Péry-Woodley, Laurent Prévot, Josette Rebeyrolle,
Franck Sajous, Ludovic Tanguy, Marianne Vergez-Couret)
IRIT (UMR 5505) Université de Toulouse UPS (Nicholas Asher, Farah Benamara, Philippe Muller, Laure Vieu, Stergos Afantenos)
GREYC (UMR 6072) Université de Caen (Thierry Charnois, Bruno Crémilleux, Patrice Enjalbert, Stéphane Ferrari , Alexandre Labadié, Julien Lebranchu, Dominique Legallois, Yann Mathet, Antoine Widlöcher)
Articles présentant le projet / la ressource ANNODIS
Afantenos S. D., Asher N., Benamara F., Bras M., Fabre C., Ho-Dac L.-M., Le Draoulec A. Muller P., Péry-Woodley M.-P., Prévot L., Rebeyrolle J., Tanguy L., Vergez-Couret M., Vieu L. (2012). An empirical resource for discovering cognitive principles of discourse organization: the ANNODIS corpus. LREC 2012, Istanbul, Turkey, July 2012. [ PDF ]
Péry-Woodley M.-P., Afantenos S. D., Ho-Dac L.-M., Asher N. (2011). La ressource ANNODIS, un corpus enrichi d'annotations discursives. TAL 52(3), pp 71-101. [ PDF ]
Péry-Woodley M.-P., Asher N., Enjalbert P., Benamara F., Bras M., Fabre C., Ferrari S., Ho-Dac L.-M., Le Draoulec A. , Mathet Y., Muller P., Prévot L., Rebeyrolle J., Tanguy L., Vergez-Couret M., Vieu L., Wildöcher A. (2009). ANNODIS : une approche outillée de l'annotation de structures discursives,
TALN 2009, Senlis, Juin, 2009. [ PDF ]
Guides d'annotation
Muller P., Vergez-Couret M., Prévot L., Asher N., Benamara F., Bras M., Le Draoulec A., Vieu L. (2012). Manuel d'annotation en relations de discours du projet ANNODIS. Carnets de Grammaire 21, 34p. [ PDF ]
Colléter M., Fabre C., Ho-Dac L.-M., Péry-Woodley M.-P., Rebeyrolle J., Tanguy L. (2012). La ressource ANNODIS multi-échelle : guide d'annotation et "bonus" Carnets de Grammaire 20, 63p. [ PDF ]