REDAC : Corpus ANNODIS

REssources Développées À CLLE
Accueil Ressources Applications Corpus Lexiques Autres À propos CLLE Site Mention légale Contact

Ressource ANNODIS
Annotation Discursive
Corpus de français écrit enrichi d'annotations discursives

Description

La ressource ANNODIS est un ensemble diversifié de textes en français enrichis manuellement d'annotations de structures discursives. Elle est le résultat du projet ANNODIS (ANNOtation DIScursive), projet financé par l'ANR. Ses caractéristiques principales :

deux annotations (correspondant à deux approches distinctes de l'organisation discursive)
- L'annotation en relations rhétoriques comprend la délimitation de 3188 Unités Élémentaires de Discours (EDU) et 1395 Unités Complexes de Discours (CDU) reliées par 3355 relations de discours typées (e.g. contraste, élaboration, résultat, attribution, etc.)
- L'annotation en structures multi-échelles qui fournit 991 structures énumératives, 588 chaînes topicales et l'ensemble des indices qui leur sont associés (e.g. 3456 expressions topicales)
des textes (total 687 000 mots) issus de quatre sources :
- Est Républicain (39 articles, 10 000 mots)
- Wikipédia (30 articles + 30 extraits, 242 000 mots)
- Actes du Congrès Mondial de Linguistique Française 2008 (25 articles, 169 000 mots)
- Rapports de l'Institut Français de Relations Internationales (32 rapports, 266 000 mots)
Les corpus ont été annotés avec Glozz, plate-forme développée dans le cadre d'ANNODIS

Vue d'ensemble de la ressource

Les annotations sont diffusées au format Glozz et XML.

Le corpus ANNODIS sans annotations est diffusé au format xml normés selon la TEI-P5 (TEIP5.dtd incluse) : ANNODIS xml. Ce corpus sans annotation est également diffusé au format Glozz : ANNODIS glozz.

Type d'annotation	Corpus (origine)	Corpus (genre et type dominant)	Corpus (volume)
relations rhétoriques descriptif télécharger	NEWS (Est Républicain)	G = brèves T = narratif	39 articles 10 000 mots 250 mots/texte
relations rhétoriques descriptif télécharger	WIK1 (extraits Wikipédia)	G = article encyclopédique T = expositif	30 extraits 11 000 mots 412 mots/texte
structures multi-échelles descriptif télécharger explorer	WIK2 (articles Wikipedia entiers)	G = article encyclopédique T = expositif	30 articles 231 000 mots 700 mots/texte
	LING (Congrès Mondial de Linguistique Française 2008)	G = articles de recherche T = expositif	25 articles 169 000 mots 6760 mots/texte
	GEOP (Institut Français de Relations Internationales)	G = rapports et articles T = argumentatif	32 articles 266 000 mots 8325 mots/texte
relations rhétoriques + structures multi-échelles descriptif télécharger	articles et extraits issus de WIK2, LING et GEOP		13 articles 18 extraits 7 000 mots

Droits

La ressource ANNODIS est disponible sous licence Creative Commons By-NC-SA 3.0 (Paternité, usage non commercial, partage à l'identique). Merci de la lire attentivement.

Partenaires du projet ANNODIS (ANR appel corpus 2007)

CLLE (UMR 5263), Université de Toulouse UTM (Myriam Bras, Cécile Fabre, Lydia-Mai Ho-Dac, Anne Le Draoulec, Marie-Paule Péry-Woodley, Laurent Prévot, Josette Rebeyrolle, Franck Sajous, Ludovic Tanguy, Marianne Vergez-Couret)
IRIT (UMR 5505) Université de Toulouse UPS (Nicholas Asher, Farah Benamara, Philippe Muller, Laure Vieu, Stergos Afantenos)
GREYC (UMR 6072) Université de Caen (Thierry Charnois, Bruno Crémilleux, Patrice Enjalbert, Stéphane Ferrari , Alexandre Labadié, Julien Lebranchu, Dominique Legallois, Yann Mathet, Antoine Widlöcher)

Articles présentant le projet / la ressource ANNODIS

Afantenos S. D., Asher N., Benamara F., Bras M., Fabre C., Ho-Dac L.-M., Le Draoulec A. Muller P., Péry-Woodley M.-P., Prévot L., Rebeyrolle J., Tanguy L., Vergez-Couret M., Vieu L. (2012). An empirical resource for discovering cognitive principles of discourse organization: the ANNODIS corpus. LREC 2012, Istanbul, Turkey, July 2012. [ PDF ]
Péry-Woodley M.-P., Afantenos S. D., Ho-Dac L.-M., Asher N. (2011). La ressource ANNODIS, un corpus enrichi d'annotations discursives. TAL 52(3), pp 71-101. [ PDF ]
Péry-Woodley M.-P., Asher N., Enjalbert P., Benamara F., Bras M., Fabre C., Ferrari S., Ho-Dac L.-M., Le Draoulec A. , Mathet Y., Muller P., Prévot L., Rebeyrolle J., Tanguy L., Vergez-Couret M., Vieu L., Wildöcher A. (2009). ANNODIS : une approche outillée de l'annotation de structures discursives, TALN 2009, Senlis, Juin, 2009. [ PDF ]

Guides d'annotation

Muller P., Vergez-Couret M., Prévot L., Asher N., Benamara F., Bras M., Le Draoulec A., Vieu L. (2012). Manuel d'annotation en relations de discours du projet ANNODIS. Carnets de Grammaire 21, 34p. [ PDF ]
Colléter M., Fabre C., Ho-Dac L.-M., Péry-Woodley M.-P., Rebeyrolle J., Tanguy L. (2012). La ressource ANNODIS multi-échelle : guide d'annotation et "bonus" Carnets de Grammaire 20, 63p. [ PDF ]

Responsable ressource

Lydia-Mai Ho-Dac
Contact :