REDAC
REssources Développées À CLLE CLLE : Cognition, Langues, Langage, Ergonomie






Ressource ANNODIS
Annotation Discursive
Corpus de français écrit enrichi d'annotations discursives
Description

La ressource ANNODIS est un ensemble diversifié de textes en français enrichis manuellement d'annotations de structures discursives. Elle est le résultat du projet ANNODIS (ANNOtation DIScursive), projet financé par l'ANR. Ses caractéristiques principales :

  • deux annotations (correspondant à deux approches distinctes de l'organisation discursive)
    • L'annotation en relations rhétoriques comprend la délimitation de 3188 Unités Élémentaires de Discours (EDU) et 1395 Unités Complexes de Discours (CDU) reliées par 3355 relations de discours typées (e.g. contraste, élaboration, résultat, attribution, etc.)
    • L'annotation en structures multi-échelles qui fournit 991 structures énumératives, 588 chaînes topicales et l'ensemble des indices qui leur sont associés (e.g. 3456 expressions topicales)
  • des textes (total 687 000 mots) issus de quatre sources :
    • Est Républicain (39 articles, 10 000 mots)
    • Wikipédia (30 articles + 30 extraits, 242 000 mots)
    • Actes du Congrès Mondial de Linguistique Française 2008 (25 articles, 169 000 mots)
    • Rapports de l'Institut Français de Relations Internationales (32 rapports, 266 000 mots)
  • Les corpus ont été annotés avec Glozz, plate-forme développée dans le cadre d'ANNODIS
Vue d'ensemble de la ressource

Les annotations sont diffusées au format Glozz et XML.

Le corpus ANNODIS sans annotations est diffusé au format xml normés selon la TEI-P5 (TEIP5.dtd incluse) : ANNODIS xml. Ce corpus sans annotation est également diffusé au format Glozz : ANNODIS glozz.

Type d'annotation Corpus (origine) Corpus (genre et type dominant) Corpus (volume)
relations rhétoriques NEWS
(Est Républicain)
G = brèves
T = narratif
39 articles
10 000 mots
250 mots/texte
WIK1
(extraits Wikipédia)
G = article encyclopédique
T = expositif
30 extraits
11 000 mots
412 mots/texte
structures multi-échelles WIK2
(articles Wikipedia entiers)
G = article encyclopédique
T = expositif
30 articles
231 000 mots
700 mots/texte
LING (Congrès Mondial de Linguistique Française 2008) G = articles de recherche
T = expositif
25 articles
169 000 mots
6760 mots/texte
GEOP (Institut Français de Relations Internationales) G = rapports et articles
T = argumentatif
32 articles
266 000 mots
8325 mots/texte
relations rhétoriques + structures multi-échelles articles et extraits issus de WIK2, LING et GEOP 13 articles
18 extraits
7 000 mots


Droits
La ressource ANNODIS est disponible sous licence Creative Commons By-NC-SA 3.0 (Paternité, usage non commercial, partage à l'identique). Merci de la lire attentivement.

Partenaires du projet ANNODIS (ANR appel corpus 2007)
  • CLLE (UMR 5263), Université de Toulouse UTM (Myriam Bras, Cécile Fabre, Lydia-Mai Ho-Dac, Anne Le Draoulec, Marie-Paule Péry-Woodley, Laurent Prévot, Josette Rebeyrolle, Franck Sajous, Ludovic Tanguy, Marianne Vergez-Couret)
  • IRIT (UMR 5505) Université de Toulouse UPS (Nicholas Asher, Farah Benamara, Philippe Muller, Laure Vieu, Stergos Afantenos)
  • GREYC (UMR 6072) Université de Caen (Thierry Charnois, Bruno Crémilleux, Patrice Enjalbert, Stéphane Ferrari , Alexandre Labadié, Julien Lebranchu, Dominique Legallois, Yann Mathet, Antoine Widlöcher)
Articles présentant le projet / la ressource ANNODIS
  • Afantenos S. D., Asher N., Benamara F., Bras M., Fabre C., Ho-Dac L.-M., Le Draoulec A. Muller P., Péry-Woodley M.-P., Prévot L., Rebeyrolle J., Tanguy L., Vergez-Couret M., Vieu L. (2012). An empirical resource for discovering cognitive principles of discourse organization: the ANNODIS corpus. LREC 2012, Istanbul, Turkey, July 2012. [ PDF ]
  • Péry-Woodley M.-P., Afantenos S. D., Ho-Dac L.-M., Asher N. (2011). La ressource ANNODIS, un corpus enrichi d'annotations discursives. TAL 52(3), pp 71-101. [ PDF ]
  • Péry-Woodley M.-P., Asher N., Enjalbert P., Benamara F., Bras M., Fabre C., Ferrari S., Ho-Dac L.-M., Le Draoulec A. , Mathet Y., Muller P., Prévot L., Rebeyrolle J., Tanguy L., Vergez-Couret M., Vieu L., Wildöcher A. (2009). ANNODIS : une approche outillée de l'annotation de structures discursives, TALN 2009, Senlis, Juin, 2009. [ PDF ]
Guides d'annotation
  • Muller P., Vergez-Couret M., Prévot L., Asher N., Benamara F., Bras M., Le Draoulec A., Vieu L. (2012). Manuel d'annotation en relations de discours du projet ANNODIS. Carnets de Grammaire 21, 34p. [ PDF ]
  • Colléter M., Fabre C., Ho-Dac L.-M., Péry-Woodley M.-P., Rebeyrolle J., Tanguy L. (2012). La ressource ANNODIS multi-échelle : guide d'annotation et "bonus" Carnets de Grammaire 20, 63p. [ PDF ]
Responsable ressource
Lydia-Mai Ho-Dac
Contact :