REDAC
REssources Développées À CLLE-ERSS Laboratoire CLLE-ERSS







English version
CORPUS
Liste des corpus présents sur le portail REDAC
ParcoTrain ParCoTrain est un corpus d'entraînement et d'évaluation pour l'étiquetage en parties du discours et la lemmatisation du serbe, développé dans le cadre du projet ParCoLab. La partie lemmatisée contient 95 585 tokens annotés manuellement, alors que l'échantillon annoté en parties du discours compte 153 625 tokens (dont 95 585 annotés manuellement et 57 977 annotés automatiquement et validés manuellement). Les textes source sont des romans contemporains serbes datant de la deuxième moitié du 20e siècle.
TALN Corpus composés de 586 articles scientifiques issus des actes des conférences TALN et RECITAL entre 2007 et 2013.
Le corpus GÉOPO regroupe 32 textes longs qui sont des articles expositifs. Il contient environ 270 000 mots et a été annoté syntaxiquement puis discursivement.
ANNODIS La ressource ANNODIS est un corpus de français écrit enrichi d'annotations discursives. Le corpus (687 000 mots) est diversifié en termes de genre, longueur et organisation discursive. Les objets annotés, qui reflètent deux approches du discours, sont les relations rhétoriques et deux types de structures multi-échelles : chaînes topicales et structures énumératives. Les textes sont diffusés au format XML selon la norme TEI-P5 (renseignement des méta-données et de la structure du document) et au format GLOZZ (format résultant de l'annotation manuelle via l'interface GLOZZ).
WikipédiaFR2008 Corpus au format texte brut et étiqueté morphosyntaxiquement issu de l'encyclopédie Wikipédia, comprenant 262 millions de mots répartis dans 664982 articles.