REDAC : liste des corpus

REssources Développées À CLLE
Accueil Ressources Applications Corpus Lexiques Autres À propos CLLE Site Mention légale Contact

CORPUS
Liste des corpus présents sur le portail REDAC

CanEn	CanEn est un corpus de tweets destiné à l'étude de la variation régionale en anglais canadien, avec un accent particulier sur les régions dialectales de Toronto, Montréal et Vancouver. Le corpus contient 78,8 millions de tweets, soit 1,3 milliard de tokens, qui ont été publiés par 196000 utilisateurs distincts.
	RésolCo (Résolution de problèmes de Cohésion) est un corpus de manuscrits d'élèves et d'étudiants produits en réponse à une consigne d'écriture conçue pour mettre en oeuvre de stratégies de résolution de problèmes de cohésion. Le corpus comprend des annotations manuelles concernant le processus d'écriture, les variantes orthographiques observées et certaines structures discursives.
Est Républicain	Version analysée syntaxiquement du corpus composé d'articles du quotidien l'Est Républicain, parus en 1999, 2002 et 2003.
ParcoTrain	ParCoTrain est un corpus d'entraînement et d'évaluation pour l'étiquetage en parties du discours et la lemmatisation du serbe, développé dans le cadre du projet ParCoLab. La partie lemmatisée contient 95 585 tokens annotés manuellement, alors que l'échantillon annoté en parties du discours compte 153 625 tokens (dont 95 585 annotés manuellement et 57 977 annotés automatiquement et validés manuellement). Les textes source sont des romans contemporains serbes datant de la deuxième moitié du 20e siècle.
TALN	Corpus composés de 1602 articles scientifiques issus des actes des conférences TALN et RECITAL entre 1997 et 2019.
	Le corpus GÉOPO regroupe 32 textes longs qui sont des articles expositifs. Il contient environ 270 000 mots et a été annoté syntaxiquement puis discursivement.
	La ressource ANNODIS est un corpus de français écrit enrichi d'annotations discursives. Le corpus (687 000 mots) est diversifié en termes de genre, longueur et organisation discursive. Les objets annotés, qui reflètent deux approches du discours, sont les relations rhétoriques et deux types de structures multi-échelles : chaînes topicales et structures énumératives. Les textes sont diffusés au format XML selon la norme TEI-P5 (renseignement des méta-données et de la structure du document) et au format GLOZZ (format résultant de l'annotation manuelle via l'interface GLOZZ).
WikipédiaFR2008	Corpus au format texte brut et étiqueté morphosyntaxiquement issu de l'encyclopédie Wikipédia, comprenant 262 millions de mots répartis dans 664982 articles.