REDAC
REssources Développées À CLLE CLLE : Cognition, Langues, Langage, Ergonomie







English version  Serbian version
Corpus ParCoTrain
étiquetage et lemmatisation du serbe
Description

ParCoTrain est un corpus d'entraînement et d'évaluation pour l'étiquetage en parties du discours et la lemmatisation du serbe. La partie du corpus lemmatisée contient 95 585 tokens annotés manuellement, alors que l'échantillon annoté en parties du discours compte au total 153 625 tokens (dont 95 585 ont été annotés manuellement, alors que 57 977 ont été annotés automatiquement et validés manuellement). Les textes source du corpus sont des romans contemporains serbes datant de la deuxième moitié du 20e siècle.

L'annotation en parties du discours indique la catégorie principale aussi bien que la sous-catégorie. Pour les adjectifs et les adverbes, on indique également le degré de comparaison. Une présentation détaillée du jeu d'étiquettes utilisé peut être trouvée dans la documentation PDF téléchargeable ci-dessous.

Cette ressource a été développée dans le cadre du projet ParCoLab par Aleksandra Miletic (CLLE-ERSS, Université Toulouse - Jean Jaurès), Antonio Balvet (STL, Université Lille 3) et Dejan Stosic (CLLE-ERSS, Université Toulouse - Jean Jaurès).

Responsable ressource
Aleksandra Miletic
Contact :

Droits
Certains droits sont réservés. ParCoTrain est diffusé sous la licence Creative Commons BY-NC-SA 3.0.

Téléchargement
Références
  • Balvet, A., Stosic, D., & Miletic, A. (2014). TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français. Actes du 4e Congrès Mondial de Linguistique Française (CMLF 2014), pp. 2551-2563, Berlin, Alemagne. [PDF] [BibTex]
  • Balvet, A., Stosic, D., & Miletic, A. (2014). TALC-Sef a Manually-revised POS-Tagged Literary Corpus in Serbian, English and French. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), pp. 4105-4110, Reykjavik, Iceland. [PDF] [BibTex]