ParCoTrain - étiquetage et lemmatisation du serbe

REssources Développées À CLLE
Accueil Ressources Applications Corpus Lexiques Autres À propos CLLE Site Mention légale Contact

Corpus ParCoTrain
étiquetage et lemmatisation du serbe

Description

ParCoTrain est un corpus d'entraînement et d'évaluation pour l'étiquetage en parties du discours et la lemmatisation du serbe. La partie du corpus lemmatisée contient 95 585 tokens annotés manuellement, alors que l'échantillon annoté en parties du discours compte au total 153 625 tokens (dont 95 585 ont été annotés manuellement, alors que 57 977 ont été annotés automatiquement et validés manuellement). Les textes source du corpus sont des romans contemporains serbes datant de la deuxième moitié du 20e siècle.

L'annotation en parties du discours indique la catégorie principale aussi bien que la sous-catégorie. Pour les adjectifs et les adverbes, on indique également le degré de comparaison. Une présentation détaillée du jeu d'étiquettes utilisé peut être trouvée dans la documentation PDF téléchargeable ci-dessous.

Cette ressource a été développée dans le cadre du projet ParCoLab par Aleksandra Miletic (CLLE-ERSS, Université Toulouse - Jean Jaurès), Antonio Balvet (STL, Université Lille 3) et Dejan Stosic (CLLE-ERSS, Université Toulouse - Jean Jaurès).

Responsable ressource

Aleksandra Miletic
Contact :

Droits

Certains droits sont réservés. ParCoTrain est diffusé sous la licence Creative Commons BY-NC-SA 3.0.

Téléchargement

Références

Balvet, A., Stosic, D., & Miletic, A. (2014). TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français. Actes du 4e Congrès Mondial de Linguistique Française (CMLF 2014), pp. 2551-2563, Berlin, Alemagne. [PDF] [BibTex]
Balvet, A., Stosic, D., & Miletic, A. (2014). TALC-Sef a Manually-revised POS-Tagged Literary Corpus in Serbian, English and French. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), pp. 4105-4110, Reykjavik, Iceland. [PDF] [BibTex]