|
|||||||
|
étiquetage et lemmatisation du serbe Description
ParCoTrain est un corpus d'entraînement et d'évaluation pour l'étiquetage en parties du discours et la lemmatisation du serbe. La partie du corpus lemmatisée contient 95 585 tokens annotés manuellement, alors que l'échantillon annoté en parties du discours compte au total 153 625 tokens (dont 95 585 ont été annotés manuellement, alors que 57 977 ont été annotés automatiquement et validés manuellement). Les textes source du corpus sont des romans contemporains serbes datant de la deuxième moitié du 20e siècle. L'annotation en parties du discours indique la catégorie principale aussi bien que la sous-catégorie. Pour les adjectifs et les adverbes, on indique également le degré de comparaison. Une présentation détaillée du jeu d'étiquettes utilisé peut être trouvée dans la documentation PDF téléchargeable ci-dessous. Cette ressource a été développée dans le cadre du projet ParCoLab par Aleksandra Miletic (CLLE-ERSS, Université Toulouse - Jean Jaurès), Antonio Balvet (STL, Université Lille 3) et Dejan Stosic (CLLE-ERSS, Université Toulouse - Jean Jaurès). Responsable ressource
Aleksandra MileticContact : Droits
Certains droits sont réservés. ParCoTrain est diffusé sous la licence Creative Commons BY-NC-SA 3.0.
Téléchargement
Références
|