REDAC
REsources Developed At CLLE CLLE: Cognition, Langues, Langage, Ergonomie







version française English version
ParCoTrain
morfosintaksička analiza i lematizacija srpskog jezika
Opis

ParCoTrain je korpus za učenje i evaluaciju alata za automatsku identifikaciju vrsta reči i lematizaciju srpskog. Lematizovani deo korpusa sadrži 95 585 ručno anotiranih tokena, dok deo obogaćen anotacijom vrsta reči sadrži ukupno 153 625 tokena, od kojih je 95 585 anotirano ručno, a 57 977 anotirano automatski, a anotacija je potom ručno proverena i ispravljena. Korpus je zasnovan na tekstu 3 savremena srpska romana iz druge polovine XX veka.

Anotacija vrsta reči sadrži glavnu kategoriju i pod-kategoriju, a za prideve i priloge navodi se i stepen poređenja. Detaljan pregled etiketa korišćenih pri anotaciji dat je u dokumentaciji u PDF formatu koju možete skinuti preko linka u dnu strane.

Ovaj resurs razvili su Aleksandra Miletić (istraživačka ekipa CLLE-ERSS, Univerzitet Tuluz - Žan Žores), Antonio Balvet (istraživačka ekipa STL, Univerzitet Lil 3) i Dejan Stošić (istraživačka ekipa CLLE-ERSS, Univerzitet Tuluz - Žan Žores) u okviru projekta ParCoLab.

Kontakt
Aleksandra Miletic


Prava
Neka prava su zadržana. ParCoTrain se distribuira pod licencom Creative Commons BY-NC-SA 3.0 . Molimo vas da je pažljivo pročitate.

Fajlovi koje možete skinuti
References
  • Balvet, A., Stosic, D., & Miletic, A. (2014). TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français. Actes du 4e Congrès Mondial de Linguistique Française (CMLF 2014), pp. 2551-2563, Berlin, Germany. [PDF] [BibTex]
  • Balvet, A., Stosic, D., & Miletic, A. (2014). TALC-Sef a Manually-revised POS-Tagged Literary Corpus in Serbian, English and French. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), pp. 4105-4110, Reykjavik, Iceland. [PDF] [BibTex]