|
|||||||
|
morfosintaksička analiza i lematizacija srpskog jezika Opis
ParCoTrain je korpus za učenje i evaluaciju alata za automatsku identifikaciju vrsta reči i lematizaciju srpskog. Lematizovani deo korpusa sadrži 95 585 ručno anotiranih tokena, dok deo obogaćen anotacijom vrsta reči sadrži ukupno 153 625 tokena, od kojih je 95 585 anotirano ručno, a 57 977 anotirano automatski, a anotacija je potom ručno proverena i ispravljena. Korpus je zasnovan na tekstu 3 savremena srpska romana iz druge polovine XX veka. Anotacija vrsta reči sadrži glavnu kategoriju i pod-kategoriju, a za prideve i priloge navodi se i stepen poređenja. Detaljan pregled etiketa korišćenih pri anotaciji dat je u dokumentaciji u PDF formatu koju možete skinuti preko linka u dnu strane. Ovaj resurs razvili su Aleksandra Miletić (istraživačka ekipa CLLE-ERSS, Univerzitet Tuluz - Žan Žores), Antonio Balvet (istraživačka ekipa STL, Univerzitet Lil 3) i Dejan Stošić (istraživačka ekipa CLLE-ERSS, Univerzitet Tuluz - Žan Žores) u okviru projekta ParCoLab. Kontakt
Aleksandra MileticPrava
Neka prava su zadržana. ParCoTrain se distribuira pod licencom
Creative Commons BY-NC-SA 3.0
. Molimo vas da je pažljivo pročitate.
Fajlovi koje možete skinuti
References
|