﻿Ce dossier contient les fichiers d'un corpus d'entraînement et d'évaluation pour le POS-tagging et la lemmatisation du serbe. Il a été élaboré dans le cadre du projet ParCoLab (http://parcolab.univ-tlse2.fr/). Il est basé sur des textes littéraires datant de la deuxième moitié du 20e siècle.

Auteurs :	Aleksandra Miletic (CLLE-ERSS, Université Toulouse - Jean Jaurès)
			Dejan Stosic (CLLE-ERSS, Université Toulouse - Jean Jaurès) 
			Antonio Balvet (STL, Université Lille 3)
Contact :  aleksandra.miletic at univ-tlse2.fr


Description générale :
Format: csv
Séparateur de colonnes : tabulation (\t)
Encodage : UTF-8
Caractère de fin de ligne: CR-LF (\r\n)

Liste des ouvrages utilisés :
Kiš, Danilo. "Enciklopedija mrtvih", 2000. Beograd: BIGZ 
Stevanović, Vidosav. "Testament", 1986. Beograd: SKZ.
Kiš, Danilo. "Bašta, pepeo", 2010. Podgorica: Narodna knjiga.

Liste des fichiers :

1. enciklopedija-testament.txt
Taille :					95585 tokens
	"Encilopedija mrtvih": 	47792 tokens
	"Testament" : 			47793 tokens
Annotation: POS et lemmatisation. Annotation manuelle.
Format: [token][tab][lemme][tab][POS]
Contenu : "Enciklopedija mrtvih" et "Testament". Les phrases apparaissent dans un ordre aléatoire.

enciklopedija-testament.txt représente une concaténation des deux fichiers suivants :

2. enciklopedija.txt
Taille :	47792 tokens
Annotation: POS et lemmatisation. Annotation manuelle.
Format: [token][tab][lemme][tab][POS]
Contenu : "Enciklopedija mrtvih". Les phrases apparaissent dans un ordre aléatoire.

3. testament.txt
Taille :	47793 tokens
Annotation: POS et lemmatisation. Annotation manuelle.
Format: [token][tab][lemme][tab][POS]
Contenu : "Testament". Les phrases apparaissent dans un ordre aléatoire.


Les 4 fichiers suivants représentent des échantillons équilibrés dérivés de enciklopedija.txt et testament.txt. Chacun des deux fichiers a été divisé en deux parties de manière à avoir un nombre de tokens aussi proche que possible dans les 4 fichiers, tout en préservant l'unité phrastique. Ils reprennent donc le même format et la même annotation que les fichiers précédents.
Ces échantillons peuvent être utilisés dans le cadre d'une validation croisée à 4 itérations.

4. enciklopedija-sample1.txt
Taille : 23908 tokens

5. enciklopedija-sample2.txt
Taille : 23885 tokens

6. testament-sample1.txt
Taille : 23908 tokens

7. testament-sample2.txt
Taille : 23884 tokens

Un dernier fichier avec seule l'annotation en parties du discours est également disponible. Il a été annoté automatiquement avec BTagger (Gesmundo & Samardzic, 2012) entraîné sur les quatre fichiers échantillons (fichiers *sample*). L'annotation automatique a ensuite été validée manuellement. Ce fichier a été utilisé par la suite afin d'augmenter le corpus d'entraînement pour le POS-tagging et disposer d'un total de 153625 tokens annotés en parties du discours. 

8. basta.txt
Taille :	57977 tokens
Annotation: POS. Annotation automatique validée manuellement.
Format : [token][tab][POS]
Contenu : "Bašta, pepeo". Les phrases apparaissent dans l'ordre original.

Si l'on souhaite créer un corpus d'entraînement pour le POS-tagging en ajoutant basta.txt à enciklopedija-testament.txt, on peut le faire de manière suivante :

1. créer un fichier contenant seulement l'annotation POS à partir de enciklopedija-testament.txt:
$ cut -f 1,3 enciklopedija-testament.txt > enciklopedija-testament-POS.txt

2. concaténer ce fichier et basta.txt :
$ cat enciklopedija-testament-POS.txt basta.txt > enciklopedija-testament-basta-POS.txt

Annotation POS utilisée 
Le jeu d'étiquettes utilisé pour l'annotation de ce corpus d'entraînement contient 45 tags. Comme il était initialement prévu d'utiliser TreeTagger pour annoter les trois volets du corpus, le jeu d'étiquettes proposé par l'outil a servi de point de départ dans l'identification des étiquettes pour le traitement du serbe. Elles encodent la partie du discours principale, ainsi que la sous-catégorie. Pour les adjectifs et les adverbes, on indique également le degré de comparaison. Les étiquettes ont la forme suivante : la catégorie principale est donnée en majuscules, suivie de deux points, suivis de la sous-catégorie en minuscules. Quelques exemples des étiquettes utilisées sont donnés dans la suite.

NOM:nam = nom propre
NOM:com = nom commun
ADJ:sup = adjectif au superlatif
ADJ:rel = adjectif relatif

Une description plus détaillée du jeu d'étiquettes utilisé peut être trouvée dans la documentation PDF disponible sur la page de téléchargement du corpus.


