Description
Les données disponibles sur cette page correspondent aux données
d'évaluation de la tâche de substitution lexicale du français proposée dans le
cadre de l'atelier SemDis 2014.
- Les 300 phrases en français pour lesquelles un mot-cible était
à substituer. Il y a 30 mots-cibles différents au total (10 adjectifs,
10 noms, 10 verbes).
- Le premier gold standard établi a priori en
demandant à des juges de fournir des substituts. Le score de chaque
substitut est le nombre de juges qui l'ont proposé (de 1 à 7). Il contient un total de 1771 substituts.
- Le second gold standard établi a posteriori en
demandant à des juges d'évaluer la pertinence des substituts
proposés par les systèmes qui ont participé à l'évaluation. Le score
de chaque substitut est la moyenne des scores attribués par les
juges (de 0 Ã 3). Les substituts du premier jeu
d'évaluation ont également été annotés. Ce jeu de données contient 6034 substituts (nous avons écarté ceux qui ont reçu un score nul de la part de tous les juges).
Conception
Responsable ressource
Ludovic Tanguy
Contact :
ludovic.tanguy@univ-tlse2.fr
Droits
Certains droits sont réservés.
Le fichier est diffusé sous licence Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.
Téléchargement
Format
Les deux fichiers du gold standard suivent le même format, avec une phrase-cible par ligne :
mot-cible.catégorie n°phrase :: substitut1 score; substitut2 score;
Exemple :
affection.n 145 :: maladie 3.0; pathologie 3.0; lésion 2.25; syndrome 2.0; mal 1.6666666666666667; complication 1.6666666666666667; inflammation 1.5; trouble 1.5; malformation 1.3333333333333333; atteinte 1.0; altération 1.0; anomalie 1.0; dysfonctionnement 1.0; pépin 0.8333333333333334; infection 0.75; algie 0.5;
Note
Dans la seconde version du jeu d'évaluation il manque des annotations pour les substituts (adjectivaux) des phrases numéro 52, 90, 106, 179, 185, 186, 187, 192, 204, 209, 211, 231, 232, 272 et 287. Les items correspondants ont posé des problèmes lors de l'évaluation (contexte trop court, mauvaise catégorie du mot-cible) ou sont des doublons.
Références
- Pour le corpus et le premier gold standard :
C. Fabre, N. Hathout, L.-M. Ho-Dac, F. Morlane-Hondère, P. Muller, F. Sajous, L. Tanguy et T. Van de Cruys (2014). Présentation de l'atelier SemDis 2014 : sémantique distributionnelle pour la substitution lexicale et l'exploration de corpus spécialisés. Actes de l'atelier SemDis 2014, 21e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2014).
pp. 196-205, Marseille.
[ Article ]
[ Bibtex ]
- Pour le second gold standard :
L. Tanguy, C. Fabre and L. Rivière (2018). Extending the gold standard for a lexical substitution task: is it worth it? Proceedings of LREC.