Jeux d'évaluation pour la tâche de substitution lexicale SemDis

REssources Développées À CLLE
Accueil Ressources Applications Corpus Lexiques Autres À propos CLLE Site Mention légale Contact

Description

Les données disponibles sur cette page correspondent aux données d'évaluation de la tâche de substitution lexicale du français proposée dans le cadre de l'atelier SemDis 2014.

Les 300 phrases en français pour lesquelles un mot-cible était à substituer. Il y a 30 mots-cibles différents au total (10 adjectifs, 10 noms, 10 verbes).
Le premier gold standard établi a priori en demandant à des juges de fournir des substituts. Le score de chaque substitut est le nombre de juges qui l'ont proposé (de 1 à 7). Il contient un total de 1771 substituts.
Le second gold standard établi a posteriori en demandant à des juges d'évaluer la pertinence des substituts proposés par les systèmes qui ont participé à l'évaluation. Le score de chaque substitut est la moyenne des scores attribués par les juges (de 0 à 3). Les substituts du premier jeu d'évaluation ont également été annotés. Ce jeu de données contient 6034 substituts (nous avons écarté ceux qui ont reçu un score nul de la part de tous les juges).

Conception

Responsable ressource

Ludovic Tanguy
Contact : ludovic.tanguy@univ-tlse2.fr

Droits

Certains droits sont réservés. Le fichier est diffusé sous licence Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.

Téléchargement

Corpus : fichier XML et DTD
Première version du gold standard : fichier TXT
Seconde version du gold standard : fichier TXT

Format

Les deux fichiers du gold standard suivent le même format, avec une phrase-cible par ligne :

mot-cible.catégorie n°phrase :: substitut1 score; substitut2 score;

Exemple :

affection.n 145 :: maladie 3.0; pathologie 3.0; lésion 2.25; syndrome 2.0; mal 1.6666666666666667; complication 1.6666666666666667; inflammation 1.5; trouble 1.5; malformation 1.3333333333333333; atteinte 1.0; altération 1.0; anomalie 1.0; dysfonctionnement 1.0; pépin 0.8333333333333334; infection 0.75; algie 0.5;

Note

Dans la seconde version du jeu d'évaluation il manque des annotations pour les substituts (adjectivaux) des phrases numéro 52, 90, 106, 179, 185, 186, 187, 192, 204, 209, 211, 231, 232, 272 et 287. Les items correspondants ont posé des problèmes lors de l'évaluation (contexte trop court, mauvaise catégorie du mot-cible) ou sont des doublons.

Références

Pour le corpus et le premier gold standard :
C. Fabre, N. Hathout, L.-M. Ho-Dac, F. Morlane-Hondère, P. Muller, F. Sajous, L. Tanguy et T. Van de Cruys (2014). Présentation de l'atelier SemDis 2014 : sémantique distributionnelle pour la substitution lexicale et l'exploration de corpus spécialisés. Actes de l'atelier SemDis 2014, 21e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2014). pp. 196-205, Marseille. [ Article ] [ Bibtex ]
Pour le second gold standard :
L. Tanguy, C. Fabre and L. Rivière (2018). Extending the gold standard for a lexical substitution task: is it worth it? Proceedings of LREC.