REDAC
REssources Développées À CLLE-ERSS Laboratoire CLLE-ERSS







English version
Jeu d'évaluation pour le corpus TALN
Description

Le fichier contient le résultat de l'annotation manuelle effectuée dans le cadre de l'évaluation de modèles distributionnels, telle que présentée dans (Tanguy et al., 2015).

Ces données sont fondées sur le corpus TALN dans sa version couvrant les années 2007 à 2013.

Pour chacun des 30 mots suivants, 4 annotateurs différents ont sélectionné les voisins pertinents parmi une liste de candidats proposée par la méthode de pooling décrite dans l'article mentionné plus bas.

  • Ajectifs : complexe, computationnel, correct, empirique, important, précis, sémantique, significatif, spécialisé, temporel
  • Noms : élément, contrainte, dépendant, fréquence, graphe, méthode, performance, sémantique, signification, trait
  • Verbes : annoter, apparier, évaluer, calculer, caractériser, conduire, décrire, extraire, indexer, valider

La notion de voisin pertinent ne se limite pas à une relation sémantique particulière, les voisins peuvent ainsi être des synonymes, des hyperonymes, des hyponymes, des antonymes ou encore des mots sémantiquement liés.

Chaque ligne du fichier contient (séparés par des tabulations, en codage UTF-8) :

  • le mot-cible
  • la catégorie du mot-cible (ADJ pour adjectif, NC pour nom commun, V pour verbe)
  • le voisin sélectionné
  • le nombre d'annotateurs (de 1 à 4) ayant sélectionné ce voisin.
Conception
Responsable ressource
Franck Sajous
Contact :

Droits
Certains droits sont réservés. Le fichier est diffusé sous licence Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.

Téléchargement
gold-semdis-corpusTALN.csv

Référence
L. Tanguy, F. Sajous et N. Hathout (2015). Évaluation sur mesure de modèles distributionnels sur un corpus spécialisé : comparaison des approches par contextes syntaxiques et par fenêtres graphiques. TAL, 56(2), pp 103-127. [ Article ] [ Bibtex ]