REDAC
REsources Developed At CLLE CLLE research unit






CanEnVersion anglaise
Jeu d'évaluation pour le repérage des glissements de sens
Description

Un jeu d'évaluation a été développé afin de faciliter l'utilisation du CanEn corpus pour le repérage des glissements de sens induits par le contact en anglais québécois. Plus précisément, il permet d'évaluer les systèmes de repérage des changements sémantiques, la tâche étant définie comme une tâche de classification binaire (mots stables vs. changeants).

Le jeu d'évaluation contient 80 items: 40 items correspondent aux glissements de sens en anglais québécois, décrits dans la littérature sociolinguistique et attestés dans le corpus CanEn; les autres 40 items correspondent à des items de contrôle dont le sens ne devrait pas être influencé par le contact et qui ne présentent pas de variation régionale dans le corpus. La constitution du jeu d'évaluation et son utilisation dans une évaluation des systèmes de repérage des changements sémantiques sont présentées en plus de détails par Miletic et al. (2021).

Chaque ligne du fichier contient l’item lexical, sa catégorie grammaticale, et son étiquette de changement sémantique (séparés par des tabulations). L'étiquette correspond à "1" pour les glissements de sens, et à "0" pour les items de contrôle.


Responsable ressource
Filip Miletic
Contact:

Droits

Le jeu d'évaluation est diffusé sous la licence Creative Commons BY-NC-SA 4.0 licence.


Téléchargement

Références
  • Miletic, F., Przewozny-Desriaux, A. and Tanguy, L. (2021). Detecting contact-induced semantic shifts: What can embedding-based methods do in practice? Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP).