REDAC
REsources Developed At CLLE CLLE: Cognition, Langues, Langage, Ergonomie






Jeu d'évaluation CanEnVersion anglaise
Jeu d'évaluation pour le repérage des glissements de sens
Description

Un jeu d'évaluation a été développé afin de faciliter l'utilisation du CanEn corpus pour le repérage des glissements de sens induits par le contact en anglais québécois. Plus précisément, il permet d'évaluer les systèmes de repérage des changements sémantiques, la tâche étant définie comme une tâche de classification binaire (mots stables vs. changeants).

Le jeu d'évaluation contient 80 items: 40 items correspondent aux glissements de sens en anglais québécois, décrits dans la littérature sociolinguistique et attestés dans le corpus CanEn; les autres 40 items correspondent à des items de contrôle dont le sens ne devrait pas être influencé par le contact et qui ne présentent pas de variation régionale dans le corpus. La constitution du jeu d'évaluation et son utilisation dans une évaluation des systèmes de repérage des changements sémantiques sont présentées en plus de détails par Miletic et al. (2021).

Chaque ligne du fichier contient l’item lexical, sa catégorie grammaticale, et son étiquette de changement sémantique (séparés par des tabulations). L'étiquette correspond à "1" pour les glissements de sens, et à "0" pour les items de contrôle.

Pour les 40 mots correspondant aux glissements de sens, nous avons également développé une ressource enrichie de différents types d'informations permettant de caractériser le changement sémantique. Il s'agit plus précisément (i) d'un ensemble de mesures computationnelles de changement sémantique ; (ii) de propriétés linguistiques empiriques des mots en question (ex. fréquence, polysémie) ; (iii) des résultats d'entretiens sociolinguistiques avec 15 locuteurs de Montréal, et notamment les scores d'acceptabilité et les commentaires qualitatifs portant sur l'usage des 40 mots attestés dans notre corpus de tweets. Pour plus de détails, voir Miletic et al. (2023).


Responsable ressource
Filip Miletic
Contact :

Droits
Les données ci-dessous sont diffusées sous la licence Creative Commons BY-NC-SA 4.0 licence.

Téléchargement

Références
  • Miletic, F., Przewozny-Desriaux, A. and Tanguy, L. (2023). Understanding computational models of semantic change: New insights from the speech community. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP).PDF ]
  • Miletic, F., Przewozny-Desriaux, A. and Tanguy, L. (2021). Detecting contact-induced semantic shifts: What can embedding-based methods do in practice? Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 10852-10865.PDF ]