REDAC
REsources Developed At CLLE CLLE research unit






CanEnVersion anglaise
Un corpus de tweets d'anglais canadien
Description

CanEn CanEn est un corpus de tweets destiné à l’étude de la variation régionale en anglais canadien, avec un accent particulier sur les régions dialectales de Toronto, Montréal et Vancouver. Le corpus contient 78,8 millions de tweets, soit 1,3 milliard de tokens, qui ont été publiés par 196000 utilisateurs distincts.

Le corpus a été constitué à travers l’identification des utilisateurs de Twitter dans les trois villes (janvier-novembre 2019), la récupération de tous les tweets produits par ceux-ci, le filtrage des données collectées en termes de localisation des utilisateurs et de langue des tweets, et l’exclusion automatique des quasi-doublons. Nous n’avons donc retenu que les tweets qui sont écrits en anglais ; ont été publiés par des utilisateurs qui déclarent vivre à Toronto, Montréal ou Vancouver ; présentent une quantité réduite de contenu répétitif ; et sont répartis de manière essentiellement homogène sur les trois villes. Voir Miletic et al. (2020) pour plus de détails sur la structure du corpus final, les étapes de collecte de données, ainsi que des études exploratoires sur la variation régionale.

Conformément à la Politique développeurs de Twitter, nous diffusons les identifiants des tweets récoltés, regroupés dans trois listes correspondant chacune à une ville. Ces listes permettent de récupérer rapidement les données complètes fournies par Twitter au format JSON en utilisant des logiciels librement disponibles (p. ex. Hydrator). Notez que certains tweets initialement identifiés peuvent ne pas être disponibles en raison de la suppression de tweets individuels ou de comptes utilisateurs entiers.


Responsable ressource
Filip Miletic
Contact:

Droits

Le corpus est diffusé sous la licence Creative Commons BY-NC-SA 4.0 licence.

La Politique développeurs de Twitter stipule que “[l]es chercheurs universitaires sont autorisés à distribuer un nombre illimité d'identifiants de Tweets et/ou d'utilisateurs s’ils le font pour le compte d'un établissement universitaire et dans le seul but d’une recherche non commerciale”. Toute réutilisation de ce corpus est donc limitée à la recherche non commerciale. Le téléchargement du corpus implique l’acceptation des Conditions d’utilisation, de la Politique de confidentialité, de l’Accord développeurs et de la Politique développeurs de Twitter.


Téléchargement

References
  • Miletic, F., Przewozny-Desriaux, A. and Tanguy, L. (2020). Collecting Tweets to Investigate Regional Variation in Canadian English. Proceedings of LREC 2020, 12th International Conference on Language Resources and Evaluation. Marseille, France. [ PDF ]
  • Miletic, F., Przewozny-Desriaux, A. and Tanguy, L. (2021). Detecting contact-induced semantic shifts: What can embedding-based methods do in practice? Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP).Jeu d'évaluation ]