REDAC
REssources Développées À CLLE CLLE : Cognition, Langues, Langage, Ergonomie







English version
Corpus TALN
articles scientifiques issus des actes des conférences TALN et RECITAL de 1997 à 2019
Note de version
Cette page contient la version la plus à jour du corpus TALN. La version précédente, réalisée dans le cadre de l'atelier SemDis2014 est disponible ici.

Description

Le corpus TALN rassemble les articles des conférences TALN et RÉCITAL des années 1997 à 2019.

Il se compose de 1602 articles scientifiques en français qui traitent du domaine du traitement automatique des langues (TAL) pour un total de 5,8 millions de mots.

Les articles sont au format TEI et leur structure contient les éléments suivants :

  • métadonnées : titre, nom des auteurs, année, éditeurn lieu de la conférence, résumé (en français et en anglais), mots-clés (en français et en anglais). Un identifiant unique est attribué à chaque article, indiquant notamment la conférence (TALN/RECITAL) et le type d'article (long, court, poster, invité, démonstration, etc.)
  • corps du texte : sections et sous-sections (numéro, titre, type principal), figures et tables (numéro et légende), notes de bas de page. Les paragraphes sont marqués à titre indicatif, et correspondent généralement aux segments de texte séparés par une marque structurelle parmi les précédentes ou un saut de page. La liste des références bibliographiques est indiquée mais non analysée (pas de découpage en items).

Nous avons converti les fichiers PDF au format TXT puis XML grâce à des outils opensource de conversion (pdfminer de python) et de structuration (toolkit ParsCit) pour extraire le contenu textuel et pertinent des articles.

Un premier travail a ensuite été effectué pour nettoyer les fichiers et annoter leur structure interne Un deuxième travail de nettoyage manuel et semi-automatique du corpus a permis de récupérer les portions manquantes d'articles, une vérification de la structure XML ainsi qu'une conversion au format TEI.

Ce corpus a été constitué dans le cadre du projet ANR ADDICTE avec pour objectif l'apprentissage de modèles d'analyse distributionnelle en domaine de spécialité, et notamment pour étudier l'impact de la structure logique des documents.

Responsable ressource
Ludovic Tanguy :

Droits
Les articles des conférences TALN et RECITAL sont la propriété de l'Association pour Traitement Automatique des LAngues (ATALA).
Merci de lire la licence d'utilisation du corpus.

Téléchargement
Références