|
|||||||
|
articles scientifiques issus des actes des conférences TALN et RECITAL de 1997 à 2019 Note de version
Cette page contient la version la plus à jour du corpus TALN.
La version précédente, réalisée dans le cadre de l'atelier SemDis2014 est
disponible ici.Description
Le corpus TALN rassemble les articles des conférences TALN et RÉCITAL des années 1997 à 2019. Il se compose de 1602 articles scientifiques en français qui traitent du domaine du traitement automatique des langues (TAL) pour un total de 5,8 millions de mots. Les articles sont au format TEI et leur structure contient les éléments suivants :
Nous avons converti les fichiers PDF au format TXT puis XML grâce à des outils opensource de conversion (pdfminer de python) et de structuration (toolkit ParsCit) pour extraire le contenu textuel et pertinent des articles. Un premier travail a ensuite été effectué pour nettoyer les fichiers et annoter leur structure interne Un deuxième travail de nettoyage manuel et semi-automatique du corpus a permis de récupérer les portions manquantes d'articles, une vérification de la structure XML ainsi qu'une conversion au format TEI. Ce corpus a été constitué dans le cadre du projet ANR ADDICTE avec pour objectif l'apprentissage de modèles d'analyse distributionnelle en domaine de spécialité, et notamment pour étudier l'impact de la structure logique des documents. Responsable ressource
Ludovic Tanguy :
Droits
Les articles des conférences TALN et RECITAL sont la propriété de
l'Association pour Traitement Automatique des LAngues (ATALA).Merci de lire la licence d'utilisation du corpus. Téléchargement
Références
|