Corpus WikipédiaFR2008 Corpus texte extrait des 664982 articles de l'édition française de l'encyclopédie Wikipédia.
Description
Le corpus Wikipédia-FR a été constitué à partir du dump de la version française de l'encyclopédie Wikipédia du 18/06/2008.
Ce dump correspond à la version « HTML statique » disponible à l'adresse : http://dumps.wikimedia.org/.
Les traitements appliqués à ce dump sont minimaux et ont consisté à extraire les parties textuelles des articles.
Les sommaires numérotés de début d'articles ont été supprimés, ainsi que les sections « voir aussi »
(liens vers des références externes). Les parties « notes » ont été conservées.
Le corpus a été étiqueté morphosyntaxiquement avec TreeTagger, de l'Université de Stuttgart.
Ce corpus, comme l'encyclopédie dont il est extrait, est mis à disposition sous licence
Creative Commons By-SA (paternité, partage à l'identique).
Téléchargement
Corpus au format texte [.txt.7z] (433 Mo).
Format : Chaque article débute par une ligne <#id_num>
où id_num est un identifiant numérique unique.
Dans les zones tabulaires (parties d'articles présentées initialement sous forme de tableaux), les changement de colonnes ont été signalés
par le caractère | (pipe).
Corpus étiqueté morphosyntaxiquement [.tag.7z] (612 Mo).
Format : Chaque article débute par une ligne <#id_num>
où id_num est un identifiant numérique unique.
Les autres lignes ont le format suivant (1 token par ligne) : Forme \t POS \t Lemme.
Méta-données [.txt.7z] (12 Mo) : pour chaque article est donné un identifiant numérique unique, son titre et le nombre de mots qui en ont été extraits.
Sont également précisées les catégories auxquelles appartient l'article. Ces informations sont données dans les 3 fichiers au format texte tabulé
dont les champs sont décrits ci-dessous.
Fichier
Format
wikipediaArticles.txt
identifiant d'article, titre d'article, nombre de mots
wikipediaCategories.txt
identifiant de catégorie, intitulé de catégorie
wikipediaArticlesCategorie.txt
identifiant d'article, identifiant de catégorie
Une ligne <idArticle, idCatégorie> signifie que l'article dont l'identifiant est idArticle
fait partie de la catégorie dont l'identifiant est idCatégorie. Un article appartient souvent à plusieurs catégories.
Table de fréquences [.txt.7z] (16 Mo) : donne pour chaque forme du corpus son nombre total d'occurrences.
Ce fichier a été construit en utilisant un programme accompagnant l'ouvrage Perl pour les linguistes de Ludovic Tanguy et Nabil Hathout.
Ce programme est disponible sur le site perl.linguistes.free.fr.