REDAC
REssources Développées À CLLE CLLE : Cognition, Langues, Langage, Ergonomie







English version
Corpus WikipédiaFR2008
Corpus texte extrait des 664982 articles de l'édition française de l'encyclopédie Wikipédia.
Description

Le corpus Wikipédia-FR a été constitué à partir du dump de la version française de l'encyclopédie Wikipédia du 18/06/2008. Ce dump correspond à la version « HTML statique » disponible à l'adresse : http://dumps.wikimedia.org/.

Les traitements appliqués à ce dump sont minimaux et ont consisté à extraire les parties textuelles des articles. Les sommaires numérotés de début d'articles ont été supprimés, ainsi que les sections « voir aussi » (liens vers des références externes). Les parties « notes » ont été conservées.

Le corpus a été étiqueté morphosyntaxiquement avec TreeTagger, de l'Université de Stuttgart.

Responsable ressource
Franck Sajous
Contact :

Droits
Ce corpus, comme l'encyclopédie dont il est extrait, est mis à disposition sous licence Creative Commons By-SA (paternité, partage à l'identique). Licence Creative Commons By-SA3.0

Téléchargement
  • Corpus au format texte [.txt.7z] (433 Mo).
    Format : Chaque article débute par une ligne
    <#id_num>
    id_num est un identifiant numérique unique. Dans les zones tabulaires (parties d'articles présentées initialement sous forme de tableaux), les changement de colonnes ont été signalés par le caractère | (pipe).
  • Corpus étiqueté morphosyntaxiquement [.tag.7z] (612 Mo).
    Format : Chaque article débute par une ligne
    <#id_num>
    id_num est un identifiant numérique unique.
    Les autres lignes ont le format suivant (1 token par ligne) :
    Forme    \t    POS    \t    Lemme.
  • Méta-données [.txt.7z] (12 Mo) : pour chaque article est donné un identifiant numérique unique, son titre et le nombre de mots qui en ont été extraits. Sont également précisées les catégories auxquelles appartient l'article. Ces informations sont données dans les 3 fichiers au format texte tabulé dont les champs sont décrits ci-dessous.
    FichierFormat
    wikipediaArticles.txtidentifiant d'article, titre d'article, nombre de mots
    wikipediaCategories.txtidentifiant de catégorie, intitulé de catégorie
    wikipediaArticlesCategorie.txtidentifiant d'article, identifiant de catégorie
    Une ligne <idArticle, idCatégorie> signifie que l'article dont l'identifiant est idArticle fait partie de la catégorie dont l'identifiant est idCatégorie. Un article appartient souvent à plusieurs catégories.
  • Table de fréquences [.txt.7z] (16 Mo) : donne pour chaque forme du corpus son nombre total d'occurrences. Ce fichier a été construit en utilisant un programme accompagnant l'ouvrage Perl pour les linguistes de Ludovic Tanguy et Nabil Hathout. Ce programme est disponible sur le site perl.linguistes.free.fr.