REDAC : Corpus texte WikipédiaFR2008

REssources Développées À CLLE
Accueil Ressources Applications Corpus Lexiques Autres À propos CLLE Site Mention légale Contact

Corpus WikipédiaFR2008
Corpus texte extrait des 664982 articles de l'édition française de l'encyclopédie Wikipédia.

Description

Le corpus Wikipédia-FR a été constitué à partir du dump de la version française de l'encyclopédie Wikipédia du 18/06/2008. Ce dump correspond à la version « HTML statique » disponible à l'adresse : http://dumps.wikimedia.org/.

Les traitements appliqués à ce dump sont minimaux et ont consisté à extraire les parties textuelles des articles. Les sommaires numérotés de début d'articles ont été supprimés, ainsi que les sections « voir aussi » (liens vers des références externes). Les parties « notes » ont été conservées.

Le corpus a été étiqueté morphosyntaxiquement avec TreeTagger, de l'Université de Stuttgart.

Responsable ressource

Franck Sajous
Contact :

Droits

Ce corpus, comme l'encyclopédie dont il est extrait, est mis à disposition sous licence Creative Commons By-SA (paternité, partage à l'identique).

Téléchargement

Corpus au format texte [.txt.7z] (433 Mo).
Format : Chaque article débute par une ligne
<#id_num>
où id_num est un identifiant numérique unique. Dans les zones tabulaires (parties d'articles présentées initialement sous forme de tableaux), les changement de colonnes ont été signalés par le caractère | (pipe).
Corpus étiqueté morphosyntaxiquement [.tag.7z] (612 Mo).
Format : Chaque article débute par une ligne
<#id_num>
où id_num est un identifiant numérique unique.
Les autres lignes ont le format suivant (1 token par ligne) :
Forme \t POS \t Lemme.

Méta-données [.txt.7z] (12 Mo) : pour chaque article est donné un identifiant numérique unique, son titre et le nombre de mots qui en ont été extraits. Sont également précisées les catégories auxquelles appartient l'article. Ces informations sont données dans les 3 fichiers au format texte tabulé dont les champs sont décrits ci-dessous.

Fichier	Format
`wikipediaArticles.txt`	identifiant d'article, titre d'article, nombre de mots
`wikipediaCategories.txt`	identifiant de catégorie, intitulé de catégorie
`wikipediaArticlesCategorie.txt`	identifiant d'article, identifiant de catégorie Une ligne `<idArticle, idCatégorie>` signifie que l'article dont l'identifiant est `idArticle` fait partie de la catégorie dont l'identifiant est `idCatégorie`. Un article appartient souvent à plusieurs catégories.

Table de fréquences [.txt.7z] (16 Mo) : donne pour chaque forme du corpus son nombre total d'occurrences. Ce fichier a été construit en utilisant un programme accompagnant l'ouvrage Perl pour les linguistes de Ludovic Tanguy et Nabil Hathout. Ce programme est disponible sur le site perl.linguistes.free.fr.