REDAC
REssources Développées À CLLE-ERSS Laboratoire CLLE-ERSS






Corpus GÉOPO
articles expositifs issus de l'IFRI, Institut Français des Relations Internationales
Description

Le corpus GEOPO est constitué d'environ 270 000 mots. Il regroupe 32 textes longs qui sont des articles expositifs (informatifs et argumentatifs) proposant des réflexions relatives à notre monde d'aujourd'hui (la crise pétrolière, la guerre contre "l'axe du mal", le terrorisme, l'explosion chinoise, la paix au moyen-orient, etc.)

Responsable ressource
Lydia-Mai Ho-Dac


Droits
Le corpus Géopo est disponible sous licence Creative Commons By-NC-SA 2.0 (Patternité, usage non commercial, partage à l'identique). Merci de la lire attentivement.

Téléchargement
  • corpus brut [.txt.bz2] où les titres d'articles sont précédés de la mention "TITRE : ", et le paragraphe concernant des informations sur les auteurs de la mention "AUTEUR".
    Toutes les notes de bas de page et les figures ont été enlevées. Pour retrouver la mise en forme d'orgine, les originaux au format pdf ont été mis dans l'archive suivante.
  • articles d'origine [.tar.bz2], tels que téléchargés (en PDF) sur le site de l'IFRI. Ils sont numérotés dans leur ordre d'apparition dans le corpus.
  • description quantitative [.xls] de leur contenu
  • corpus syntexé [.anasynt.bz2] (étiqueté syntaxiquement par le logiciel Syntex développé par Didier Bourigault)
  • Trois versions annotées du corpus sont également mises à disposition :
    Une version XML simple [.xml.bz2] où sont délimités les différents objets textuels : les sections, les paragraphes, les phrases, les titres de section et les énumérations. Les textes y sont identifiés selon le même identifiant que dans l'archive des pdf d'origine.
    Une version XML plus complexe [.xml.bz2] qui reprend la délimitation des objets textuels et y ajoute l'annotation de tous les éléments présents en position préverbale, ainsi que toutes les constructions spéciales rencontrées.
    La description des annotations [.txt] effectuées est également disponible.
    Une version HTML (existe en version compressée [.html.bz2]) qui offre une visualisation colorée de GEOPO où les différents éléments annotés sont colorés et hyperliés au prochain élément de même type.
    Le fichier xslt [.xsl] qui a permis le passage de la version XML à cette version HTML est également disponible.
    Une version HTML simple [.html.bz2] (seule la structure du document est renseignée : titres, énumérations, paragraphes) est également livrée
Remerciements
Un grand merci à l'IFRI pour leurs articles intéressants à lire comme à analyser.

Références
Lydia-Mai Ho-Dac : La position initiale dans l'organisation du discours : une exploration en corpus, thèse de doctorat, Université de Toulouse-Le Mirail, novembre 2007.
[ bibtex ]