Corpus GÉOPO articles expositifs issus de l'IFRI,
Institut Français des Relations Internationales
Description
Le corpus GEOPO est constitué d'environ 270 000 mots. Il regroupe 32 textes longs qui sont des articles expositifs
(informatifs et argumentatifs) proposant des réflexions relatives à notre monde d'aujourd'hui (la crise pétrolière,
la guerre contre "l'axe du mal", le terrorisme, l'explosion chinoise, la paix au moyen-orient, etc.)
Le corpus Géopo est disponible sous licence
Creative Commons By-NC-SA 2.0
(Patternité, usage non commercial, partage à l'identique). Merci de la lire attentivement.
Téléchargement
corpus brut [.txt.bz2] où les titres
d'articles sont précédés de la mention "TITRE : ", et le paragraphe concernant
des informations sur les auteurs de la mention "AUTEUR".
Toutes les notes de bas de page et les figures ont été enlevées. Pour retrouver la mise en forme d'orgine,
les originaux au format pdf ont été mis dans l'archive suivante.
articles d'origine [.tar.bz2], tels que téléchargés (en PDF) sur le site de l'IFRI.
Ils sont numérotés dans leur ordre d'apparition dans le corpus.
Trois versions annotées du corpus sont également mises à disposition :
Une version XML simple [.xml.bz2]
où sont délimités les différents objets textuels : les sections, les paragraphes, les phrases, les
titres de section et les énumérations. Les textes y sont identifiés selon le même identifiant que dans l'archive
des pdf d'origine.
Une version XML plus complexe [.xml.bz2] qui reprend la
délimitation des objets textuels et y ajoute l'annotation de tous les
éléments présents en position préverbale, ainsi que toutes les
constructions spéciales rencontrées.
La description des annotations [.txt] effectuées est également disponible.
Une version HTML
(existe en version compressée [.html.bz2])
qui offre une visualisation colorée de GEOPO où les différents
éléments annotés sont colorés et hyperliés au prochain élément de même
type.
Le fichier xslt [.xsl]
qui a permis le passage de la version XML à cette version HTML est également disponible.
Une version HTML simple [.html.bz2]
(seule la structure du document est renseignée : titres, énumérations, paragraphes) est également livrée
Remerciements
Un grand merci à l'IFRI pour leurs articles intéressants à lire comme à analyser.