Archive contenant les fichiers Glozz annotés (.aa, .ac, .aam et .as) après normalisation et nettoyage : ANNODIS_me.zip
Corpus brut au format XML ou Glozz : voir section Historique plus bas.
Structures annotées
Les fichiers suivants permettent d'accéder directement aux structures annotées, que l'utilisateur peut sélectionner à partir de leurs propriétés, et visualiser en contexte :
ANNODIS_SE.xml contient toutes les structures de type SE (Structure Enumérative) annotées, ainsi que leurs indices et leurs propriétés (le fichier readmeSE.xml donne une description des annotations contenues dans ce fichier);
ANNODIS_CT.xml contient toutes les structures de type CT (Chaîne Topicale) annotées, ainsi que leurs indices et leurs propriétés (le fichier readmeCT.xml donne une description des annotations contenues dans ce fichier).
Ces deux fichiers peuvent être explorés via le navigateur ANNODIS_me.
L'ensemble des fichiers nécessaires à cette exploration et visualisation sont fournis dans l'archive ANNODIS_me_browser.zip.
Historique d'ANNODIS_me
constitution du corpus et pre-traitements
1_ANNODIS_me_Original.zip : les documents d'origine (WIK1 et WIK2 : format html ; GEOP et LING : format pdf).
2_ANNODIS_me_XML.zip : les documents au format xml normés selon la TEI-P5 (TEIP5.dtd incluse) et la feuille de transformation transcriptTEI.xsl conçue pour permettre la visualisation via navigateur des documents avec une mise en forme respectant les contrastes typographiques et la disposition des documents d'origine.
3_ANNODIS_me_GlozzFiles.zip : les textes préparés pour l'annotation via la plate-forme Glozz (fichiers texte = nomdefichier.ac et les annotations débarquées contenant la mise en forme matérielle et les traits prémarqués = nomdefichier.aa) PLUS le modèle d'annotation Glozz (ANNODIS_me.aam) et la feuille de style Glozz (ANNODIS_me.as) nécessaires pour l'annotation et la mise en valeur des traits et structures prémarquées et annotées (voir le guide d'annotation).
6_ANNODIS_me_AfterAutoClean.zip : fichiers Glozz après l'application de 3 procédures automatiques: 1) suppression des unités non rattachées à un schéma ; 2) normalisation de la structure de traits de l'annotation des indices; 3) repérage des indices dont la nature est inconnue pour une post-catégorisation manuelle
7_ANNODIS_me_Gold.zip :
les fichiers Glozz des textes multi-annotés ont été arbitrés pour fournir un Gold de l'annotation de ces textes.
ANNODIS_me_history = tableau récapitulant les fichiers touchés par les différentes étapes.
Droits
La ressource ANNODIS est disponible sous licence
Creative Commons By-NC-SA 3.0
(Paternité, usage non commercial, partage à l'identique). Merci de la lire attentivement.