ANNODIS
Guide pour l'annotation de macro-structures discursives

Sommaire

1. Introduction
- 1.1 Objets à identifier et caractériser
- 1.2 Utilisation du guide d'annotation des structures discursives
2. Structures énumératives (SE)
- 2.1 Amorce
- 2.2 Items
- 2.3 Clôture
3. Chaînes topicales (CT, anciens SUR)
4. Procédure d'annotation
- 4.1 Interface d'annotation
- 4.2 Etapes de l'annotation dans l'interface
annexe : liste des exemples

1. Introduction

Ce guide s'inscrit dans un projet ANR (Agence Nationale de la Recherche) : le projet ANNODIS, qui vise la constitution d'un corpus de texte français annoté discursivement. Il s'agit de fournir à la communauté scientifique une ressource de qualité pour travailler sur l'organisation discursive en français. En effectuant la phase que nous appelons : "annotation macro", vous participez à ce projet.

Plus précisément, votre tâche va consister à identifier et caractériser des structures discursives qui jouent un rôle à différents niveaux d'organisation. Il s'agit de structures qui ont la capacité d'organiser des portions de textes de taille variable et qui impliquent des phénomènes linguistiques variés (continuité et segmentation thématiques, organisation spatio-temporelle, articulation rhétorique, etc.) et font appel à des modes de signalisation variés : mise en forme matérielle - i.e. découpage en paragraphes et sections, mise en titre, mise en liste, etc. -, réitération lexicale, parallélismes structurels, usage de connecteurs et d'expressions détachées en initiale de phrase, etc...

Les textes que vous allez annoter sont des textes dits 'expositifs', autrement dit des textes ayant pour but principal d'exposer un thème, un fait, un argumentaire, etc. Ces textes sont relativement longs (il s'agit généralement d'articles d'une dizaine de pages)..

Dans ces textes, vous allez annoter deux types de structures discursives : les structures énumératives et les structures ayant une unité référentielle. Les premières sont des structures qui présentent un thème, un fait, un argument, etc. en le découpant en sous-thèmes, événements, arguments. Les secondes forment des zones de textes caractérisées par une unité référentielle. L'annotation de chacune de ces structures est explicitée dans les sections 2 et 3.

1.1 Objets à identifier et caractériser

L'annotation des structures macro se fait en naviguant dans les textes. Cette navigation n'est pas forcément linéaire. Elle peut nécessiter des zooms qui permettent à l'annotateur de se représenter le contexte textuel dans lequel il se situe. Par exemple, il peut être utile de savoir s'il y a plusieurs paragraphes dans la section en cours d'annotation, s'il y a des titres de section alentour, de même niveau, de niveau supérieur/inférieur.

L'interface d'annotation que vous allez utiliser facilite ces zooms grâce à un ruban qui représente le texte à annoter vu de haut (voir la section procédure d'annotation). De plus, dans le texte, certains éléments sont colorés. Il s'agit de marques de surface repérées automatiquement et pouvant être des indices participant au signalement des structures discursives macro. Ces marques, que l'on appelle des indices prémarqués, constituent des points d'accès au texte. Elles permettent de repérer d'un simple coup d'oeil des zones où vous avez des chances de trouver des structures à annoter. Plus précisément, elles permettent d'échapper à une lecture linéaire du texte en rendant possible des stratégies d'écrémage.

Remarque 1 : Vos annotations ne concernent pas nécessairement l'ensemble du texte. Une fois l'annotation achevée, certaines zones de textes peuvent rester non annotées.

Remarque 2 : Nous vous demandons d'être attentifs aux structures de très haut niveau. L'identification de structures qui s'étendent sur plusieurs paragraphes étant particulièrement délicate, nous vous demandons de porter une attention toute particulière aux titres de section et aux éléments qui se trouvent à l'initiale des paragraphes et d'utiliser la version papier du texte que vous êtes en train d'annoter (version html imprimée que l'on vous aura fournie)

Remarque 3 : Toute structure annotée doit nécessairement couvrir plus d'une phrase (phrase entendue au sens de chaîne de caractères située entre deux signes de ponctuation appartenant à la liste suivante : point de suspension, point d'exclamation, point d'interrogation, point-virgule, puce et numérotation, changement de paragraphe).

1.2 Utilisation du guide d'annotation des structures discursives

Les sections 2 et 3 présentent les objets à annoter. Cette présentation est organisée en quatre volets :

Définition

Le volet définition fournit une description générale de l'objet à annoter.

Illustration [ex]

Le volet illustration propose plusieurs exemples allant du cas prototypique aux cas marginaux ainsi qu'une liste de liens vers d'autres exemples annotés.

Indices [ind]

Le volet indices recouvre l'ensemble des unités qui signalent des structures ou des éléments de ces structures. Certains éléments linguistiques ont été prémarqués automatiquement. Ce marquage automatique produit ce qu'on appelle des "indices prémarqués". Cependant, d'un côté, tous les indices participant au signalement d'une structure ne sont pas repérés automatiquement, de l'autre, certains indices prémarqués automatiquement ne sont pas pertinents. Au moment où vous ferez votre annotation, vous devrez donc :

indiquer quels indices non repérés automatiquement participent au signalement d'une structure donnée ;
décider quels indices prémarqués constituent des indices pertinents.

Tests [test]

Quand cela est possible, des manipulations sont proposées. Elles doivent vous permettre notamment de confirmer que vous êtes bien face à un indice.

La section 4 explique les procédures d'annotation à suivre ainsi que les modalités d'utilisation de l'interface d'annotation.

Remarques (toujours sur fond bleu dans ce guide)

Tous les exemples contenus dans ce guide proviennent d'un seul et même texte intitulé Rapport Avicenne que vous pouvez voir dans son entier dans le cadre droit de cette page.

Vous pouvez également avoir recours à la liste complète des exemples présents dans le présent guide.

En parcourant le guide, il se peut que vous rencontriez des termes abrégés ou inconnus. Certains d'entre eux apparaissent soulignés, ce qui signifie qu'un texte info-bulle leur est associé. Ce texte apparaît en plaçant quelques secondes le curseur de la souris sur les mots soulignés, comme, par exemple, l'abbréviation SE qui apparaît dans le titre de la section suivante (2, ci-dessous).

2. Les structures énumératives SE

La structure énumérative SE est un mode d'organisation fondamental des textes expositifs. Elle consiste à agencer un contenu sous la forme de segments successifs.

exemple prototypique de SE

Le dialogue doit donc être modulé avec pragmatisme, c'est-à-dire en fonction du mouvement concerné, une grande variété de formules s'offrant autour des suivantes :

un dialogue à caractère technique pour la mise en oeuvre de coopérations ; il pourrait impliquer des collectivités locales, voire des responsables syndicaux ou d'ONG ; il s'agit d'une approche essentiellement pratique n'allant pas, sur le plan politique, au delà d'une sorte de signal ;
un dialogue informel à travers des rencontres et séminaires associant des personnalités d'origine diverse. Le contenu politique serait plus fort mais ne lierait pas les autorités ; il pourrait donc inclure des mouvements répondant aux exigences déjà mentionnées sans être formellement reconnues par le pouvoir en place (ainsi les Frères musulmans en Egypte) ;
un dialogue politique lui-même modulable : à Paris, ou dans la capitale concernée ou dans un lieu tiers ; à un niveau subalterne ou responsable ; direct ou via des intermédiaires ; bilatéral ou à l'occasion d'une réunion plus large etc.

L'important doit être une disposition au dialogue pour autant que l'interlocuteur respecte, lui aussi, ce que nous sommes.

voir l'exemple dans le texte

Dans cet exemple, on trouve les trois principaux éléments de la structure énumérative :

amorce
énumération composée d'une série d'items
clôture

SE minimales

Une série d'items suffit pour qu'on puisse parler de structure énumérative (amorce et clôture ne sont pas obligatoires).

Annoter une SE

Annoter une structure énumérative consiste à identifier son amorce (s'il y a amorce), ses items, et sa clôture (s'il y a clôture). A l'intérieur de ces trois éléments, d'autres objets seront également à repérer : prospect dans l'amorce et encaps dans la clôture. Voir leur définition dans les sections concernées.

2.1 Amorce

[ex][ind][test]

Définition

L'amorce est un segment qui annonce une énumération. Elle peut comporter ce que nous appelons un énumérathème, un lexème qui a pour fonction de spécifier le critère de co-énumérabilité des items de l'énumération, autrement dit d'expliciter ce qui justifie la réunion des items autour d'un même thème énumératif. Comme illustré ci-dessous dans les sections Illustration et Indices, l'énumérathème est souvent signalé par une expression de type prospect, par exemple un groupe nominal composé d'un déterminant numéral et d'un nom.

Illustration

L'amorce apparaît surlignée et l'énumérathème (avantage) en italique-gras. Il s'inscrit dans le groupe nominal de type prospect trois avantages. Le second exemple illustre une amorce sans énumérathème.

Exemple d'amorce avec énumérathème

Placer l'accent sur l'occupation et la nécessité d'y mettre fin, aurait trois avantages : repositionner le débat autour du problème de la terre et non des identités religieuses pour redonner ainsi force au courant nationaliste que les pragmatiques de la mouvance islamiste sont prêts à suivre ; découpler l'enjeu de la lutte contre l'occupation de celui du droit à l'existence d'Israël en réaffirmant les droits des deux peuples à vivre chacun dans un État viable et à l'intérieur de frontières sûres ; désamorcer le débat qui lie l'opposition à la politique israélienne à la question de l'antisémitisme.

voir l'exemple dans le texte

Exemple d'amorce sans énumérathème

Il est important de ne pas remettre en cause cette évolution et de poursuivre le rapprochement entre les sociétés à la condition, toutefois, que ce rapprochement ne se fasse pas au détriment de :

l'expression publique des positions françaises sur le conflit israélo-arabe,
notre capacité d'action dans la région, fondée certes sur la sécurité d'Israël mais aussi sur le refus de l'occupation et la nécessité d'une évacuation totale des territoires occupés en 1967 et de la création d'un État palestinien indépendant. La persistance depuis bientôt quarante ans de cette occupation est au coeur de l'instabilité dans la région.

voir l'exemple dans le texte

Indices

Les indices d'amorce prémarqués apparaissent colorés en rose dans le texte à annoter.

Les indices d'amorce sont des signes de ponctuation (:) et/ou des expressions. Lorsque c'est une expression qui est surlignée en rose, il y a de fortes chances que cette expression englobe ou corresponde à une partie du prospect.

Les titres de section constituent un autre type de marque d'amorce. Un titre de section peut être l'amorce :

des sections (titres y compris) de niveau inférieur : exemple de SE à travers la titraille
de la section titrée : exemple de SE amorcée par le titre de section

Tests

Pour repérer l'énumérathème d'une amorce, vous pouvez tenter d'insérer tel(le)s que énuméré(e)s ci-dessous et/ou tel(le)(s) que décrit(e)(s) ci-dessous immédiatement après l'expression présumée en être un. La possibilité d'une telle insertion confirme sa présence.

Exemple d'application du test d'identification d'un énumérathème en amorce

Le dialogue doit donc être modulé avec pragmatisme, c'est-à-dire en fonction du mouvement concerné, une grande variété de formules , telles que énumérées ci-dessous, s'offrant autour des suivantes :

voir l'exemple dans le texte

2.2 Items

[ex][ind][test]

Définition

On distingue deux types d'agencement des items :

dans les SE dites verticales, les items sont séparés par un saut de ligne et signalés par un titre ou un signe placé en début de ligne (numérotation, tiret, puce) ;
dans les SE dites horizontales, les items ne sont pas visuellement signalés par la disposition (pas de saut de ligne, pas de titre, aucun signe typographique).

Un item peut comporter lui-même une structure énumérative, voir l'exemple de ci-dessous (d'autres exemples dans la liste des exemples).

Illustration

Exemple de SE verticales

Le dialogue doit donc être modulé avec pragmatisme, c'est-à-dire en fonction du mouvement concerné, une grande variété de formules s'offrant autour des suivantes :

un dialogue à caractère technique pour la mise en oeuvre de coopérations ; il pourrait impliquer des collectivités locales, voire [...];
un dialogue informel à travers des rencontres et séminaires associant des personnalités d'origine diverse. Le contenu politique serait plus fort mais [...] ;
un dialogue politique lui-même modulable : à Paris, ou dans la capitale concernée ou dans un lieu tiers ; à un niveau subalterne ou responsable ; direct ou via des intermédiaires ; bilatéral ou à l'occasion d'une réunion plus large etc.

L'important doit être une disposition au dialogue pour autant que l'interlocuteur respecte, lui aussi, ce que nous sommes.

Dans cet exemple, le dernier item est lui-même composé d'une SE horizontale composée d'une amorce et de 4 items.

voir l'exemple dans le texte

Exemple de SE horizontales

Placer l'accent sur l'occupation et la nécessité d'y mettre fin, aurait trois avantages : repositionner le débat autour du problème de la terre et non des identités religieuses pour redonner ainsi force au courant nationaliste que les pragmatiques de la mouvance islamiste sont prêts à suivre ; découpler l'enjeu de la lutte contre l'occupation de celui du droit à l'existence d'Israël en réaffirmant les droits des deux peuples à vivre chacun dans un État viable et à l'intérieur de frontières sûres ; désamorcer le débat qui lie l'opposition à la politique israélienne à la question de l'antisémitisme.

voir l'exemple dans le texte

Indices

Les indices d'items prémarqués apparaissent colorés en jaune dans le texte à annoter.

Parmi les indices signalant les items, on peut citer :

les éléments issus de la mise en forme matérielle du texte : titres, tirets, puces
les signes de ponctuation : virgules, points-virgules
les marqueurs d'intégration linéaire : premièrement, en second lieu, le troisième, l'autre, tout d'abord, ensuite, enfin, etc.
les circonstants temporels et/ou spatiaux (en 1976, depuis 2009, à Toulouse, près de Caen...) (voir ci-dessous un exemple de SE avec circonstant spatial)

Exemple de SE avec série de circonstants spatiaux

Les relations nouées depuis des siècles dans la région nous valent assurément estime et considération. Elles suscitent aussi des attentes et des déceptions.

Au Maghreb, les gouvernements attendent de nous concours et, pour chacun d'entre eux, soutien exclusif. Les populations sont [...]

Au proche orient, nos prises de parole sont scrutées et analysées dans le détail. Nous y sommes [...]

L'approche est différente dans le Golfe où nous sommes [...]

voir l'exemple dans le texte
les circonstants notionnels : ce sont des syntagmes prépositionnels détachés en tête de phrase qui précisent un domaine d'activité ou de connaissance (dans le domaine de la biologie), une thématique particulière (concernant la France), un point de vue (en général), ou encore un ensemble de concepts particuliers à un domaine précis (en hôtellerie homologuée)
les parallélismes syntaxiques, comme cette suite d'infinitives dans l'exemple ci-dessous :

Exemple de SE avec parallélisme syntaxique

Placer l'accent sur l'occupation et la nécessité d'y mettre fin, aurait trois avantages : repositionner le débat autour du problème de [...] découpler l'enjeu de la lutte contre l'occupation de [...] désamorcer le débat qui lie l'opposition à la politique israélienne à la question de l'antisémitisme.

voir l'exemple dans le texte

Tests

Pour repérer un item, vous pouvez tenter d'insérer tout d'abord, ensuite ou enfin au début ou à l'intérieur de l'item.

Exemple d'application du test d'identification des items d'une SE

Placer l'accent sur l'occupation et la nécessité d'y mettre fin, aurait trois avantages : tout d'abord repositionner le débat autour du problème de la terre et non des identités religieuses pour redonner ainsi force au courant nationaliste que les pragmatiques de la mouvance islamiste sont prêts à suivre ; ensuite découpler l'enjeu de la lutte contre l'occupation de celui du droit à l'existence d'Israël en réaffirmant les droits des deux peuples à vivre chacun dans un État viable et à l'intérieur de frontières sûres ; enfin désamorcer le débat qui lie l'opposition à la politique israélienne à la question de l'antisémitisme.

2.3 Clôture

[ex][ind][test]

Définition

La clôture est un segment qui conclut la structure énumérative. Comme l'amorce, la clôture peut comporter l'expression de l'énumérathème. Il s'inscrit généralement dans un groupe nominal appelé encapsulation (encaps), correspondant au prospect de l'amorce.

Il peut arriver qu'il y ait une encaps sans pour autant qu'il y ait un segment de clôture de l'énumération, à proprement parler. Dans ce cas, seule l'encaps sera annotée (voir ci-dessous l'exemple de SE avec encaps (trois directions, où directions est l'énumérathème) mais sans clôture).

Illustration

La clôture apparaît surlignée et l'énumérathème (scénarios) en italique-gras. Il s'inscrit dans le groupe nominal de type encaps ces scénarios.

Exemple de SE avec clôture et énumérathème

3. Perspectives : quatre scénarios

Tout exercice d'anticipation sur une zone aussi sensible que le moyen orient est à l'évidence très risqué. Il ne peut être abordé qu'avec prudence et humilité. Sur la base de la situation particulièrement préoccupante qui prévaut au moyen orient et des tendances actuelles, plusieurs scénarios peuvent être théoriquement envisagés.

3.1 La Pax Americana*

[...]

3.2 L' ordre islamiste

[...]

3.3 Le chaos

[...]

3.4 Un processus de dégradation lent et modulé

[...]

Dans les faits, il est probable qu'aucun de ces scénarios ne se réalisera, même s'ils ont leur propre cohérence. L'hypothèse la plus probable sera sans doute composite, [...]

voir l'exemple dans le texte

Exemple de SE avec énumérathème mais sans clôture (ni amorce d'ailleurs)

Depuis septembre 2004, la France a pris la direction d'un mouvement diplomatique qui a conduit à l'adoption par le Conseil de sécurité de la résolution 1559 appelant au retrait des forces syriennes du Liban. Après l'assassinat de l'ancien Premier Ministre Rafic Hariri, elle a pris clairement position pour la coalition des forces politiques du 14 mars, un bloc dont le principal ciment et l'objectif commun étaient de mettre fin à l'influence syrienne au Liban. Au lendemain de la guerre d'Israël contre le Hezbollah à l'été 2006, elle a su mobiliser un large soutien international pour la mise en place d'une FINUL renforcée et pour la reconstruction du pays dévasté lors de la conférence de Paris 3. Ces trois directions, engagées au cours des trois dernières années, méritent un examen critique, au niveau des objectifs d'une part, du cadre dans lequel la France déploie son activité et des partenaires qu'elle choisit d'autre part, pour envisager les options politiques à venir.

voir l'exemple dans le texte

Indices

Les indices de clôture prémarqués apparaissent colorés en orange dans le texte à annoter.

La clôture peut être annoncée par des syntagmes comme en conclusion, en résumé, pour conclure et/ou signalée par des encaps qui condensent en une expression référentielle les différents items énumérés. Les encaps ont généralement la forme d'un syntagme nominal au pluriel, dont le déterminant est souvent un démonstratif, accompagné ou non d'un numéral. Par exemple, ces sénarios, ces trois options, ces différents points. La tête lexicale de ce syntagme indique le type des éléments énumérés, c'est l'énumérathème.

Ces éléments sont particulièrement utiles pour identifier une SE. Notamment, une encaps peut suggérer qu'en amont se trouve une énumération des référents qu'elle condense. Naturellement, tout syntagme nominal démonstratif n'est pas nécessairement une encapsulation. C'est à vous de vérifier si la relation suggérée est ou non motivée.

Tests

Pour repérer l'énumérathème d'une clôture, vous pouvez tenter d'insérer tel(le)s que énuméré(e)s ci-dessus et/ou tel(le)(s) que décrit(e)(s) ci-dessus, immédiatement après l'expression présumée en être un. La possibilité d'une telle insertion en confirme la présence. Il faut noter en revanche que son impossibilité ne peut pas l'infirmer.

Exemple d'application du test d'identification de l'énumérathème en clôture

De telles évolutions, telles que nous venons de les énumérer ci-dessus, ne sont pas une fatalité. Pour arrêter l'engrenage de violences [...]

voir l'exemple dans le texte

3. Les Segments ayant une Unité Référentielle CT

NOTA BENE : les CT ont été après l'annotation renommés chaînes topicales (abbr. CT). Ce terme est celui qui est désormais utilisé dans la ressource, dans la documentation, et dans les publications. Voir Guide Si.

[ex][ind][test]

Définition

Un CT est un segment qui se caractérise par le fait que la majorité des propositions qui le composent ont pour objet (parlent de, sont à propos de, apportent des informations au sujet de) un seul et même référent. Selon cette définition, l'expression de ce référent commun doit passer nécessairement par le sujet grammatical.

Veuillez noter tout de même qu'un CT n'est pas nécessairement composé uniquement de propositions portant sur le référent qui fait l'unité du segment. En effet, des commentaires ou illustrations, par exemple, peuvent être insérés à l'intérieur d'un CT.

Annoter un CT

Annoter un CT consiste à identifier ce qui fait son unité référentielle ainsi que les indices vous ayant permis de le repérer.

Illustration

Segment ayant pour Unité Référentielle la politique/position française (indices de CT en vert)

Notre position doit prendre en considération la pérennité du régime islamique : malgré ses échecs économique et politique et ses tensions internes, on ne voit pas comment le régime des ayatollahs pourrait s'écrouler dans un avenir prévisible. Elle doit également tenir compte du fait que, plus par un effet d'aubaine que par une volonté expansionniste, l'Iran est devenu un acteur incontournable au moyen orient : les états-Unis, en débarrassant l'Iran des ses deux principaux ennemis, les Talibans et Saddam Hussein, et Israël, en déclenchant imprudemment une guerre contre le Hezbollah, ont renforcé sa capacité d'influence et de nuisance. Aussi notre politique doit-elle se garder de s'associer à toute tentative de "regime change" et doit-elle considérer que l'Iran est une puissance régionale avec laquelle il faut compter et dialoguer. Elle doit également tenir compte du fait que, du côté américain, une intervention militaire est une option qui est non seulement "sur la table", mais aussi sérieusement envisagée. Il serait difficile au Président Bush qui, à maintes reprises a dénoncé le caractère inacceptable des ambitions nucléaires de l'Iran de se déjuger et de ne rien faire, d'autant plus qu'il est soumis à la pression d'Israël qui qualifie la menace iranienne d'existentielle. Une telle intervention, hasardeuse sur le plan technique, ne pourrait avoir que des effets désastreux au moyen orient comme dans l'ensemble du monde musulman.

voir l'exemple dans le texte

La section 3.2. fournit une autre illustration d'un Segment ayant pour Unité Référentielle les partis islamistes.

Indices

Les indices de CT prémarqués apparaissent colorés en vert dans le texte à annoter.

Dans les textes à annoter, les expressions coréférentielles en position sujet sont toutes prémarquées en tant qu'indice-candidats de ce segment. Les expressions coréférentielles sujets peuvent être :

des pronoms personnels de 3e personne
des pronoms démonstratifs
des syntagmes nominaux possessifs
des syntagmes démonstratifs
des syntagmes dont la tête lexicale réitère un nom déjà mentionnée dans la section en cours
des reprises lexicales des noms présents dans le titre de la section en cours.

Des circonstants notionnels d'un type particulier (Quant à Euronews - voir dans le texte; S'agissant de la Russie - voir dans le texte) peuvent également indiquer le début ou la continuation d'un CT

Tests

Pour vous assurer que les expressions sont bien coréférentielles, vous pouvez tenter de les substituer par l'expression référentielle complète. L'impossibilité d'une telle substitution amène à conclure à la non coréférentialité.

4. Procédure d'annotation

L'objectif de l'annotation que vous allez réaliser est double. Il s'agit :

d'identifier et délimiter les éléments qui composent une structure (SE ou CT), voir section 4.2.3;
d'indiquer les indices qui assurent la signalisation de la structure et/ou de ses composants, voir section 4.2.4.
d'associer ces éléments et ces indices à une même structure (section 4.2.5);

L'interface utilise deux types d'objets principaux : les schémas et les unités.

Les structures (SE et CT) forment ce qu'on appelle des SCHEMAS () i.e. des objets complexes composés d'unités pouvant entretenir entre elles certaines relations

Ces schémas sont constitués de deux types d'UNITÉS () : les composants de la structure et les indices qui signalent cette structure et/ou ses composants.

Les éléments UNITÉS composant les structures sont les suivants :

pour une SE :
- l'amorce,
- les items,
- la clôture,
- le(s) énumérathème(s)
pour une CT, une seule unité est à délimiter : l'UR (unité référentielle) dont l'unique différence avec le CT est d'être une unité et non un schéma. En l'absence de délimitation d'une quelconque unité, le schéma CT n'aurait aucune substance.

Les UNITÉS indices signalant les structures ou leurs composants correspondent soit aux indices prémarqués automatiquement soit à toute autre forme identifiée comme indice par l'annotateur.

4.1. Interface d'annotation

Toutes les procédures d'annotation se font avec l'interface d'annotation dans laquelle nous distinguons 7 éléments :

interface_details

4.2. Etapes de l'annotation dans l'interface

4.2.1 Charger les textes à annoter
4.2.2 Distinguer plusieurs étapes d'annotation et jouer avec les styles
4.2.3 Repérer une structure discursive en délimitant les unités qui la composent (SE/CT)
4.2.4 Valider, supprimer, créer les indices
4.2.5 Regrouper les éléments composant une structure discursive (SE/CT)
4.2.6 Modifier et supprimer une annotation
4.2.7 Enregistrer les annotations
4.2.8Gestion de l'incertitude

4.2.1. Charger les textes à annoter

Une fois l'interface ouverte, voici les procédures à effectuer pour charger les fichiers nécessaires à l'annotation :

Charger le document à annoter en cliquant sur le bouton (Open corpus) situé dans la barre d'outils.

Deux éléments doivent être chargés :
- le texte (fichier avec extension .ac comme annodis corpus), normalement situé dans le dossier /data/corpus.
- ses annotations (fichier avec extension .aa comme annodis annotation), normalement situées dans le dossier /data/annotations.
  
  Vous pouvez également charger un fichier contenant des annotations que vous avez réalisées et sauvegardées (voir la section 4.2.7.).
Bien entendu, les deux éléments doivent porter le même nom, hormis leur extension (e.g. avicenne_TEIP5.ac et avicenne_TEIP5.aa).
Charger la feuille de style qui permet de colorer dans le ruban et la zone texte les indices prémarqués et les annotations associées au document. Pour ce faire, cliquer sur le bouton (Style editor) situé dans la barre d'outil, puis sur le bouton (Open style) dans la fenêtre concernée. Le fichier de base pour le marquage macro se trouve dans le fichier data/styles/macro.as
Charger le modèle d'annotation en cliquant sur le bouton (LAM) dans la zone modèle (à droite de la zone texte). Pour l'annotation macro, charger le modèle data/annotationModels/macro.aam. Les différents éléments du modèle apparaissent alors dans la zone modèle.

4.2.2. Distinguer plusieurs étapes d'annotation et jouer avec les styles

Il est fortement recommandé de distinguer trois étapes d'annotation :

Annotation des SE de plus haut niveau en masquant les indices prémarqués qui n'apparaissent pas en position initiale, ainsi que les indices prémarqués de CT, et en effectuant une lecture complète de la titraille (lecture en 'sautant' de titre de section en titre de section). Ces SE de haut niveau peuvent également être amorcées par une petite SE en fin de section dont les différents items sont repris par les titres de section.
Annotation des SE de niveau paragraphique. Pour cette étape, il peut être nécessaire de faire apparaître tous les indices (même les expressions co-référentielles). À vous de jouer;
Annotation des CT en masquant les indices prémarquées non concernés (circonstants spatiaux, MIL, etc.).

À la fin de chaque étape, vous devrez vérifier qu'il ne reste pas de zones inexplorées présentant une certaine concentration d'indices prémarqués. Pour ce faire, le ruban s'avère vraiment pratique, parce qu'il donne une vision générale du texte et de ses annotations.

Pour chaque étape, vous pouvez décider de masquer vos annotations précédentes en masquant le style concerné (pour masquer les CT lors de l'annotation des SE et inversement) ou en masquant au cas par cas les schémas annotés via l'outil d'exploration 'Annotation as text' (voir explication ici)

4.2.3. Repérer une structure discursive en délimitant les unités qui la compose (SE/ CT)

Maintenant que le texte est ouvert dans l'interface d'annotation, voici comment procéder pour l'annoter, c'est-à-dire pour délimiter et caractériser les SE et les CT en commençant par délimiter les éléments qui les composent.

Dans la zone édition, sélectionnez le bouton (Create a new simple Unit) qui permet de poser les bornes de début et de fin des unités à annoter : amorce, item, clôture, énumérathème, indices.
Dans le ruban, cherchez une zone présentant des indices prémarqués de SE ou de CT.
En cliquant sur la zone sélectionnée, le texte correspondant s'affiche dans la zone texte.
En vous appuyant sur les indices prémarqués (colorés selon le jeu de style défini dans la fenêtre Style editor, voir ci-dessous), vous devez repérer si la zone contient ou non une SE (ou l'un de ses éléments) ou un CT.

La délimitation des éléments des structures peut se faire de deux manières distinctes :
- soit en deux temps :
  1. positionnez d'abord votre souris sur le début de l'unité et cliquez pour ancrer la borne start
    ().
  2. positionnez ensuite votre souris à la fin de l'unité et cliquez pour ancrer la borne end
    ().
- soit en un seul mouvement : positionnez votre souris sur le début de l'unité, cliquez et maintenez le clic pour tracer la délimitation de l'unité (un cadre en pointillé apparaît). Glissez le curseur jusqu'à la fin de l'unité et alors seulement lâchez le clic.
  
  Si les délimitations n'apparaissent pas à l'écran cela signifie qu'aucun style n'est associé à l'unité. Vous devez alors vérifiez que l'objet que vous annotez (dont le nom est inscrit et sélectionné dans la zone modèle) a bien un style associé dans la fenêtre Style editor. Si vous ne voulez pas associer de style à l'objet en question mais uniquement le visualiser, choisissez alors d'afficher les annotations sans style (unstyled annotations) :
  
  Barre d'outils : Options > Préférences puis sur l'onglet Viewer :
Toute unité doit être associée à un type (amorce, item, clôture, énumérathème, indice, UR). Par défaut, toute nouvelle unité est associée au type de l'unité précédemment annotée. Si aucune unité n'a encore été délimitée, la nouvelle unité sera associée au type u_default.

Pour associer un type différent à une nouvelle unité, assurez-vous que celle-ci est bien sélectionnée et cliquez sur le type adéquat dans le modèle d'annotation affiché dans la zone LAM.

Liste et Codification couleur des indices prémarqués

Vous trouverez ci-dessous la table présentant la liste des indices prémarqués automatiquement. Tous les indices prémarqués sont considérés comme des unités par l'interface, de la même manière que les unités que vous avez délimitées lors de votre annotation.

Chaque indice est caractérisé par un type, associé à un jeu de couleur par le style macro.as. La table ci-dessous liste chaque indice en indiquant son type (étiquette aparaissant dans l'interface), sa couleur dans macro.as et une définition.

PONCT	pattern ponctuationnel d'amorce (plus le mot qui précède pour une meilleure visualisation)
PROSPECT	prospection
PONCTitem	pattern ponctuationnel d'item (plus le mot qui suit pour une meilleure visualisation)
MIL(_init)	marqueur d'intégration linéaire (en initiale de phrase)
CIRCnot(_init)	circonstant notionnel (en initiale de phrase)
CIRCspa(_init)	circonstant spatial (en initiale de phrase)
CIRCtps(_init)	circonstant temporel (en initiale de phrase)
ENCAPS	encapsulation
COREFproposs	forme pronominale ou possessive en position sujet
COREFredeno	SN sujet dont la tête reprend un nom déjà présent dans la section
COREFdemo	SN démonstratif en position sujet
Rtitre	reprise nominale d'un élément du titre en position sujet
HEADING	titre de section
CONNECT	connecteur simple en initiale de phrase

Vous pouvez, à tout moment et selon votre convenance, modifier le jeu de couleur ou choisir de ne pas colorer tel ou tel type d'indice. Pour ce faire, ouvrez le style macro.as et cliquez sur l'indice dont la couleur est à modifier, ou cochez la case Hide pour ne plus voir son surlignement.

ATTENTION!! Il se peut que plusieurs fenêtres Style Editor soient ouvertes simultanément (si vous avez à chaque fois cliqué sur le bouton ). Du coup, vos modifications peuvent ne pas prendre effet. Pour être sûr de modifier le 'bon' jeu de style, vérifiez dans la barre des tâches qu'un seul apparaît. Si plusieurs fenêtres sont ouvertes, fermez les toutes pour n'en laisser qu'une sur laquelle vous ferez vos modifications (que vous pourrez sauvegarder en cliquant, dans la fenêtre Style Editor, sur le bouton ).

4.2.4. Valider, supprimer, créer les indices

Cette phase de l'annotation consiste à associer à chaque unité annotée les indices qui ont servi à la repérer. Lors de cette phase, vous serez amenés à effectuer trois types d'opérations : valider, modifier ou créer des indices.

validation d'un indice prémarqué : lorsque l'indice (coloré) est bien un indice sur lequel vous vous êtes appuyé pour identifier un objet, vous devez rattacher cet indice à la structure qu'il signale en l'incluant dans le schéma correspondant (voir section suivante 4.2.5). Si les éléments colorés incluent trop d'éléments ou n'incluent pas l'ensemble des éléments pertinents, il vous faut redélimiter l'indice (voir la section 4.2.6).
création d'un indice : tout indice vous paraissant significatif doit être associé au schéma qu'il signale. Pour cela il faut créer une nouvelle unité de type indice (voir section 4.2.3). Une fois cette unité indice créée, il faut renseigner la nature de cet indice dans la zone modèle de l'interface (exemple : nom propre répété, changement de temps verbal, parallélisme, etc.). Ensuite, il reste à rattacher cette unité-indice au schéma concerné (voir section suivante 4.2.5).
suppression d'un indice : les indices prémarqués jugés non pertinents sont simplement laissés tels quels. Les indices créés par l'annotateur mais jugés au final non pertinents devront être supprimés (voir section 4.2.6).

4.2.5. Regrouper les éléments composant une même structure discursive (SE/ CT)

Une fois que vous avez annoté les UNITES() (section 4.2.3) qui composent une SE ou un CT, vous devez les regrouper en créant un SCHEMA ().

Pour regrouper chaque unité d'une structure dans un même schéma :

Dans la zone édition, cliquez sur le bouton (Schemas)
Créez un nouveau schéma en cliquant sur (Create a new Schemas)

Comme pour les unités, tout schéma doit être associé à un type (selon les cas, choisissez SE ou CT). Par défaut, tout nouveau schéma est associé au type du schéma précédemment annoté. Si aucun schéma n'a encore été créé, le nouveau schéma sera associé au type s_default.

Pour associer un type différent au nouveau schéma, assurez-vous que celui-ci soit bien sélectionné et cliquez sur le type adéquat dans le modèle d'annotation affiché au niveau de la zone LAM
Regroupez les différentes unités d'un même schéma en cliquant sur (Add Unit to schema), puis sur toutes les unités concernées (amorce, items, clôture, énumérathème(s), UR, indices).

Lors de l'identification des différents éléments d'une SE, vous pouvez vous retrouver en présence de structures enchâssées, c'est-à-dire de SE dans une SE (voir les différents exemples d'enchâssement). Face à de telles situations vous pouvez :

soit laisser en attente l'annotation de la première SE pour annoter la nouvelle SE et alors insérer une glue note qui rappellera la présence d'une structure dont l'annotation est inachevée
soit indiquer la présence d'une autre SE en insérant une glue note sans en faire davantage afin de continuer l'annotation de la première SE et effectuer dans un second temps l'annotation de la nouvelle SE.

Les glue notes

À tout moment, il est possible d'associer un commentaire à une annotation ou à n'importe quelle position dans le texte par le biais de glue note.

Pour cela, cliquer sur l'icône et remplissez le cadre jaune qui s'affiche. Vous pouvez ensuite éditer ces glue notes ou les supprimer, une par une ou toutes ensemble.

4.2.6. Modifier et supprimer une annotation

Modifier la délimitation d'une unité
Modifier le type d'une unité
Supprimer une unité
Modifier la composition d'un schéma
Supprimer un schéma

À tout moment il est possible modifier ou supprimer une annotation en choisissant le mode adéquat dans la zone édition.

Modifier la délimitation d'une unité

cliquez sur (Edit/Delete Units);
sélectionnez l'unité à modifier en cliquant dessus. Les lignes délimitant l'unité se changent en pointillés rouges et deux petits ronds apparaissent aux bornes initiale et finale.

Lorsque le curseur de la souris passe sur une unité annotée, celle-ci change de couleur. En présence d'unités superposées, toutes les unités concernées changent de couleur. Pour sélectionner une unité lorsque les unités superposées ont les mêmes limites, il faut cliquer plusieurs fois pour sélectionner l'unité désirée.
positionnez le curseur sur les ronds de borne initiale et/ou finale et déplacer la ou les borne(s) afin d'obtenir la délimitation correcte.

Il peut s'avérer rapidement difficile de distinguer les différents niveaux de structuration. Pour cela, l'interface propose un outil appelé Depth Selector qui permet de jouer sur les niveaux d'annotation visibles. Pour activer cette fonction, cliquez dans la barre d'outils sur Tools puis Depth Selector. La boîte de dialogue suivante apparaît alors dans la zone droite de l'interface : .

Il suffit ensuite de manipuler le curseur pour faire varier l'affichage des différents niveaux d'annotation.

Modifier le type d'une unité

cliquez sur le bouton (Edit/Delete Units);
sélectionnez l'unité à modifier en cliquant dessus (voir l'item sélectionner l'unité ci-dessus);
changez l'annotation au niveau de la zone modèle (l'annotation actuelle apparaît surlignée) .

Supprimer une unité et son annotation

cliquez sur le bouton (Edit/Delete Units);
sélectionnez l'objet à modifier en cliquant dessus (voir l'item sélectionner l'objet ci-dessus);
appuyez sur la touche Suppr du clavier, l'unité et son annotation sont supprimées.

Modifier la composition d'un schéma

Cliquez sur (Schema). Une boîte de dialogue apparaît dans laquelle vous cliquez sur .
Sélectionnez le schéma à modifier en cliquant dessus. Les lignes encadrant le schéma sélectionné se changent en pointillés rouges.

Pour enlever une unité :
1. Cliquez sur dans la boîte à outils dédiée à l'édition des schémas
2. Cliquez dans la zone texte sur l'unité à enlever
Pour ajouter une unité :
1. Cliquez sur dans la boîte de dialogue dédiée à l'édition des schémas
2. Cliquez dans la zone texte sur l'unité à ajouter

Vous pouvez vérifier votre action en observant ce qui se passe dans la boîte Annotation as Text (pour activer cette fonction, cliquez dans la barre d'outils sur Tools puis Annotation as Text). Vous accèderez ainsi à une vision listée de toutes les annotations (schémas, unités, relations). Cette fenêtre vous permet également de naviguer d'annotation en annotation dans la zone texte par un simple clic sur l'annotation désirée.

REMARQUE : Cette fenêtre peut s'avérer gênante parce qu'elle pousse vers le bas la fenêtre du modèle d'annotation par exemple. Vous pouvez alors déplacer les différentes boîtes à outils en effectuant un clic maintenu sur la barre verticale gauche de la boîte et en la déplaçant où vous le souhaitez. .

Pour fermer cette boîte, cliquez sur la croix en haut à droite.

Supprimer un schéma

cliquez sur le bouton (Edit/Delete Units);
sélectionnez le schéma à modifier en cliquant dessus (il peut parfois être préférable d'utiliser la boîte à outils Annotation as Text, voir ici);
appuyez sur la touche Suppr du clavier, le schéma et son annotation sont supprimés.

Supprimer un schéma n'entraîne aucunement la suppression de ses unités composantes.

4.2.7. Enregistrer les annotations

Pour enregistrer vos annotations, cliquez sur le bouton edit_unit (Save Annotations). Nommez le fichier d'annotation selon le format suivant : NomTexte_NomAnnotateur_JJmoisAA.aa (ex : avicenne_hodac_01janvier09.aa)

4.2.8 Gestion de l'incertitude

Toute annotation pour laquelle vous n'êtes pas complètement convaincu peut-être associée à ce caractère incertain. Pour cela, dans la zone modèle, chaque unité est associée par défaut à un degré d'incertitude 0. Pour noter votre sentiment d'incertitude, il vous suffit d'associer la valeur 1 à cette incertitude.

Liste des exemples

Cette liste contient tous les liens vers les exemples utilisés pour illustrer le guide d'annotation pour l'analyse macro.

SE complète avec mise en forme matérielle
SE locale avec amorce et énumérathème
SE mise en forme avec amorce sans énumérathème
SE globale sur plusieurs sections
SE globale à travers la titraille
SE amorcée par le titre de section
enchâssement de SE verticales
enchâssement de SE horizontales (cet extrait fait lui-même partie d'un item d'énumération marquée et indexée par les titres de section)

Cette absence de réflexion stratégique sur une position proprement française ou sur une action visant à influencer l'Europe pour en définir une ont eu pour conséquence que la France n'a pas été en mesure de formuler des vues claires sur les deux développements majeurs des trois dernières années : la politique unilatéraliste préconisée par le gouvernement de Sharon et,deux ans plus tard, la victoire du Hamas aux élections législatives palestiniennes de janvier 2006.

Devant la première, elle s'est laissé entraîner vers une vision selon laquelle l'unilatéralisme pouvait constituer une approche alternative à la négociation. De même a -t-elle été prise au dépourvu par l'élection du Hamas et a fait le choix de se ranger sur une position européenne qui s'est vite avérée intenable. La politique française a été en somme largement réactive. La diplomatie n'a pas fait usage de la panoplie de moyens disponibles.

Auteurs : Lydia-Mai Ho-Dac, Josette Rebeyrolle, Cécile Fabre, Marie-Paule Péry-Woodley (version : 10 juillet 2009)

Ce guide est disponible sur le site ANNODIS : http://redac.univ-tlse2.fr/corpus/annodis/
Il est disponible sous licence Creative Commons By-NC-SA 3.0 (Patternité, usage non commercial, partage à l'identique). Merci de la lire attentivement.