Les voisins d'en face

À propos

Présentation

    Les Voisins d'En Face est une application qui permet de comparer deux bases lexicales distributionnelles du français construites automatiquement, à l'aide d'outils de Traitement Automatique des Langues. Elle exploite les résultats des logiciels Syntex et Upery, développés par Didier Bourigault. L'interface a été réalisée par Yannick Chudy et Franck Sajous.

Sont ici mises en parallèle deux bases, provenant de deux corpus de 30 millions de mots chacun :
  • un corpus journalistique comprenant l'ensemble des articles du quotidien Le Monde sur la période de décembre 1999 à décembre 2000. Ce corpus a été obtenu auprès de l'agence ELRA.
    Pour un accès à une base distributionnelle construite à partir de tous les articles du Monde sur une période de 10 ans (200 millions de mots), vous pouvez consulter Les Voisins De Le Monde ;
  • un corpus littéraire de 515 romans du 20ème siècle issus de la base Frantext, de l'ATILF.
Chaque corpus a été étiqueté au niveau morphosyntaxique par Treetagger, de l'Université de Stuttgart. L'extraction des contextes syntaxiques a été réalisée par la chaîne d'analyse syntaxique Syntex, développée dans le cadre d'une collaboration entre le laboratoire ERSS, unité mixte de recherche du CNRS et de l'Université Toulouse-Le Mirail, et la société Synomia. L'analyse distributionnelle a été réalisée par l'outil Upery développé à l'ERSS. La base de données est hébergée sur un serveur de l'Institut de Recherche en Informatique de Toulouse.

Note :
  • Les résultats ont été obtenus entièrement automatiquement, ils n'ont pas été validés manuellement et comportent donc une part d'erreur inévitable ;
  • Les associations obtenues à travers les liens de voisinage ne reflètent pas nécessairement les opinions du journal Le Monde ou des auteurs des romans de la base Frantext ; elles peuvent provenir par exemple de passages cités et critiqués par eux.

Pour chaque unité lexicale, et pour une base donnée, on donne accès :
  • à ses cooccurrents syntaxiques.
    Par exemple, le nom peur apparaît de façon très régulière dans les contextes syntaxiques trembler de ~, frissonner de ~, ~ tenailler, exorciser ~, etc.

  • à ses voisins distributionnels.
    Par exemple le nom traité a pour voisins convention, accord, constitution car tous ces noms ont comme cooccurrents syntaxiques : stipulation de ~, ratifier ~, renégociation de ~, ratification de ~, signataire de ~, signature de ~, parapher ~, etc.

Pour un couple de voisins, on peut connaître les cooccurrents syntaxiques partagés des deux unitées lexicales.
Enfin, pour chaque requête, on peut faire apparaître les résultats issus de :
  • Le Monde ;
  • Frantext ;
  • Le Monde OU Frantext (ou non-exclusif) ;
  • Le Monde ET Frantext (intersection des deux bases) ;
  • Le Monde ET PAS Frantext (disjonction des deux bases) ;
  • Frantext ET PAS Le Monde (disjonction des deux bases).
Note : le fait qu'un couple de cooccurrents syntaxiques (resp. voisins distributionnels) apparaîsse dans une base et pas dans l'autre ne signifie pas nécessairement que l'un des deux cooccurrents (resp. voisins) du couple est présent dans une base et absent de l'autre.
Par exemple, si l'on cherche les voisins ditributionnels de chef, on trouve dans "Frantext et pas Le Monde" le nom abbé. Cela ne signifie pas que abbé est absent de la base Le Monde, mais qu'il ne partage pas suffisament de cooccurrents avec chef pour être son voisin.

Méthode

Les corpus
Le corpus « Le Monde », a été préparé, à partir de fichiers obtenus auprès de l'agence ELRA, à l'aide de programmes de nettoyage, de balisage et de signalisation, réalisés par Benoît Habert, du LIMSI.
Le corpus « Frantext 20è » est issus de la base Frantext, de l'ATILF. Il est composé de 515 romans du 20ème siècle.
Chacun des deux corpus comporte environ 30 millions de mots.

Analyse syntaxique
Les corpus ont d'abord été étiquetés morphosyntaxiquement par l'outil Treetagger, développé à l'Université de Stuttgart, puis analysé syntaxiquement par l'outil Syntex, développé au sein de l'ERSS. Syntex est un analyseur syntaxique de corpus, qui prend en entrée un corpus de phrases étiquetées, et calcule pour chaque phrase les relations de dépendance syntaxique entre les mots (sujet, complément d'objet, complément prépositionnel, épithète, etc.) À partir de l'analyse syntaxique sont extraits des triplets <gouverneur, relation, dépendant> qui servent de base au calcul des cooccurrents syntaxiques et des voisins distributionnels. Par exemple, de l'analyse syntaxique de la phrase « il mange la souris » est extrait le triplet <manger, obj, souris>. Au cours de cette étape d'extraction de triplets, un certain nombre de normalisations syntaxiques sont effectuées :
  • intégration de la préposition : Il mange avec les doigts -> <manger, avec, doigt> ;
  • distribution de la coordination : Il mange la pomme et la poire -> <manger, obj, pomme>, <manger, obj, poire> ;
  • traitement du passif : la pomme a été mangée -> <manger, obj, pomme> ;
  • traitement de l'antécédence relative : Jean qui dort -> <dormir, suj, Jean> ;
  • traitement des structures à contrôle de l'infinitif : Jean décide de nager -> <nager, suj, Jean> ; Il ordonne à Marie de travailler -> <travailler, suj, Marie>.

Analyse distributionnelle
La méthode d'analyse distributionnelle que nous développons distingue deux types d'unités : les prédicats et les arguments. À chaque triplet extrait <gouverneur, relation, dépendant> correspond un couple <prédicat, argument> : le prédicat est constitué du gouverneur auquel on « accole » la relation syntaxique, et l'argument est le dépendant (auquel on accole le cas échéant la relation "-"). Les principales relations sont : suj, obj, les prépositions (de, à, dans, ...), et mod, pour la relation épithète. Exemple :
  • <manger, obj, pomme> -> prédicat : manger_obj, argument : pomme
  • <manger, avec, doigt> -> prédicat : manger_avec, argument : doigt
  • <pomme, mod, rouge> -> prédicat : pomme_mod, argument : rouge

Pour chaque couple (cooccurrent) syntaxique, on calcule son information mutuelle.
Le module d'analyse distributionnelle Upery procède à une double analyse distributionnelle : il construit des couples de voisins distributionnels en rapprochant d'une part les prédicats qui se construisent avec les mêmes arguments, et d'autre part les arguments qui se construisent avec les mêmes prédicats. Par exemple, le prédicat régler_obj a comme voisins les prédicats résoudre_obj, solution_à et règlement_de, car ces prédicats se construisent de façon régulière avec les arguments différend, contentieux, problème politique, conflit, etc. L'argument conflit a comme voisins les arguments crise, affrontement et guerre, car ces arguments se construisent de façon régulière avec les prédicats déchirer_suj, déclenchement_de , rallumer_obj, etc.

Pour calculer la proximité entre prédicats (ou entre arguments), le module Upery utilise une mesure inspirée de la mesure de Jaccard. Soit n1 le nombre d'arguments du premier prédicat, soit n2 le nombre d'arguments du second prédicat, soit a le nombre d'arguments communs aux deux prédicats, la proximité entre les deux prédicats est donnée par le coefficient de jaccard : a/(n1+n2-a). Idem pour calculer la proximité entre deux arguments. La mesure utilisée est celle proposée par D. Lin (Automatic Retrieval and Clustering of Similar Words. COLING-ACL98, Montreal, Canada, 1998).

Seuils
Les couples de cooccurrents syntaxiques retenus sont ceux dont la fréquence est supérieure à 4.
Les couples de voisins distributionnels retenus sont ceux qui partagent au moins 3 contextes et dont la proximité est supérieure à 0.2.

Contributeurs et remerciements

  • Le développement de cette interface a été réalisé dans le cadre d'un financement CNRTL ;
  • Merci à Benoît Habert du LIMSI de nous avoir permis d'utiliser les programmes de préparation du corpus ;
  • Merci à l'ATILF et son directeur, Jean-Marie Pierrel, de nous avoir fourni un sous-corpus de Frantex ;
  • La chaîne d'analyse syntaxique utilisée dans cette expérience, au sein de laquelle sont intégrés Treetagger et Syntex, a été réalisée dans le cadre d'une collaboration entre l'ERSS et la société Synomia ;
  • Cette application est hébergée sur un serveur de l'IRIT. Merci particulièrement à Pierre Maurice et Annie Planque.