Voisins De Le Monde

[ Accueil ] [ Prédicats ] [ Arguments ]
[ À propos ] [ Mention légale ] [ Contacts ]

Licence Creative Commons - Certains droits réservés

Les Voisins De Le Monde

Présentation

La base de données lexicale « Les Voisins De Le Monde » a été construite automatiquement à partir d'un corpus de 200 millions de mots, constitué des articles du journal Le Monde des années 1991 à 2000, à l'aide d'outils d'analyse syntaxique et d'analyse distributionnelle développés au sein de l'ERSS (Équipe de Recherche en Syntaxe et Sémantique de Toulouse).

Pour chaque unité lexicale, on donne accès :

à ses cooccurrents syntaxiques.
Par exemple, le nom peur apparaît de façon très régulière dans les contextes syntaxiques trembler de ~, frissonner de ~, ~ tenailler, exorciser ~, etc.
à ses voisins distributionnels.
Par exemple le nom traité a pour voisins convention, accord, constitution car tous ces noms ont comme cooccurrents syntaxiques : stipulation de ~, ratifier ~, renégociation de ~, ratification de ~, signataire de ~, signature de ~, parapher ~, etc.

Méthode

Le corpus. Le corpus, dit corpus « LM10 », a été préparé, à partir de fichiers obtenus auprès de l'agence ELRA, par Benoît Habert, du LIMSI, qui a effectué les tâches de nettoyage, de balisage et de signalisation nécessaires pour transformer les fichiers initiaux en un corpus effectivement « traitable » par des outils de Traitement Automatique des Langues. Le corpus LM10 comporte environ 200 millions de mots. Nous avons choisi ce corpus car c'est, à notre connaissance, le plus gros corpus « cohérent » disponible pour le français. Nous ne prétendons pas que ce corpus soit représentatif de la « langue générale », mais nous considérons que sa taille et sa diversité thématique en font un corpus référentiellement et linguistiquement peu marqué, à partir duquel il est possible d'acquérir des données lexicales relativement génériques. L'une de nos pistes de recherche est d'évaluer la stabilité des résultats obtenus en fonction de différentes segmentations possibles du corpus initial (selon la période, selon le domaine, etc.).

Analyse syntaxique. Le corpus LM10 a d'abord été étiqueté morphosyntaxiquement par l'outil Treetagger, développé à l'Université de Stuttgart, puis analysé syntaxiquement par l'outil Syntex, développé au sein de l'ERSS. Syntex est un analyseur syntaxique de corpus, qui prend en entrée un corpus de phrases étiquetées, et calcule pour chaque phrase les relations de dépendance syntaxique entre les mots (sujet, complément d'objet, complément prépositionnel, épithète, etc.). À partir de l'analyse syntaxique sont extraits des triplets <recteur, relation, régi> qui servent de base au calcul des cooccurrents syntaxiques et des voisins distributionnels. Par exemple, de l'analyse syntaxique de la phrase « il mange la souris » est extrait le triplet <manger, obj, souris>. Au cours de cette étape d'extraction de triplets, un certain nombre de normalisations syntaxiques sont effectuées : distribution de la coordination (Il mange la pomme et la poire -> <manger, obj, pomme> ; <manger, obj, poire>), traitement du passif (la pomme a été mangée -> <manger, obj, pomme>), traitement de l'antécédence relative : (Jean qui dort -> <dormir, suj, Jean>), traitement des structures à contrôle de l'infinitif (Jean décide de nager -> <nager, suj, Jean> ; Il ordonne à Marie de travailler -> <travailler, suj, Marie>).

Analyse distributionnelle. La méthode d'analyse distributionnelle que nous développons distingue deux types d'unités : les prédicats et les arguments. À chaque triplet extrait <recteur, relation, régi> correspond un couple <prédicat, argument> : le prédicat est constitué du recteur auquel on « accole » la relation, et l'argument est le régi. Pour chaque couple (cooccurrent) syntaxique, on calcule son information mutuelle. Puis on procède à une double analyse distributionnelle : on rapproche les prédicats qui se construisent avec les mêmes arguments, on rapproche les arguments qui se construisent avec les mêmes prédicats. Par exemple, le prédicat régler_obj a comme voisins les prédicats résoudre_obj, solution_à et règlement_de, car ces prédicats se construisent de façon régulière avec les arguments différend, contentieux, problème politique, conflit, etc. Pour calculer la proximité entre prédicats (ou entre arguments), on utilise une mesure de Jaccard pondérée par l'information mutuelle : deux prédicats (resp. arguments) seront d'autant plus proches qu'ils partageront un plus grand nombre d'arguments (resp. prédicats) et que leurs coefficients d'information mutuelle avec ces arguments (resp. prédicats) partagés seront plus élevés (le nombre de cooccurrents syntaxiques partagés est noté a dans l'interface).

Contributeurs et remerciements

Merci à Benoît Habert du LIMSI de nous avoir permis d'utiliser les programmes de préparation du corpus.

La base de donnée "Les Voisins De Le Monde" a été réalisée à l'ERSS. Elle est hébergée au sein de la plate forme RFIEC, mise en place dans le cadre d'une collaboration ERSS/IRIT dans les domaines de la Recherche d'Information de du Traitement Automatique du Langage.