Voisins De Wikipédia

[ Accueil ] [ Prédicats ] [ Arguments ]
[ À propos ] [ Mention légale ] [ Contacts ]

Licence Creative Commons - Certains droits réservés

Les Voisins De Wikipédia

Présentation

La base de données lexicale « Les Voisins De Wikipédia » a été construite automatiquement à partir d'un corpus de 262 millions de mots, constitué des 665000 articles de l'encyclopédie Wikipédia dans sa version de juin 2008, à l'aide d'outils d'analyse syntaxique et d'analyse distributionnelle développés au sein du laboratoire CLLE-ERSS.

Pour chaque unité lexicale, on donne accès :

à ses cooccurrents syntaxiques.
Par exemple, le nom peur apparaît de façon très régulière dans les contextes syntaxiques trembler de ~, frissonner de ~, ~ tenailler, exorciser ~, etc.
à ses voisins distributionnels.
Par exemple le nom traité a pour voisins convention, accord, constitution car tous ces noms ont comme cooccurrents syntaxiques : stipulation de ~, ratifier ~, renégociation de ~, ratification de ~, signataire de ~, signature de ~, parapher ~, etc.

Méthode

Le corpus. La description du corpus est disponible sur la page ressource qui lui est consacrée. Il est possible de télécharger le corpus sur cette page.

Analyse syntaxique. Le corpus a d'abord été étiqueté morphosyntaxiquement par l'outil Treetagger, développé à l'Université de Stuttgart, puis analysé syntaxiquement par l'outil Syntex, développé au sein du laboratoire CLLE-ERSS. Syntex est un analyseur syntaxique de corpus, qui prend en entrée un corpus de phrases étiquetées, et calcule pour chaque phrase les relations de dépendance syntaxique entre les mots (sujet, complément d'objet, complément prépositionnel, épithète, etc.). À partir de l'analyse syntaxique sont extraits des triplets <recteur, relation, régi> qui servent de base au calcul des cooccurrents syntaxiques et des voisins distributionnels. Par exemple, de l'analyse syntaxique de la phrase « il mange la souris » est extrait le triplet <manger, obj, souris>. Au cours de cette étape d'extraction de triplets, un certain nombre de normalisations syntaxiques sont effectuées : distribution de la coordination (Il mange la pomme et la poire -> <manger, obj, pomme> ; <manger, obj, poire>), traitement du passif (la pomme a été mangée -> <manger, obj, pomme>), traitement de l'antécédence relative : (Jean qui dort -> <dormir, suj, Jean>), traitement des structures à contrôle de l'infinitif (Jean décide de nager -> <nager, suj, Jean> ; Il ordonne à Marie de travailler -> <travailler, suj, Marie>).

Analyse distributionnelle. La méthode d'analyse distributionnelle que nous développons distingue deux types d'unités : les prédicats et les arguments. À chaque triplet extrait <recteur, relation, régi> correspond un couple <prédicat, argument> : le prédicat est constitué du recteur auquel on « accole » la relation, et l'argument est le régi. Pour chaque couple (cooccurrent) syntaxique, on calcule son information mutuelle. Puis on procède à une double analyse distributionnelle : on rapproche les prédicats qui se construisent avec les mêmes arguments, on rapproche les arguments qui se construisent avec les mêmes prédicats. Par exemple, le prédicat régler_obj a comme voisins les prédicats résoudre_obj, solution_à et règlement_de, car ces prédicats se construisent de façon régulière avec les arguments différend, contentieux, problème politique, conflit, etc. Pour calculer la proximité entre prédicats (ou entre arguments), on utilise une mesure de Jaccard pondérée par l'information mutuelle : deux prédicats (resp. arguments) seront d'autant plus proches qu'ils partageront un plus grand nombre d'arguments (resp. prédicats) et que leurs coefficients d'information mutuelle avec ces arguments (resp. prédicats) partagés seront plus élevés (le nombre de cooccurrents syntaxiques partagés est noté a dans l'interface).