|
Présentation |
La base de données lexicale
« Les Voisins De Le Monde » a été
construite automatiquement à partir d'un corpus de 200 millions
de mots, constitué des articles du journal Le Monde des années
1991 à 2000, à l'aide d'outils d'analyse syntaxique et
d'analyse distributionnelle développés au sein de l'ERSS
(Équipe de Recherche en Syntaxe et Sémantique de Toulouse).
|
Méthode |
Le corpus.
Le corpus, dit corpus « LM10 »,
a été préparé, à partir de fichiers obtenus
auprès de l'agence ELRA, par Benoît Habert, du LIMSI,
qui a effectué les tâches de nettoyage, de balisage et de signalisation
nécessaires pour transformer les fichiers initiaux en un corpus effectivement
« traitable » par des outils de Traitement Automatique
des Langues. Le corpus LM10 comporte environ 200 millions de mots. Nous
avons choisi ce corpus car c'est, à notre connaissance, le plus gros
corpus « cohérent » disponible pour le français.
Nous ne prétendons pas que ce corpus soit représentatif de
la « langue générale », mais nous considérons
que sa taille et sa diversité thématique en font un corpus
référentiellement et linguistiquement peu marqué, à
partir duquel il est possible d'acquérir des données lexicales
relativement génériques. L'une de nos pistes de recherche
est d'évaluer la stabilité des résultats obtenus en
fonction de différentes segmentations possibles du corpus initial
(selon la période, selon le domaine, etc.). Analyse syntaxique. Le corpus LM10 a d'abord été étiqueté morphosyntaxiquement par l'outil Treetagger, développé à l'Université de Stuttgart, puis analysé syntaxiquement par l'outil Syntex, développé au sein de l'ERSS. Syntex est un analyseur syntaxique de corpus, qui prend en entrée un corpus de phrases étiquetées, et calcule pour chaque phrase les relations de dépendance syntaxique entre les mots (sujet, complément d'objet, complément prépositionnel, épithète, etc.). À partir de l'analyse syntaxique sont extraits des triplets <recteur, relation, régi> qui servent de base au calcul des cooccurrents syntaxiques et des voisins distributionnels. Par exemple, de l'analyse syntaxique de la phrase « il mange la souris » est extrait le triplet <manger, obj, souris>. Au cours de cette étape d'extraction de triplets, un certain nombre de normalisations syntaxiques sont effectuées : distribution de la coordination (Il mange la pomme et la poire -> <manger, obj, pomme> ; <manger, obj, poire>), traitement du passif (la pomme a été mangée -> <manger, obj, pomme>), traitement de l'antécédence relative : (Jean qui dort -> <dormir, suj, Jean>), traitement des structures à contrôle de l'infinitif (Jean décide de nager -> <nager, suj, Jean> ; Il ordonne à Marie de travailler -> <travailler, suj, Marie>). Analyse distributionnelle. La méthode d'analyse distributionnelle que nous développons distingue deux types d'unités : les prédicats et les arguments. À chaque triplet extrait <recteur, relation, régi> correspond un couple <prédicat, argument> : le prédicat est constitué du recteur auquel on « accole » la relation, et l'argument est le régi. Pour chaque couple (cooccurrent) syntaxique, on calcule son information mutuelle. Puis on procède à une double analyse distributionnelle : on rapproche les prédicats qui se construisent avec les mêmes arguments, on rapproche les arguments qui se construisent avec les mêmes prédicats. Par exemple, le prédicat régler_obj a comme voisins les prédicats résoudre_obj, solution_à et règlement_de, car ces prédicats se construisent de façon régulière avec les arguments différend, contentieux, problème politique, conflit, etc. Pour calculer la proximité entre prédicats (ou entre arguments), on utilise une mesure de Jaccard pondérée par l'information mutuelle : deux prédicats (resp. arguments) seront d'autant plus proches qu'ils partageront un plus grand nombre d'arguments (resp. prédicats) et que leurs coefficients d'information mutuelle avec ces arguments (resp. prédicats) partagés seront plus élevés (le nombre de cooccurrents syntaxiques partagés est noté a dans l'interface). |
Contributeurs et remerciements |
Merci à Benoît Habert du LIMSI
de nous avoir permis d'utiliser les programmes de préparation du
corpus. La base de donnée "Les Voisins De Le Monde" a été réalisée à l'ERSS. Elle est hébergée au sein de la plate forme RFIEC, mise en place dans le cadre d'une collaboration ERSS/IRIT dans les domaines de la Recherche d'Information de du Traitement Automatique du Langage. |