Glawinette
Lexique dérivationnel du français
Description
Glawinette est un lexique dérivationnel du français construit à partir du dictionnaire électronique
GLAWI .
Les entrées de Glawinette sont des couples de lexèmes morphologiquement apparentés comme
accomplir_V:accomplissement_N
.
Glawinette fournit la famille de mots (famille morphologique) de chacune de ses entrées
et une caractérisation de la relation dérivationnelle dans laquelle se trouvent les lexèmes du couple.
Les relations sont décrites au moyen de :
un patron d'alternance général (BAP) qui décrit au moyen de deux expressions régulières
la relation de forme la plus générale qui existe entre les deux mots comme
^(.+)r:^(.+)ssement
pour accomplir_V:accomplissement_N
,
où la séquence (.+)
représente la chaîne de caractère accompli ;
un patron d'alternance fin (FAP) qui décrit au moyen de deux expressions régulières une relation de forme
entre les deux mots qui utilise des exposants dérivationnels mieux motivés d'un point de vue linguistique comme
^(.+)ir:^(.+)issement
pour accomplir_V:accomplissement_N
,
où la séquence (.+)
représente la chaîne de caractère accompl ;
Glawinette contient 156090 couples de lexèmes qui se répartissent en 15843 familles de mots et 5384 séries dérivationnelles.
Glawinette est mise à disposition sous deux formes : tsv et json.
Format du fichier glawinette.tsv
lemma1 = lemme de mot1
lemma2 = lemme de mot2
cat1 = catégorie grammaticale de mot1
cat2 = catégorie grammaticale de mot2
familyId = numéro de la famille de mot du couple mot1:mot2
morphOri = True si le couple est issu d'une section morphologique et 0 sinon
defOri = True si le couple est issu d'une définition et 0 sinon
BAP1 = expression régulière qui correspond à mot1 dans le BAP
BAP2 = expression régulière qui correspond à mot2 dans le BAP
FAP1 = expression régulière qui correspond à mot1 dans le FAP
FAP2 = expression régulière qui correspond à mot2 dans le FAP
FAP_matches = nombre de couples qui partage le même FAP dans Glawinette
FAP_stem = radical qui correspond à la séquence (.+) dans FAP1 et FAP2
FAP_pref = True si FAP1 ou FAP2 comportent un préfixe et False sinon
FAP_suff = True si FAP1 ou FAP2 comportent un suffixe et False sinon
Les 4 champs suivants ne sont renseignés que si le couple est issu d'une définition (i.e. si defOri vaut 1).
defEntry = entrée GLAWI dont la définition a servi à identifier le couple. defEntry est soit lemma1, soit lemma2
defCat = catégorie de l'entrée GLAWI dont la définition a servi à identifier le couple. defCat est soit cat1 soit cat2
defTxt = texte de la définition dont le couple mot1:mot2 est issu
defLem = forme lemmatisée de la définition dont le couple mot1:mot2 est issu
L'archive json contient deux fichiers json :
glawinette-families.json
contient la liste des familles de mots de Glawinette. Les familles sont représentées sous forme de listes de couples de mots. Les couples de mots sont des dictionnaires comme illustré dans l'extrait suivant :
[[{"word1": {"lemma": "autoformation", "cat": "N"}, "word2": {"lemma": "formation", "cat": "N"}},
{"word1": {"lemma": "autoformer","cat": "V"},"word2": {"lemma": "former","cat": "V"}}, ...] ...]
glawinette-series.json
contient la liste des couples de mots de Glawinette.
Chaque couple est décrit par un dictionnaire qui fournit :
le lemme et la catégorie du mot1
le lemme et la catégorie du mot2
l'origine du couple mot1:mot2
le BAP
le FAP
la définition de laquelle le couple est issu, le cas échéant.
Le dictionnaire suivant illustre la description du couple accomplir_V:accomplissement_N
:
{"word1": {"lemma": "accomplir", "cat": "V"},
"word2": {"lemma": "accomplissement", "cat": "N"},
"relation": {"origin": {"morpho": false, "def": true},
"BAP": {"BAP1": "^(.+)r$", "BAP2": "^(.+)ssement$"},
"FAP": {"FAP1": "^(.+)ir$", "FAP2": "^(.+)issement$", "stem": "accompl", "pref": false, "suff": true, "matches": 177}},
"definition": {"entry": "accomplissement", "txt": "Action d'accomplir ou résultat de cette action.",
"lemmatized": "action de accomplir ou résultat de ce action ."}}
Concepteurs
Nabil Hathout ,
Franck Sajous ,
Basilio Calderone ,
Fiammetta Namer
Responsable ressource
Nabil Hathout
Contact :
Droits/Crédits
Certains droits sont réservés.
Glawinette est diffusé sous licence Creative Commons By-SA 3.0 .
Soutien instutitionnel
Le développement de Glawinette est réalisé dans le cadre du projet Demonext financé par l'
Agence Nationale de la Recherche (ANR-17-CE23-0005).
Téléchargement
Références
Glawinette est décrit dans l'article suivant :
Hathout, N., Sajous, F., Calderone, B., Namer, F. (2020).
Glawinette: a linguistically motivated derivational description of French acquired from GLAWI.
In Proceedings of the Twelfth International Conference on Language Resources and Evaluation (LREC 2020) ,
pp. 3870-3878, Marseille, 2020.
[ PDF ]
[ Bibtex ]