REDAC : Talismane
REDAC
REssources Développées À CLLE CLLE : Cognition, Langues, Langage, Ergonomie







English version
TALISMANE
Traitement Automatique des Langues par Inférence Statistique
Moyennant l'Annotation de Nombreux Exemples
Description

L'outil Talismane est un analyseur syntaxique dĂ©veloppĂ© par Assaf Urieli dans le cadre de sa thèse au sein du laboratoire CLLE-ERSS, sous la direction de Ludovic Tanguy. Il est Ă©crit intĂ©gralement en Java : il fonctionne donc sur tous les systèmes d'exploitation et est facilement intĂ©grable Ă  d'autres applications.

Pour passer d'un texte brut Ă  un rĂ©seau de dĂ©pendances syntaxiques, Talismane utilise une analyse en cascade avec quatre Ă©tapes classiques pour ce type de tâche : le dĂ©coupage en phrases, la segmentation en mots, l'Ă©tiquetage (attribution d'une catĂ©gorie morphosyntaxique), et le parsing (repĂ©rage et Ă©tiquetage des dĂ©pendances syntaxiques entre les mots).

La tâche de chacun des modules est définie comme un problème de classification, et résolue de façon statistique, en entraînant un modèle probabiliste sur un corpus annoté.

Chacun des modules est configurable à la fois au niveau des traits et des règles. Les traits sont les informations sur les configurations rencontrées dont dispose l'algorithme pour prendre chacune des décisions, alors que les règles sont des contraintes qui forcent (ou interdisent) des décisions locales.

Le modèle par défaut proposé par Talismane utilise des traits classiques pour chacune des opérations. Pour l'étiquetage, par exemple, sont calculés pour chaque mot des traits liés à sa forme, aux étiquettes indiquées dans un lexique de référence, aux catégories des mots qui l'entourent, etc. La syntaxe de définition des traits est suffisamment expressive pour définir des traits plus complexes, par exemple le fait que le mot précédent soit situé entre parenthèses.

Les règles, qui ne sont appliquées qu'au moment de l'analyse (et pas lors de l'apprentissage), permettent de remplacer ou de contraindre les réponses fournies par le classifieur probabiliste, quand un critère est rempli. Des règles définissables suivant une syntaxe souple permettent d'éviter des résultats aberrants (comme l'attribution d'une classe fermée à un mot inconnu du lexique, l'attribution de deux sujets à un verbe, etc.) soit de respecter des contraintes propres à un corpus spécifique (en attribuant une catégorie fixe à un mot donné, par exemple).

Pour le parsing, Talismane se base sur l'algorithme décrit par (Urieli et Tanguy, 2013) avec certaines modifications pour rendre possible la recherche par faisceau.

Liens

Responsable ressource
Assaf Urieli
Contact :

Droits
Talismane est distribué sous license Affero GPL v3.

Lancement Rapide

Vous devez installer une version de Java récente (> 1.6) et extraire l'archive talismane-XXX.zip
Pour analyser un texte brut en français avec une configuration par dĂ©faut, saisissez dans un terminal la commande suivante :

java -Xmx1G -jar talismane-core-version.jar languagePack=frenchLanguagePack-version.zip command=analyse inFile=test.txt outFile=output.txt

Le codage du texte par défaut (latin1 ou UTF-8) est celui de votre environnement de travail. Pour le modifier, consultez la documentation.
Notez que le système prend une vingtaine de secondes pour charger les lexiques en mémoire avant de démarrer l'analyse.
Par exemple, si le fichier exemple.txt contient la phrase "Les poules du couvent couvent.", la sortie exemple.tal devrait ĂŞtre la suivante :

1LesleDETdetp2det__
2poulespouleNCncfp5suj__
3dudeP+DP+Dms2dep__
4couventcouventNCncms3obj__
5couventcouverVvPS3p0root__
6..PONCTPONCTnull5punct__

Références
  • Urieli, Assaf (2013). Robust French syntax analysis: reconciling statistical methods and linguistic knowledge in the Talismane toolkit. PhD thesis. Université de Toulouse II-Le Mirail. [ PDF ] [ BIBTEX ]
  • Urieli, Assaf et Tanguy, Ludovic (2013). L'apport du faisceau dans l'analyse syntaxique en dĂ©pendances par transitions : Ă©tudes de cas avec l'analyseur Talismane. Actes de la confĂ©rence Traitement Automatique des Langues Naturelles (TALN 2013). Les Sables d'Olonne, France. [ PDF ] [ BIBTEX ]