Présentation
L'outil LexiMédia2007 permet de suivre l'actualité des élections présidentielles
de 2007 semaine après semaine.
LexiMédia2007 a été réalisé
par Didier
Bourigault et Franck
Sajous du laboratoire CLLE-ERSS,
unité mixte du CNRS
et de l'Université
Toulouse-Le Mirail. Il exploite les
résultats du logiciel Syntex, développé
par Didier Bourigault.
L'interface LexiMédia2007 a été programmée par
Franck Sajous.
Le logiciel Syntex fait l'objet d'un partenariat de développement technique et
d'exploitation commerciale entre le CNRS et la société
Synomia. Il utilise les sorties de
TreeTagger
développé à
l'Institute for Natural Language Processing de l'Université de Stuttgart.
LexiMédia2007 est complémentaire de l'outil
Presse
2007, réalisé par Jean
Véronis, et utilise le flux
RSS qu'il a mis en place, regroupant les articles d'actualité
de grands médias français portant sur les élections présidentielles
de 2007. Le mode de constitution de ce flux est décrit ici.
Méthode
LexiMédia2007 analyse en permanence les articles des journaux Le
Monde, Libération
et Le Figaro
issus du flux décrit plus haut. Syntex extrait automatiquement
les mots (débat, retraite,
carte, délinquance)
et les expressions (débat interne,
régimes spéciaux de retraite, carte
scolaire, prévention de la délinquance)
utilisés dans ces articles.
Les termes extraits se répartissent en plusieurs catégories de mots :
- adjectif (national, présidentiel, etc.) ;
- nom (élection, président, pacte, etc.) ;
- nom propre (France, Paris, etc.) ;
- verbe (proposer, annoncer, etc.).
et d'expressions :
- syntagme nominal : expression dont la "tête" grammaticale est un
nom (élection présidentielle, premier tour,
carte scolaire, etc.) ;
- syntagme nom propre : expression dont la "tête" grammaticale est un nom
propre (Jacques Chirac, Zinedine Zidane, etc.) ;
- syntagme verbal : expression dont la "tête" grammaticale est un verbe
(prendre une décision, fumer dans les lieux publics, etc.).
LexiMédia2007 donne l'évolution
au fil des semaines de la fréquence d'utilisation de ces syntagmes,
globalement et par journal. Pour chaque semaine, il donne les
syntagmes les plus utilisés, les syntagmes en forte
hausse, les syntagmes en forte baisse et ceux dont la variation
(hausse et baisse confondues) est la plus importante. Pour chaque syntagme,
on peut voir le détail de son évolution (courbe
de fréquence sur l'ensemble des semaines) et les liens vers les
articles dans lesquels il apparaît.
Note : les résultats
ont été obtenus entièrement automatiquement, ils n'ont pas été
validés manuellement et comportent donc une part d'erreur inévitable.
Données
Les fréquences affichées sont des fréquences relatives. Elles ont été normées de telle sorte que la taille
globale en nombre de mots des articles publiés pour une semaine et un journal donnés soit la même quel
quels que soient la semaine et le journal.
Tous les termes (mots ou syntagmes) dont la fréquence relative d'occurrences sur
l'ensemble de la période (depuis le 21 août 2006) est supérieure à un certain
seuil (10) sont pris en compte. Quelques syntagmes extrêmement fréquents sont
exclus (élections présidentielles, premier ministre, ministre de l'intérieur, etc.).
Il est possible que certains liens pointent vers des articles auxquels les journaux ne donnent plus
accès (articles archivés devenus payants).
De plus, il est à noter que les articles sont analysés pratiquement dès leur parution. Il arrive
régulièrement que les articles soient partiellement ou entièrement remaniés et mis à jour.
Il peut en résulter des différences entre l'analyse effectuée (sur les premières versions des articles)
et l'observation a posteriori (des articles mis à jour).
Enfin, quelques articles peuvent apparaître plusieurs fois.
Remerciements
- à Jean Véronis de nous permettre
d'utiliser son flux RSS comme point de départ de l'application ;
- à l'IRIT (Institut de Recherche en
Informatique de Toulouse) qui a hébergé cette application avant qu'elle ne le soit à l'Université de Toulouse-Le Mirail,
et spécialement Pierre Maurice et Annie Planque.
LexiMédia2007
|