Suzanne Mpouli
doctorante au labex OBVIL
soutiendra sa thèse de Doctorat intitulée
"Automatic Annotation of Similes in Literary Texts"
le lundi 03 octobre 2016 à 14h00
à l'Université Pierre et Marie Curie, 4 place Jussieu, 75005 Paris, Couloir 25-26, Salle 105, 1er étage (Tour 25 ou 26).
La présentation orale s’effectuera en anglais.
Le jury est composé de :
M. Stéphane Ferrari, Maître de conférences [HDR], Université de Caen – Rapporteur
Mme Catherine Fuchs, Directrice de recherche, LATTICE-CNRS – Examinatrice
M. Walter Daelemans, Professeur, Universiteit Antwerpen – Rapporteur
M. Jean-Gabriel Ganascia, Professeur, UPMC – Directeur de thèse
M. Dominique Legallois, Professeur, Université Sorbonne Nouvelle – Examinateur
Mme Vanda Luengo, Professeur, UPMC – Examinatrice
La soutenance sera suivie du traditionnel pot auquel vous êtes également conviés.
=====================================================================
Titre en français : « Annotation automatique des figures de comparaison dans les textes littéraires »
Résumé
Cette thèse adresse le problème de la détection automatique des comparaisons figuratives dans des textes littéraires en prose écrits en français ou en anglais et propose un canevas pour décrire ces comparaisons d’un point de vue stylistique. Une comparaison figurative correspond ici à toute structure syntaxique qui met en parallèle au moins deux entités, déroge au principe de compositionnalité et crée une image mentale dans l’esprit de ceux à qui elle est destinée.
Trois éléments principaux distinguent notre approche des travaux précédents : son ancrage dans les théories linguistiques et cognitives sur les comparaisons littérales et figuratives, sa capacité à gérer des marqueurs appartenant à différentes catégories grammaticales et sa flexibilité qui lui permet d’envisager différents scénarios syntaxiques. De fait, nous proposons une méthode comprenant trois modules complémentaires :
- un module syntaxique qui se repose sur les dépendances syntaxiques et des règles manuelles pour identifier les comparaisons potentielles ainsi que leurs composantes ;
- un module sémantique qui mesure la saillance des motifs détectés et la similarité sémantique des termes comparés en se basant sur une base de données préétablie ;
- et un module d’annotation qui fournit entre autres des informations sur le type de comparaison (idiomatique, sensorielle…) et sur les catégories sémantiques employées.
Pour finir, au vu des données recueillies au cours des deux campagnes d’annotation que nous avons menées, il paraît clair que la détection automatique des comparaisons figuratives doit tenir compte de plusieurs facteurs parmi lesquels la saillance, la catégorisation et la syntaxe de la phrase.
========================================================
Abstract
This thesis tackles the problem of the automatic recognition of similes in literary texts written in English or in French and proposes a framework to describe them from a stylistic perspective. For the purpose of this study, a simile has been defined as a syntactic structure that draws a parallel between at least two entities, lacks compositionality and is able to create an image in the receiver’s mind.
Three main points differentiate the proposed approach from existing ones: it is strongly influenced by cognitive and linguistic theories on similes and comparisons, it takes into consideration a wide range of markers and it can adapt to diverse syntactic scenarios. Concretely speaking, it relies on three interconnected modules:
- a syntactic module, which extracts potential simile candidates and identifies their components using grammatical roles and a set of handcrafted rules,
- a semantic module which separates creative similes from both idiomatic similes and literal comparisons based on the salience of the ground and semantic similarity computed from data automatically retrieved from machine-readable dictionaries;
- and an annotation module which makes use of the XML format and gives among others information on the type of comparisons (idiomatic, perceptual...) and on the semantic categories used.
Finally, the two annotation tasks we designed show that the automatic detection of figuration in similes must take into considerationFinally, the two annotation tasks we designed show that the automatic detection of figuration in similes must take into consideration a series of features among which salience, categorisation and the sentence syntax.