Université d’été | Bi-licence "Lettres – Informatique" | Ateliers
PAGE ACCUEIL
Entretien avec Jean-Gabriel Ganascia
Entretien avec Jean-Gabriel Ganascia
Jean-Gabriel Ganascia est professeur d’informatique à l’Université Pierre et Marie Curie, où il dirige l’équipe de recherche ACASA (Agents Cognitifs et Apprentissage Symbolique Automatique), et directeur adjoint du labex OBVIL. Exemples à l’appui, il nous a montré ce que l’informatique peut apporter aux études littéraires.
Vous êtes directeur adjoint du labex OBVIL, dont vous représentez la partie scientifique et informatique. Pourriez-vous nous parler du rôle qui est le vôtre en son sein, et plus généralement de la manière dont collaborent les chercheurs de Paris-Sorbonne et de l’UPMC ?
La réflexion sur l’apport des technologies de l’information dans les disciplines d’érudition est au cœur du labex OBVIL, et ça m’a tout de suite intéressé. J’avais déjà commencé à aborder ce sujet en collaboration avec les membres de l’ITEM, qui travaillent sur la génétique textuelle. C’est ce qui m’avait amené à développer MEDITE. Lorsque Georges Forestier et Didier Alexandre sont venus me voir pour que je participe au labex, j’ai trouvé que c’était une aventure tout à fait exaltante. Cet échange entre deux disciplines si opposées ne va pas toujours de soi. Il y a des différences dans la façon même de pratiquer la recherche : d’un côté, on a l’habitude d’aller très vite, avec dans nos domaines une activité assez frénétique, trop certainement, et une recherche en équipe ; de l’autre, les chercheurs travaillent seuls, ils ont chacun une très grande réputation. Habitué à cette activité solitaire, ils regardent avec un peu d’effroi les technologies car ils craignent qu’elles conduisent à une forme de dispersion par rapport à ce qui fait l’essentiel d’un travail d’érudition. Mais il s’agit de différences, non de différents, et cet échange me semble particulièrement fructueux. Il ne s’agit pas d’automatiser les disciplines d’érudition. Dans les années 50, il y a eu des tentatives pour transformer en sciences positives des disciplines traditionnelles. Ce n’est pas du tout la façon que j’ai de voir les choses : l’informatique ne vise pas à « naturaliser » la littérature, bien au contraire – et c’est ça qui est, d’un point de vue conceptuel, tout à fait passionnant. Ce qui nous intéresse, c’est vraiment de concevoir des opérateurs d’interprétation pour aider et prolonger le travail des littéraires. Il y a donc, de leur côté, un travail théorique qui doit être assimilé de notre part. On ne se substitue pas l’un à l’autre, on travaille en symbiose.
Vous êtes initialement spécialiste en intelligence artificielle. Y a-t-il un lien entre cette discipline et les humanités numériques ?
Il y a un premier lien dans le choix même des termes qui les désignent. Les humanités numériques sont issues de ce qu’on a appelé « computing and humanities », qui reposait sur l’application des techniques de calcul à des problèmes littéraires et plus généralement aux « humanités » (au sens anglo-saxon : l’ensemble des disciplines qui étudient les œuvres humaines, et pour lesquelles on a besoin d’une interprétation). Au début des années 2000, sous la pression d’éditeurs, cette discipline a été rebaptisée « humanités numériques ». Elle acquérait ainsi une vigueur nouvelle, car ce nom avait en lui-même quelque chose de choquant. Il en va de même pour « intelligence artificielle » ou « livre électronique ». Ce sont des termes qui ont un côté un peu paradoxal. Il y a vingt ans, j’ai animé le groupement d’intérêt scientifique « Sciences de la cognition », qui avait pour but de financer, de façon large, les sciences cognitives. J’avais lancé un certain nombre de groupes de réflexion, à la fois sur des aspects liés aux neurosciences, comme l’imagerie fonctionnelle cérébrale, ou à la psychopathologie, mais aussi sur les nouveaux supports de connaissance. J’avais appelé un de ces groupes « livre électronique ». Le terme n’existait pas vraiment à l’époque, et j’avais demandé à Bernard Cerquiglini s’il heurtait la langue. Il m’avait répondu qu’il convenait au contraire parfaitement, parce que la tension qui existe entre ces deux notions faisait qu’il pourrait surprendre et, par là, s’imposer. Avec les humanités numériques, on a un peu la même chose. Les humanités nous semblent attachées à des formes anciennes, comme le sont celle du livre, du manuscrit ou de l’imprimé. Et en même temps, le numérique leur donne une dimension nouvelle qui surprend et demande de nouvelles approches de la lecture ; or c’est là, je crois, ce qui se produit aujourd’hui avec les humanités numériques.
Le deuxième lien entre ces deux disciplines tient à l’utilisation de techniques d’intelligence artificielle pour aider à l’interprétation de textes, par exemple, pour comparer des versions d’œuvre, afin de faciliter le travail en génétique textuelle, pour construire des moteurs de recherche, pour étudier l’intertextualité, pour éditer des corpus, etc. Tout le travail d’édition de texte, qui préoccupe beaucoup les spécialistes des disciplines d’érudition, peut être soulagé par l’emploi de techniques d’intelligence artificielle. Des opérations très fastidieuses, comme l’indexation, peuvent être partiellement automatisées. On peut aussi s’aider d’outils qui repèrent automatiquement des réutilisations, des reprises ou des citations sur des corpus de textes considérables qui ne se restreignent pas aux œuvres littéraires, mais qui incluent les articles de scientifiques, les journaux, etc..
Vous avez développé avec votre équipe plusieurs logiciels que vous avez mis à la disposition de la communauté scientifique. En quoi permettent-ils de renouveler le regard que nous portons sur les textes littéraires et leur genèse ?
Il y a tout d’abord des travaux qui portent sur la stylistique. Dans le cadre de sa thèse, Amine Boukhaled a développé un logiciel qui s’appelle EREMOS et qui détecte les motifs syntaxiques récurrents d’un texte, ce qui est destiné à caractériser le style d’un auteur, d’un personnage ou d’un genre. Suzanne Mpouli travaille pour sa part sur un logiciel qui détecte les comparaisons. Il s’agit d’en faire l’inventaire, d’en étudier la variété, de déterminer combien sont originales et combien sont des clichés, etc. afin de construire une stylistique et de caractériser l’univers d’un auteur. Nous avons aussi mené des études sur la reconnaissance et la désambiguïsation des entités nommées (ce qu’on appelle « named entity linking », c’est-à-dire le lien entre un nom et une entité), ce qui très utile pour l’édition de textes.
Les trois logiciels que j’ai développés, MEDITE, Phœbus et DeSeRT, portent tous, quant à eux, sur la détection des ressemblances ou des dissemblances entre les textes. MEDITE permet de relever les différences entre des textes qui sont très semblables (par exemple des versions ou des éditions successives d’une même œuvre). Cela apporte des informations qui sont extrêmement précieuses. J’avais développé ce logiciel à la demande de Jean-Louis Lebrave, de l’ITEM, avec qui j’étais ami, en m’inspirant de certains algorithmes qui sont employés pour la biologie moléculaire, et entre autres pour la génétique. Les premiers résultats que j’avais obtenus à partir des textes que m’avaient donnés mes collègues de l’ITEM étaient très concluants. On voyait dans cette mise en correspondance des différentes versions du texte des phases qui ne correspondaient pas uniquement à des corrections stylistiques mais à ce que j’avais appelé des « avalanches sémantiques ». Toute une série de transformations allaient dans le même sens, et témoignaient d’une volonté de changer la signification du texte. Beaucoup de choses que je n’avais pas vues à première lecture de la version finale d’un texte me semblaient désormais évidentes. Cela permet d’avoir une lecture diachronique des textes qui enrichit le sens. Nous avons ensuite monté un petit projet autour de cette question : j’ai pris un étudiant en thèse sur ce sujet-là, et nous avons perfectionné le logiciel jusqu’à la deuxième version. Un jeune étudiant, Rudolf Mahrer, a eu l’idée d’utiliser ce logiciel pour éditer les œuvres de Ramuz : il ne s’agissait donc plus de faire de la génétique, mais de comparer différentes éditions. Il est très difficile de donner les différentes versions d’un roman dans une édition imprimée. Même si on juxtapose deux versions sur deux pages, on les lit l’une à la suite de l’autre ; et quand on en a quatre, alors on ne sait plus du tout comment faire. Dans une édition numérique, au contraire, on peut facilement visualiser les différences. MEDITE a également permis d’établir l’appareil critique de manière plus rigoureuse. Par exemple, lorsqu’on passe d’une version éditée en Suisse à une version éditée en France, ou l’inverse, on peut voir si les helvétismes sont supprimés, ou si, avec le temps, Ramuz les a au contraire accentués. En outre, cela aide à repérer les artefacts dus à la numérisation et à « nettoyer » les erreurs des algorithmes de reconnaissance automatique des caractères, ou ce que l’on appelle en jargon de métier l’« océrisation ».
Au début du labex, Pierre Glaudes m’a parlé des travaux qui se faisaient sur l’intertextualité et il souhaitait les automatiser pour parvenir à une édition hypertextuelle des œuvres de Balzac. J’ai alors développé le logiciel Phœbus, qui s’inspire des techniques de détection de plagiat. à l’inverse de MEDITE qui recherche ce qui diffère dans des textes semblables, Phœbus repère des segments communs dans des très grandes masses de textes. MEDITE est fait pour traiter un livre à la fois. Si le volume s’accroit, les temps de comparaison deviennent prohibitifs. En revanche, dans le cas de Phœbus, on peut traiter de très grandes bases de textes. Le logiciel permet également de repérer des passages semblables, mais légèrement modifiés (il prend en compte les phénomènes de flexion, le passage du singulier ou pluriel, etc., et peut ignorer les mots vides). Il est assez semblable à Philoline, qui a été développé aux États-Unis par l’ARTFL. Dans le cadre d’un projet financé par la fondation Mellon, nous voudrions faire une comparaison de l’efficacité et des algorithmes de ces deux logiciels pour essayer d’aboutir à un logiciel commun qui s’imposerait dans le monde sur ce sujet.
A l’usage, je me suis rendu compte que deux textes, même s’ils parlent de la même chose, ont parfois assez peu de fragments textuels communs. Pour repérer les idées communes à deux textes, j’ai donc développé un troisième logiciel, DeSeRT (Détection Sémantique de Reformulation et de Topiques) qui s’inspire de travaux sur les moteurs sémantiques. DeSeRT repère les termes porteurs de sens (en éliminant les mots vides, les prépositions, les catégories syntaxiques qui ne sont pas centrales, etc.). À partir de ça, on est capable d’interroger les textes pour mettre en évidence les proximités sémantiques qui peuvent exister entre eux. Là encore notre but est que ce logiciel fonctionne sur d’énormes quantités de texte.
Sur quels projets travaillez-vous actuellement avec votre équipe ?
Nous aimerions maintenant pouvoir valider ces idées de façon plus ferme. Le projet Phœbus (Projet d’Hypertexte de l’Œuvre de Balzac reposant sur l’Utilisation de Similarités) devrait recourir une combinaison des trois logiciels que je viens d’évoquer afin de pouvoir à la fois repérer des similitudes et examiner les différences fines qu’il peut y avoir entre ces similitudes. Si un auteur utilise un autre auteur, comment le réutilise-t-il ? Cela suppose de reprendre les trois logiciels, de les intégrer, et de développer des interfaces. Un deuxième aspect important, c’est tout ce qui tourne autour de la stylistique, du repérage des motifs syntaxiques et des comparaisons. Un troisième aspect concerne l’aide à l’édition, notamment avec la détection des entités nommées. Enfin, un autre projet concerne la visualisation des corpus. Il s’inspire des anciens arts de mémoires. Si on étudie des corpus, la difficulté est de se souvenir des textes et des passages qu’on a lus. L’idée est de les spatialiser : il faut représenter en deux dimensions quelque chose qui n’en a qu’une. J’ai donc imaginé de les représenter comme de petites îles, parce que les petites îles ne sont en général nommées que sur leur pourtour. Il s’agit d’avoir des formes aussi singulières que possible, à l’intérieur desquelles on puisse naviguer et qu’on puisse enrichir d’images et de textes pour se fixer le corpus dans la mémoire et se l’approprier. On pourrait également avoir une île collective, savoir où les autres personnes de la même communauté sont déjà allées, quelles zones n’ont pas encore été explorées, etc. Voilà quelques uns des chantiers qui me semblent intéressants et importants. Après il faut aussi entrer dans le détail. Par exemple, sur MEDITE, ce qui est important c’est de voir comment les gens vont se l’approprier, et à partir de ça, de voir ce qui pourrait être amélioré.
Propos recueillis le 17 mars 2016 par Marc Douguet.