PAGE ACCUEIL

Entretien avec Andrea Del Lungo et Karolina Suchecka

16 Décembre 2019

Entretien avec Andrea Del Lungo et Karolina Suchecka

Andrea Del Lungo, Karolina Suchecka, "Projet eBalzac : construire une bibliothèque virtuelle des sources intellectuelles", DHNord 2019 : "Corpus et archives numériques", MESH, Lille, octobre 2019

 

Projet eBalzac: Édition génétique et hypertextuelle de l’oeuvre de Balzac

Entretien avec Andrea Del Lungo, professeur à Sorbonne Université et Karolina Suchecka, doctorante à l’Université Lille 3.

 

Pouvez-vous nous présenter le projet le projet Phœbus ?

 
Andrea Del Lungo :
 
Le projet Phoebus, acronyme de Projet d’Hypertextes de l’Œuvre de Balzac reposant sur l’Utilisation de Similarités, a été financé par l’ANR pour la période 2015-2019 et porté par l’Université de Lille (Alithila), à laquelle j’étais rattaché, en collaboration avec Sorbonne Université (Pierre Glaudes, CELLF) et Jean-Gabriel Ganascia (Lip6). Son objectif est de réaliser une édition électronique de l’œuvre de Balzac et de créer le prototype d’un logiciel pour la recherche hypertextuelle pour identifier les sources de Balzac. Plus précisément, il s’agit de permettre la recherche d’homologies de séquences entre le texte de Balzac et un corpus annexe de textes littéraires, mais aussi scientifiques, contemporains et légèrement antérieurs qui auraient pu nourrir son œuvre. Lorsque nous avons créé, en 2017, le site eBalzac, nous avons choisi un nom plus parlant pour le public, en utilisant la signature de Balzac pour le logo.
 

Le projet eBalzac a pour objectif le développement en libre accès d’une édition génétique et hypertextuelle de l’œuvre de Balzac, qui donnera également accès à ses sources. Pouvez-vous nous en dire plus sur cette édition et sur sa conception ?

 
Andrea Del Lungo :
 
L’ouverture du site a aussi été l’occasion d’un élargissement du périmètre du projet à une édition génétique de l’œuvre de Balzac. C’est un aspect important, car Balzac travaillait beaucoup sur les éditions de ses œuvres, donc sur l’imprimé : confronter les éditions les unes aux autres permet de démentir un lieu commun très répandu depuis le XIXe siècle, selon lequel il écrivait vite et mal pour être en mesure de rembourser ses dettes. En réalité, alors que des écrivains comme Flaubert travaillaient surtout sur les manuscrits, chaque édition était pour Balzac l’occasion d’une réécriture, au point qu’il considérait lui-même les éditions de ses œuvres comme des manuscrits de travail. La possibilité de présenter cette édition génétique en libre-accès aux étudiants et aux chercheurs était très importante pour nous, d’où l’élargissement du périmètre du projet. Le site nous a posé le problème conceptuel de l’édition d’une œuvre de taille importante. Imaginer une arborescence permettant à l’utilisateur de retrouver facilement un texte parmi les 95 qui composent la Comédie Humaine, à laquelle nous nous sommes limités jusqu’à aujourd’hui, s’est révélé complexe : c’est pourquoi nous avons choisi plusieurs entrées – plan de l’œuvre, alphabétique et chronologique. L’entrée chronologique nous a d’ailleurs obligés à dater toutes les œuvres, ce qui n’a pas été facile.
 
Karolina Suchecka :
 
Un travail énorme a été fait sur les textes de Balzac par Maxime Perret et son équipe. Beaucoup d’éditions électroniques existantes étant incorrectes ou comportant des coquilles, ils se sont appuyés sur les exemplaires de l’édition Furne corrigés par Balzac. L’affichage en facsimilé permet en outre de voir comment il annotait ses textes tout en s’assurant que le texte est correct. Pour développer l’édition génétique, nous avons comparé plusieurs versions d’un même texte avec le logiciel MEDITE développé par Jean-Gabriel Ganascia. À ce moment-là, il s’agissait de comparaisons en format texte à partir des résultats de MEDITE, le but étant d’arriver à avoir l’édition Furne en format structuré en XML-TEI. Je me suis occupée de l’automatisation du processus pour pouvoir commencer à travailler sur la partie génétique et mettre en place l’interface qui va permettre de rendre compte de toutes les modifications faites par Balzac entre les versions, sur la visualisation et sur les comparaisons. Nous avons développé une méthode de post-traitement des résultats de MEDITE pour conserver les sauts paragraphes, les titres et même les images et les facsimilés. Nous voulions travailler sur un résultat qui soit agréable à lire.
 
 

L’intertextualité est au cœur de ce projet, qui a pour objectif le repérage des emprunts, des citations et des plagiats éventuels dans l’œuvre de Balzac. Pouvez-vous nous en dire plus sur les outils informatiques de repérage de réemplois pour l’analyse textuelle qui sont utilisés et développés dans ce cadre ?

 
Karolina Suchecka :
 
Pour l’axe hypertextuel, j’ai passé 4 mois au sein de Lip6 avec Jean-Gabriel Ganascia. L’idée était de partir d’un logiciel déjà existant, TextPAIR, développé dans le cadre du projet ARTFL à l’université de Chicago, qui est destiné à la détection des réutilisations textuelles (des citations aux allusions plus ambiguës), pour comparer les œuvres de Balzac à un corpus secondaire de 200 textes comprenant 3 sous-ensembles : les œuvres romanesques contemporaines (Gautier, Sand, Chateaubriand…), les recueils collectifs de la littérature panoramique et un corpus scientifique, comportant par exemple des ouvrages sur la physiognomonie, à laquelle Balzac s’est beaucoup intéressé. Les premiers essais ont montré que, outre les reformulations binaires, il était également possible de détecter des correspondances croisées, c’est-à-dire un texte en correspondance avec plusieurs autres textes. Un nouveau logiciel, Galaxies, a été développé par l’équipe ACASA : il récupère les résultats de TextPAIR et les analyse pour construire des graphes de correspondances, afin de les visualiser. En raison du grand nombre de banalités dans les résultats, il fallait trouver une manière de les restreindre et de les pondérer, c’est-à-dire de trouver des facteurs nous permettant de juger la pertinence du résultat. Nous avons donc soumis au logiciel les 1000 mots les plus fréquents à ignorer : nous avons perdu des résultats, mais ceux que nous avons récupérés étaient de meilleure qualité, car les correspondances étaient établies sur les mots peu fréquents. Le logiciel calcule des scores pour chaque correspondance (basés, entre autres, sur la fréquence inversée des mots communs), ce qui permet de hiérarchiser les résultats. Nous nous attendions à détecter surtout des réutilisations, mais les résultats se sont avérés beaucoup plus complexes et très divers, ce qui est passionnant à analyser. Nous avons détecté des correspondances croisées assez complexes, des galaxies de 60 nœuds par exemple, qui ont une thématique en commun : dans le domaine vestimentaire, nous détectons beaucoup de correspondances entre Balzac et Eugène Sue ; en ce qui concerne l’écriture de l’histoire, comme par exemple Sur Catherine de Médicis, il y a des correspondances avec Chateaubriand. Nous avons développé 2 types de visualisation : la première est concentrée sur les auteurs et les titres, avec des couleurs se référant aux auteurs présents dans la galaxie : en cliquant sur un des nœuds, on affiche le texte correspondant. La seconde se focalise surtout sur les mots communs : il peut y avoir jusqu’à 4 couleurs pour chaque nœud, qui se réfère à un mot commun détecté parmi les correspondances. Cela permet de voir la thématique centrale de la galaxie et aussi, avec les changements de couleurs, les glissements sémantiques au sein de la correspondance croisée. Pour le corpus scientifique, l’approche sera différente : il sera intéressant de voir quels mots très présents dans le corpus scientifique sont au contraire très rares chez Balzac. Outre la visualisation à l’aide des graphes, l’édition hyperannotée permettra aussi de visualiser la source en cliquant sur la citation.
 
 

Quels sont les prochaines étapes du projet eBalzac ?

 
Andrea Del Lungo :
 
Les développements du site suivront trois directions. Nous allons d’abord poursuivre notre édition des œuvres complètes de Balzac avec ses œuvres moins connues, les romans de jeunesse, les textes de presse et le théâtre pour permettre à l’utilisateur de découvrir des textes qui ne sont aujourd’hui pas disponibles en édition papier. Nous allons aussi poursuivre le travail sur l’édition génétique en récupérant les versions qui nous manquent mais aussi, éventuellement, en donnant la retranscription des manuscrits : ils sont conservés, pour la plupart, à la Bibliothèque de l’Institut, avec laquelle nous avons eu des contacts. Il serait intéressant d’avoir le premier jet manuscrit et de le comparer à la première édition, afin de mesurer le travail de correction effectué. Enfin, nous allons continuer à développer la partie hypertextuelle du projet : c’est la partie la plus expérimentale et qui comporte la plus forte prise de risque, mais dont les résultats sont prometteurs. Nous allons nourrir le site en ce qui concerne les textes sources et poursuivre l’affinage des résultats et des moyens de leur visualisation.
 
Propos recueillis par Marguerite Bordry