Université d’été | Bi-licence "Lettres – Informatique" | Ateliers
PAGE ACCUEIL
développements
Odette
- Frédéric Glorieux
Version en ligne — Odette est un logiciel libre développé par Frédéric Glorieux qui transforme un document traitement de texte (odt) vers un format structuré strictement sémantique (XML/TEI). Le principe consiste à exploiter toutes les fonctionnalités avancées d’un logiciel bureautique (tables des matières, styles, index…), pour les retranscrire en balises normalisées, cf. Glorieux, 2015.
→DeSeRT
- Jean-Gabriel Ganascia
DeSeRT (Détection Sémantique de Reformulations et de Topiques) est un moteur sémantique qui repère, rapproche et met en relation, des réécritures, des paraphrases ou des reformulations. Il fait ressortir les passages qui emploient les mêmes mots et les mêmes idées.
→Alix
- Marianne Reboul
- Frédéric Glorieux
Démonstration obvil.lip6.fr/alix/.
Alix est un outil de traitement linguistique en ligne en cours de développementy, qui a été présenté à l’université d’été de l’OBVIL (juillet 2016). Initialement prévu comme un bac à sable pédagogique, plusieurs innovations sont destinées à être généralisées sur les corpus de l’OBVIL, grâce notamment à un lemmatiseur un peu simpliste mais très efficace.
→
Cataviz
- Frédéric Glorieux
Cataviz est une application pour explorer une partie du catalogue de la BNF, tel qu’il librement téléchargeable sous sa forme databnf. Cet outil permet de dresser des statistiques générale à l’échelle des siècle, de visualiser le réseau des collaborations autour d’un auteur, ou de dresser la liste des auteurs le plus publiés durant une période. La liste des vues est destiné à s’étendre et se corriger au fur et à mesure des besoins.
→MAnaDram
- Marc Douguet
MAnaDram (Moteur d’analyse dramaturgique) est un programme destiné à étudier l’art de la composition dramatique. Il permet de rechercher dans un corpus de plus de 200 pièces françaises du XVIIe siècle une suite de scènes présentant une même séquence d’entrées et de sorties.
→Debook
- Frédéric Glorieux
Epub > TEI — Debook délie un livre électronique (epub) pour essayer de reconstituer un texte cohérent en XML/TEI. Afin de constituer un corpus, il est parfois utile de partir de fichiers epub. Nativement, il s’agit de pages HTML, avec cet avantage relativement à un site web, que les pages ne comportent pas de navigations parasites, et que l’ordre est nscrit dans un fichier de configuration (epub/content.opf).
→XML stats
- Frédéric Glorieux
XML stats est un outil pédagogique et professionnel utile à l’exploration rapide d’un ou plusieurs fichiers XML. Il a été commencé en 2012 par Frédéric Glorieux pour une étude sur le balisage des dictionnaires, l’outil continue sa vie à l’OBVIL. Il fournit différentes statistiques relatives aux balises et au texte qu’elles contiennent, notamment la liste des mots les plus fréquents pour une balise.
→Livrable
- Frédéric Glorieux
TEI > epub, Démonstration — XML/TEI permet de structurer précisément les textes, pour la recherche et la publication. Epub est un format de livre électronique ouvert, qui, principalement, compresse des fichiers HTML. Livrable dépend de Teinte, une librairie TEI basée sur un schéma Relax-NG qui canalise le balisage, afin d’assurer la transformation en HTML.
→Reteint
- Frédéric Glorieux
TEI ► docx — Reteint transforme un fichier XML/TEI en docx (format traitement de textes compatible avec Microsoft.Word, LibreOffice, OpenOffice…), en assurant un stylage optimal pour un retour du document bureautique vers TEI (avec par exemple Odette). Attention cependant, XML/TEI est un format plus complexe que docx, c’est une conversion avec risque de pertes en structure (mais pas en texte). C’est un complément nécessaire à toute bibliothèque TEI, afin de faciliter la réutilisation des textes.
→RngDoc, documenter un schéma XML (Relax-NG)
- Frédéric Glorieux
RngDoc est un outil pour extraire et produire la documentation d’un schéma XML/Relax-NG. Il a été initié, développé et maintenu par Frédéric Glorieux depuis 2005. L’OBVIL utilise cet outil pour regénérer régulièrement la documentation du schéma Teibook, que consulte ses éditeurs XML.
→Dramagraph
- Frédéric Glorieux
- Marc Douguet
Démonstration — “Dramagraph” est un logiciel d’analyse de textes théâtraux en XML/TEI développé par Frédéric Glorieux et Marc Douguet. Des perfectionnnements décisifs ont été proposés par Didier Alexandre et Georges Forestier. Il est utilisé par l’OBVIL pour son édition électronique de Molière.
→