1. Macro structure
2. Micro structure
3. Récapitulatif
Up

Encodage du Liber glossarum

Cette page a pour objectif de documenter l’encodage XML selon les recommandations du consortium TEI, mis en œuvre dans le cadre du Projet LIBGLOSS. Notre objectif a été de produire un degré d'encodage léger mais robuste, offrant cependant de larges possibilités d’exploitation.
Dans la suite, nous décrirons les différents niveaux de structure, ainsi que le balisage descriptif qui a été appliqué au texte.

1. Macro structure

1.1. Les lettres
Le texte du Lib. gl. se compose de 23 fichiers correspondant aux lettres de l’alphabet latin : A B C D E F G H I K L M N O P Q R S T V X Y Z. Ils sont exploités au moyen d’une base de données eXist . La base est hébergée sur la plate-forme Huma-num.
La structure de chaque lettre comporte trois niveaux qui visualisent le degré d’alphabétisation du Lib. gl. Déjà mise en évidence par l’édition Lindsay, elle se compose de Sections, d’Alinéas et d’Entrées. La combinaison des éléments de structure permet de composer le système de référence du Lib. gl., ainsi : les deux lettres identifiant la lettre et la section (ou trois lettres dans le cas particulier de la lettre Q, toujours notée QV+ A, E, I, O, V) suivies du n° d’ordre de l’entrée. Par exemple :
Lettre + section + entrée = Référence
A - 1 A1
A B 1 AB1
A B 2 AB2, etc.
1.2. Sections
Le découpage des lettres en sections (par ex. A, AB, AC, AD etc.) reflète le premier niveau d’alphabétisation du Lib. gl. sur les deux premières lettres de chaque mot. L’édition Lindsay avait ajouté dans le texte ces deux lettres en guise d’en-tête pour chaque section. Pour notre part, nous avons fait le choix de ne rien ajouter au texte tel qu’il a été transmis par les manuscrits, à l’exception de la numérotation des entrées qui s’appuie précisément sur ce premier niveau de structure servant à construire des identifiants uniques (voir 1.4).
1.3. Alinéas
Les sections sont découpées à leur tour en sous-sections enregistrant une alphabétisation plus importantes sur une ou deux lettres supplémentaires (parfois plus). Sur les manuscrits, ce degré d’alphabétisation a été noté au moyen d’initiales de module plus important. Il a été visualisé (de manière inégale et silencieuse) dans l’édition Lindsay au moyen de retours à la ligne. Ce niveau de structure n’a pas de rôle dans le composition des référence, mais pourra être exploré (et affiné) au moyen de l’outil « browse sections » du menu « Read ». (En construction.)
1.4. Entrées
Les entrées elles-mêmes forment le dernier élément structurant. Leur numérotation de 1 à x est effectuée de manière suivie au sein des sections (l’alinéa n’a pas incidence sur celle-ci). Elle reprend à partir de 1 à chaque nouvelle section.
La structure de l’encodage répercute ces divisions principales grâce aux éléments div comportant des attributs de type ainsi qu’un numéro.
Niveau éléments
1.1 Lettres div1 type="littera" n=""
1.2 Sections div2 type="pars" n=""
1.3 Alinéas div3 type="alinea" n=""
1.4 Entrées entryFree xml:id=""

2. Micro structure

Le Liber glossarum n’est pas un dictionnaire au sens strict, il n’était donc pas possible de lui appliquer la structure rigide de balisage développée pour ce type de documents (cf. TEI Guidelines ; ci-après abrégé TeiG).
Nous avons ainsi opté pour la solution plus souple offerte par la balise entryFree, dont le contenu, comme son nom l’indique, est libre.

2.1. Contenu des entrées
Les entrées du Lib. gl., des gloses, sont composées de trois éléments principaux, parfois complétées par une quatrième information optionnelle. La glose proprement dite est formée de deux composants : le terme (ou lemme) et son explication (la glose proprement dite). Ce couple est complété par l’indication de l’origine de l’explication (la source), et accessoirement par des indications critiques. Pour éviter toute confusion, nous parlons d’entrées dont l’intégralité du contenu est embrassé par la balise entryFree qui comporte un unique attribut (@xml:id) dont la valeur équivaut au numéro de référence de l’entrée (cf. 1.1 supra et 2.2.1 infra). Elle contient plusieurs « éléments textuels » qui se répartissent en trois catégories que nous distinguons en termes de ‘niveaux d’information’.
  • Niveau 1: le texte proprement dit, principalement le terme, son explication et les deux éléments complémentaires.
  • Niveau 2: les informations ajoutées relatives au niveau 1 (éléments enfants).
  • Niveau 3: toutes les autres informations additionnelles : l’apparat critique se rapportant au niveau 1 ; les notes de bas de page de l’édition Lindsay ; texte des sources ; notes de recherche ; bibliographie.

Le tableau suivant récapitule les éléments XML impliqués aux deux premiers niveaux

Niveau 1 Niveau 2
(numéro ID) 2.1 num
Terme (lemme) 1.1 form 2.2 orth
Explication 1.2 def 2.3 cit | ref | quote | seg | foreign [name | persName, etc.]
Source 1.3 bibl type="fons" | author @type="vet" [title @type="vet"] 2.4 ref @type="ed"
Indications critiques 1.4 note @type="ms"

2.2. Les niveaux
  • 1er niveau: le texte.
    Il comporte 4 éléments de balisage : les deux composants principaux, le terme (ou lemme) et son explication, ainsi que deux informations complémentaires portées par les manuscrits, la source et des indications critiques (voir Cinato, 2016).

    1.1. L’élément form du module dictionaries [v. TeiG ] permet, grâce aux possibilités des attributs, de définir avec précision la nature du terme. Dans un premier temps, c’est-à-dire à la création de l’encodage, nous avons décidé de réduire au minimum l’utilisation de tels attributs. Dans l’avenir, les développements de cet élément permettra de renseigner le type grammatical ou de toute autre information linguistique pertinente (par exemple au moyen des att.lexicographic), permettant ainsi la création d’index ciblés ou des choix de recherches limités selon des critères de catégories grammaticales, etc. L’unique attribut que nous avons sollicité à l’étape de la conception est @xml: lang, afin de distinguer les termes étrangers au latin, c’est-à-dire, essentiellement les mots grecs ou hébreux.

    1.2. L’élément def, qui appartient aussi au module dictionaries [v. TeiG ], est spécifiquement dédié au contenu d’une définition. Nous n’avons utilisé aucun attribut au stade de la création, reportant leur renseignement à une période d’évolution future.

    1.3. L’élément author [v. TeiG ] contient l’indication de la source. Elle constitue une information sur l’origine de l’explication et par ce fait est considérée en tant qu’information bibliographique (bibl) [v. TeiG ]. Cette balise contient ainsi deux éléments enfants author et ref, mais dont seul le contenu du premier appartient au texte du Lib. gl. ; le second constitue une addition critique dont nous parlerons au second niveau d’information. Dans un premier temps, nous avons étendu le contenu d’author aux œuvres, qui pourront être balisées ultérieurement au moyen de l’élément title [v. TeiG ]. Les attributs @type permettent de distinguer les références bibliographiques données par le Lib. gl. de celles ajoutées en complément par les éditeurs.

    1.4. Enfin, l’élément note [v. TeiG ] contient les informations critiques associées à certaines entrées. Comme pour les éléments bibliographiques, un @type permettra de les distinguer des notes et remarques ajoutées par les éditeurs.

  • 2e niveau: les informations relatives au niveau 1.
    Il comprend quatre groupes d’informations complémentaires.

    2.1. L’élément num [v. TeiG ] contient le numéro de référence dans le Lib. gl. Ce code alpha-numérique sert d’identifiant unique et correspond à la valeur de l’attribut @xml:id de l’élément entryFree.

    2.2. L’élément orth [v. TeiG ] donne la forme normalisée du terme. Le choix d’ajouter une forme normalisée se justifie doublement, car nous avons conservé l’orthographe hasardeuse des manuscrits et parce qu’il fallait permettre à un moteur de recherche de rapprocher des termes dont certains étaient parfois corrompus.

    2.3. Accessoirement, l’élément def peut contenir des éléments enfants visant à préciser des parties de l’explication. C’est le cas des citations (cit [v. TeiG ], ref [v. TeiG ], quote [v. TeiG ]), des lettres isolées, des mots illustrant les propos de l’explication (seg [v. TeiG ] munis d’attributs divers), des mots étrangers au latin (foreign [v. TeiG ]) et qui comprendra, dans le futur, le balisage des noms propres (name, persName etc.).

    2.4. Une autre utilisation de ref muni d’un attribut @type est de compléter la référence bibliographique donnée par le Lib. gl. en indiquant de manière normalisée de quelle source il s’agit, puisque souvent l’information délivrée par le Lib. gl. se limite à un nom d’auteur (voir Grondeux, 2015).

  • 3e niveau : autres informations complémentaires
    Ce dernier niveau comprend toutes les informations critiques associées aux éléments des niveaux précédents. La majorité de celles-ci se trouve incluse dans les 23 fichiers XML, mais certaines ont été encodées dans des fichiers distincts (tableau ci-dessous, précédées d'un astérisque).
    Les notes critiques sont encodées au moyen de l’élément app [v. TeiG ] qui comporte autant de @type que d’éléments textuels, soit 4 types. L’élément app comporte, comme il se doit, les éléments enfants essentiels servant à bâtir les apparats : lem [v. TeiG ] ; rgd [v. TeiG ] ; wit [v. TeiG ].
    Le tableau suivant récapitule les éléments impliqués.
    Niveau 3
    Terme (lemme) 3.1 app @type="gen"
    Explication 3.2 app @type="def"
    Source 3.3 app @type="aut"
    Indications critiques 3.4 app @type="not"
    Texte des sources 3.5 reg
    Notes de recherche 3.6 note @type="obs"
    Foliotation des mss. 3.7 locus
    * Notes de Lindsay 3.8 note @type="ed"
    * Références bibliographiques suppl. (**)
    (**) Développement en cours.

    3.1. L'élément App @type="gen" porte sur le contenu de l’élément form et contient les informations relatives à la globalité de l’entrée (par exemple, les omissions d’entrées entières chez un témoin).

    3.2. L'élément App @type="def" porte sur le contenu de l’élément def. En raison de la méthode utilisée pour lier les apparats au texte, par point d’insertion simple (selon une variante de la Location-referenced Method) et pour leur affichage sous forme de bulles, ces notes seules ont été munies d’un attribut @loc afin de les attacher aux @xml :id des éléments anchor situés dans le texte.

    3.3. L'élément App @type="aut" porte sur le contenu de l’élément author @type="vet".

    3.4. L'élément App @type="not" porte sur le contenu de l’élément note @type="ms".

    3.5. L’élément reg [v. TeiG ] a ici un sens plus large puisque la lecture normalisée (ou « régularisée ») porte sur la totalité de la définition. Il s’agit de donner à lire le texte de la source en regard de celui du Lib. gl.

    3.6. L’élément note @type="obs" (pour observation), se comporte comme un champ ‘libre’, au sens où il peut contenir toutes sortes d’observations pertinentes, en rapport avec les manuscrits, l’explication elle-même ou ses sources.

    3.7. L’élément locus, dont on spécifie la valeur d’un attribut @n en fonction des manuscrits, permet de localiser les entrées sur les trois principaux manuscrits (pour le moment).

    3.8. Autre élément note, mais @type="ed", contient les notes critiques de l’édition Lindsay. Par souci de cohérence, elles ont été encodées dans un fichier particulier et comportent à leur tour un ensemble d’éléments (seg | bibl | ref).

3. Récapitulatif

Le schéma d’encodage (simplifié) est le suivant: