http://www.univ-rennes1.fr/pub/GUTenberg/publicationsPS/24-teilite.ps.gz
numéro 24, juin 1996 (pages 23-151). C'est la traduction
française de TEI Lite : An Introduction to Text Encoding for
Interchange
http://www-tei.uic.edu/orgs/tei/intros/teiu5.tei.
http://www-tei.uic.edu/orgs/tei/intros/teiu5.tei.Traduction française de François Role
role@distb.mesr.fr
avec la collaboration de Jacques André
(IRISA/Inria-Rennes) et Michael JordanLa TEI Lite est une version simplifiée des Recommandations de la « Text Encoding Initiative » (TEI) qui s'adressent a tous ceux qui souhaitent échanger des informations stockées sous forme électronique. Elles mettent l'accent sur l'échange des données textuelles, notamment pour les sciences humaines et les études sur les textes littéraires, mais d'autres types de données comme les images et les sons sont également pris en compte.
The ``Text Encoding Initiative (TEI) Guidelines'' are addressed to anyone who wants to interchange information stored in an electronic form. They emphasize the interchange of textual information, but other forms of information such as images and sounds are also addressed.
Ce document est une introduction à la TEI « Text Encoding Initiative » , une DTD de SGML (voir pour une bibliographie plus complète sur SGML et sur la TEI), et en décrit un sous-ensemble connu sous le nom de TEI Lite. Ce que nous décrivons ici peut servir à coder une grande variété de phénomènes couramment rencontrés dans les textes pour en faciliter leur étude par des moyens électroniques et pour en faciliter l'échange entre humanistes utilisant des systèmes informatiques différents. Ce sous-ensemble est entièrement compatible avec la version intégrale de la TEI publiée à Chicago et à Oxford en mai 1994 : TEI P3, Guidelines for Electronic Text Encoding and Interchange. Dans la suite de ce document, cette version intégrale est appelée « les Recommandations » ou parfois P3.
http://www.tei-c.org/Lite/teiu5.tei
http://www.tei-c.org/Lite/
http://www.tei-c.org/Lite/DTD/teilite.dtd
http://www.univ-rennes1.fr/pub/GUTenberg/publicationsPS/24-teilite.ps.gz
http://distb.mesr.fr/norm/
La version imprimée de ce texte est disponible dans le Cahier
GUTenberg numéro 24. Il est en vente au prix de 100 FF (port
compris). S'adresser à :
Association GUTenberg
http://www.ens.fr/gut
BP 10, F-93220 Gagny Principal, France
tel/fax : (33 1) 30 87 06 25;
email : tresorerie.gutenberg@ens.fr
Les copyrights de cet article sont ceux de la version originale. Cette traduction est diffusée avec l'aimable autorisation des auteurs que le rédacteur de ces Cahiers GUTenberg tient à remercier ici.
Les Recommandations de la TEI - Text Encoding Inititative (TEI) Guidelines - s'adressent à tous ceux qui souhaitent échanger des informations stockées sous forme électronique. Elles mettent l'accent sur l'échange des données textuelles mais d'autres types de données comme les images et les sons sont également pris en compte. Les Recommandations peuvent être appliquées aussi bien pour créer de nouvelles informations que pour échanger des informations existantes.
Les Recommandations fournissent le moyen de rendre explicites certaines caractéristiques d'un texte, de façon à faciliter le traitement de ce texte par des programmes informatiques pouvant s'exécuter sur des plates-formes différentes. Cette tâche d'explicitation est appelée balisage ou codage. La représentation d'un texte sur un ordinateur met toujours en oeuvre une forme de balisage ou une autre. La TEI tire son origine d'une part de l'anarchie qui règne dans la communauté scientifique en matière de format, et d'autre part du nombre croissant de traitements que les chercheurs opèrent sur les textes sous forme électronique.
Les Recommandations de la TEI s'appuient sur SGML (Standard Generalized Markup Language) pour définir leurs règles de codage (voir la bibliographie sommaire donnée en . SGML est une norme internationale de plus en plus utilisée par les entreprises spécialisées dans le traitement de l'information. Cette norme permet de définir les règles de codage en termes d'éléments, d'attributs et de règles régissant l'utilisation de ces éléments et attributs. L'utilisation que la TEI fait de SGML est ambitieuse, tant par sa complexité que par sa recherche d'universalité; elle n'est cependant pas fondamentalement différente de tous les autres schémas de balisage fondés sur SGML. La preuve en est que tous les outils SGML généralistes sont capables de traiter des textes conformes à la TEI.
La TEI est soutenue par l'Association for Computers and the Humanities, l'Association for Computational Linguistics et l'Association for Literary and Linguistic Computing. Le projet a été en partie financé par le National Endowment for the Humanities américain, la DG XIII de la CEE, la fondation Andrew W. Mellon et le Social Science and Humanities Research Council du Canada. Les Recommandations ont été publiées en mai 1994, après six ans de travaux auxquels ont participé des chercheurs de toute nationalité et de toute discipline.
Au début de cette entreprise, les objectifs généraux de la TEI ont été définis par la résolution finale de la conférence préparatoire tenue au Vassar College de New York en novembre 1987. Cette résolution connue sous le nom de « Principes de Poughkeepsie » fut peu à peu précisée à travers une série de documents de travail. D'après ces documents les Recommandations devaient :
Le monde de la recherche est large et divers. Pour que ces recommandations aient une large audience, il était important de s'assurer que :
Ce document décrit un sous-ensemble utilisable des éléments définis par la TEI et fournit des recommandations en conformité avec les principes directeurs qui viennent d'être rappelés plus haut.
En effectuant un choix parmi les centaines d'éléments définis par la TEI, nous nous sommes efforcés d'identifier un ensemble initial contenant les éléments susceptibles de servir à n'importe quel utilisateur. L'expérience acquise en ne travaillant qu'avec la « TEI Lite » sera d'une grande utilité pour comprendre la DTD TEI complète et pour identifier les parties de cette DTD qui sont nécessaires pour travailler sur un type de texte donné.
Nous pouvons résumer comme suit les objectifs que nous nous sommes assigné s en définissant ce sous-ensemble :
Nous commençons par un bref exemple, reproduit ci-dessous et destiné à illustrer ce qui se passe lorsqu'un passage de prose est saisi sur ordinateur par un opérateur n'ayant qu'une faible notion de ce que représente le balisage, ou du potentiel des textes électroniques. Dans un monde parfait, une telle sortie imprimée pourrait être générée par un lecteur optique très précis. Elle tente de rester fidèle à l'aspect du texte imprimé, en retenant les mêmes coupures de ligne que l'original, en insérant des blancs afin de représenter la disposition des titres originaux et des fins de page, et ainsi de suite. Lorsque certains caractères sont nécessaires mais indisponibles au clavier (tels que la lettre « a » accentuée dans le mot « faàl » , ou le trait long), elle essaie de reproduire leur aspect.
CHAPTER 38
READER, I married him. A quiet wedding we had: he and I,
the parson and clerk, were alone present. When we got back from
church, I went into the kitchen of the manor-house, where Mary
was cooking the dinner, and John cleaning the knives, and I
said - 'Mary, I have been married to Mr Rochester this mor-
ning.' The housekeeper and her husband were of that decent,
phlegmatic order of people, to whom one may at any time safely
ommunicate a remarkable piece of news without incurring the
danger of having on'es ears pierced by some shrill ejaculation
and subsequently stunned by a torrent of wordy wonderment. Mary
did look up, and she did stare at me; the ladle with which she
was basting a pair of chickens roasting at the fire, did for
some three minutes hang suspended in air, and for the same
space of time John's knives also had rest from the polishing pro-
cess; but Mary, bending again over the roast, said only -
'Have you, miss? Well, for sure!'
A short time after she pursued, 'I seed you go out with the
master, but I didn't know you were gone to church to be wed'; and
she basted away. John, when I turned to him, was grinning from
ear to ear. 'I telled Mary how it would be,' he said: 'I knew
what Mr Edward' (John was an old servant, and had known his mas-
ter when he was the cadet of the house, therefore he often gave
him his Christian name) - 'I knew what Mr Edward would do; and I
was certain he would not wait long either: and h'es done right,
for aught I know. I wish you joy, miss!' and he politely pulled
his forelock.
'Thank you, John. Mr Rochester told me to give you and Mary
this.'
I put into his hand a five-pound note. Without waiting to hear
more, I left the kitchen. In passing the door of that sanctum
some time after, I caught the words -
'Sh'ell happen do better for him nor ony o' t' grand ladies.'
And again, 'If she ben't one o' th' handsomest, sh'es noan faa\l,
and varry good-natured; and i' his een sh'es fair beautiful,
onybody may see that.'
I wrote to Moor House and to Cambridge immediately, to say what
I had done: fully explaining also why I had thus acted. Diana and
474
JANE EYRE 475
Mary approved the step unreservedly. Diana announced that she
would just give me time to get over the honeymoon, and then
she would come and see me.
'She had better not wait till then, Jane,' said Mr Rochester,
when I read her letter to him; 'if she does, she will be too
late, for our honey moon will shine our life long: its beams
will only fade over your grave or mine.'
How St John received the news I don't know: he never answered
the letter in which I communicated it: yet six months after he
wrote to me, without, however, mentioning Mr Rochester's name or
alluding to my marriage. His letter was then calm, and though
very serious, kind. He has maintained a regular, though not very
frequent correspond ence ever since: he hopes I am happy, and
trusts I am not of those who live without God in the world, and
only mind earthly things.Cette transcription souffre d'un certain nombre de limitations :
Nous présentons maintenant le même passage avec un codage conforme aux recommandations de la TEI. Comme nous le verrons, ce codage pourrait être étendu de bien des façons, mais au minimum, le codage recommandé par la TEI permet d'effectuer les distinctions suivantes :
<pb n='474'> <div1 type=chapter n='38'> <p>Reader, I married him. A quiet wedding we had: he and I, the parson and clerk, were alone present. When we got back from church, I went into the kitchen of the manor-house, where Mary was cooking the dinner, and John cleaning the knives, and I said ‐ <p><q>Mary, I have been married to Mr Rochester this morning.</q> The housekeeper and her husband were of that decent, phlegmatic order of people, to whom one may at any time safely communicate a remarkable piece of news without incurring the danger of having one's ears pierced by some shrill ejaculation and subsequently stunned by a torrent of wordy wonderment. Mary did look up, and she did stare at me; the ladle with which she was basting a pair of chickens roasting at the fire, did for some three minutes hang suspended in air, and for the same space of time John's knives also had rest from the polishing process; but Mary, bending again over the roast, said only ‐ <p><q>Have you, miss? Well, for sure!</q> <p>A short time after she pursued, <q>I seed you go out with the master, but I didn't know you were gone to church to be wed</q>; and she basted away. John, when I turned to him, was grinning from ear to ear. <q>I telled Mary how it would be,</q> he said: <q>I knew what Mr Edward</q> (John was an old servant, and had known his master when he was the cadet of the house, therefore he often gave him his Christian name) ‐ <q>I knew what Mr Edward would do; and I was certain he would not wait long either: and he's done right, for aught I know. I wish you joy, miss!</q> and he politely pulled his forelock. <p><q>Thank you, John. Mr Rochester told me to give you and Mary this.</q> <p>I put into his hand a five-pound note. Without waiting to hear more, I left the kitchen. In passing the door of that sanctum some time after, I caught the words ‐ <p><q>She'll happen do better for him nor ony o' t' grand ladies.</q> And again, <q>If she ben't one o' th' handsomest, she's noan faàl, and varry good-natured; and i' his een she's fair beautiful, onybody may see that.</q> <p>I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and <pb n='475'> Mary approved the step unreservedly. Diana announced that she would just give me time to get over the honeymoon, and then she would come and see me. <p><q>She had better not wait till then, Jane,</q> said Mr Rochester, when I read her letter to him; <q>if she does, she will be too late, for our honeymoon will shine our life long: its beams will only fade over your grave or mine.</q> <p>How St John received the news I don't know: he never answered the letter in which I communicated it: yet six months after he wrote to me, without, however, mentioning Mr Rochester's name or alluding to my marriage. His letter was then calm, and though very serious, kind. He has maintained a regular, though not very frequent correspondence ever since: he hopes I am happy, and trusts I am not of those who live without God in the world, and only mind earthly things.
La décision de se concentrer sur le texte de Brontë, plutôt que sur la façon dont il a été imprimé dans cette édition spécifique, témoigne d'un problème de codage fondamental : celui de la sélectivité. Un codage rend explicite seulement celles des caractéristiques du texte qui ont une importance pour l'encodeur. Il n'est pas difficile d'imaginer comment on pourrait étendre facilement le codage d'un passage même aussi court que celui-ci. Par exemple :
La méthode recommandée par la TEI pour faire tout ceci est décrite dans le reste de ce document. La TEI dans son ensemble fournit également maintes possibilités, dont nous ne citons que quelques exemples :
Pour connaître les recommandations applicables dans ces différents cas, et pour découvrir de nombreuses autres possibilités, il convient de se reporter au texte complet des recommandations de la TEI.
Le premier exemple a mis l'accent sur la typologie du texte. Nous complétons cette introduction par un exemple en langue française montrant quelques possibilités de la TEI liées à notre langue. Cette fois partons du document original de la figure .
« C'est un mois d'octobre... exceptionnel » , dit Gisèle Dufrène; ils acquiescent, ils sourient, une chaleur d'été tombe du ciel gris-bleu - Qu'est-ce que les autres ont que je n'ai pas ? - ils caressent leurs regards à l'image parfaite qu'ont reproduite Plaisir de France et Votre Maison : la ferme achetée pour une bouchée de pain - enfin, disons, de pain brioché - et aménagée par Jean-Charles au prix d'une tonne de caviar. (`` je n'en suis pas à un million près '', a dit Gilbert), les roses contre les murs de pierre, les chrysanthèmes, les asters, les dahlias `` les plus beaux de toute l'Ile-de-France '', dit Dominique; le paravent et les fauteuils bleux et violet - c'est d'une audace ! - tranchent sur le vert de la pelouse, la glace tinte dans les verres, Houdan baise la main de Dominique, très mince dans son pantalon noir et son chemisier éclatant, les cheveux pâles, mi-blonds, mi-blancs, de dos on lui donnerait trente ans. ...
Si l'on devait coder ce texte, on aurait quelques problèmes plus évidents en français qu'en anglais :
Un texte TEI peut tenir compte de tous ces éléments : ce texte pourrait être codé comme suit :
<p> <q rend=frdqo> C'est un mois d'octobre ... exceptionnel </q>, dit Gisèle Dufrène; ils acquiescent, ils sourient, une chaleur d'été tombe du ciel gris-bleu- <q>Qu'est-ce que les autres ont que je n'ai pas? </q> - ils caressent leurs regards á l'image parfaite qu'ont reproduite <title>Plaisir de France</title> et <title>Votre Maison</title>: la ferme achetée pour une bouchée de pain - enfin, disons, de pain brioché - et aménagée par Jean-Charles au prix d'une tonne de caviar. (<q rend=endqo>je n'en suis pas á un million près</q>, a dit Gilbert), les roses contre les murs de pierre, les chrysanthèmes, les asters, les dahlias <q rend=endqo> les plus beaux de toute l'Ile-de-France</q>, dit Dominique; le paravent et les fauteuils bleux et violet - <q>c'est d'une audace!</q> - tranchent sur le vert de la pelouse, la glace tinte dans les verres, Houdan baise la main de Dominique, très mince dans son pantalon noir et son chemisier éclatant, les cheveux pâles, mi-blonds, mi-blancs, de dos on lui donnerait trente ans. ...
Dans ce texte, on a trois types de citations : celles entre
guillemets français, celles entre guillemets anglais et celles sans
guillemets (par exemple
<q>c'est d'une
audace!</q>). Pour les deux premiers types, on a délimité la
citation par le couple de balises <q> et </q> et au
moyen de l'attribut rend on a mémorisé la nature des
guillemets utilisés dans le texte imprimé (
frdquo pour
fr ench d ouble quo te et
enddquo pour
en glish d ouble quo
te) de façon à pouvoir les restituer si besoin est. De même,
nous supposons que c'est lors de l'édition/impression du document que
l'on doit se soucier de la présence d'espaces avant les
points-virgules, deux-points, etc., pas au moment de la saisie ni du
traitement. Aussi codons-nous «
dit Dominique; » et non
«
dit Dominique_; » .
Dans les documents SGML, les caractères accentués doivent être
notés à l'aide d' « entités » (voir ) qui
prévoient, par exemple, que « é » soit codé
«
é » . Le but de ce mécanisme est
d'obtenir un document composé uniquement de caractères appartenant au
jeu ISO 646-IRV (ASCII) de base, donc très facile à transmettre.
Cependant, pour des raisons de lisibilité, nous avons employé les caractères ISO 8859-1 (Latin-1) pour coder les lettres des exemples utilisant le français dans la suite de cette traduction. En réalité, il est techniquement possible d'échanger des documents SGML de cette façon, mais au prix d'une modification de la « déclaration SGML » qui ne peut être effectuée que par un utilisateur expérimenté et qui rend le document moins interchangeable.
Comme il a été dit dans ce Cahier (voir l'article de Jacques André sur les balises), travailler directement sur le codage TEI n'est pas chose naturelle. On écrira donc, dans les exemples qui suivent, des textes lisibles (quitte à imaginer qu'il faille passer un programme de remplacement automatique sur ces textes), comme :
la ferme achetée pour une bouchée de pain - enfin, disons, de pain brioché - et aménagée par Jean-Charles au prix d'une tonne de caviar.
Un autre aspect de l'utilisation du français pour la TEI est celui de la francisation des balises et attributs.
La TEI prévoit des mécanismes pour paramétrer le nom des balises et donc, si on le souhaite, utiliser des balises en français de son choix. Il y a là un compromis entre le confort d'écriture et de lisibilité pour le créateur du document et l'échangeabilité : les textes avec des balises « localisées » ne peuvent évidemment plus être immédiatement interprétés par d'autres. À noter que les tentatives pour franciser les langages de programmation (Basic, Pascal, etc.) n'ont jamais eu de succès, sans doute pour la raison ci-dessus... Mais enfin, avec la TEI c'est possible si on le souhaite.
Notre attitude, ici, a été de garder le nom anglais des balises dans le codage SGML des exemples, mais de proposer en cas d'ambiguïté, un équivalent français dans le texte de l'article.
Enfin, en ce qui concerne les valeurs d'attribut, nous avons parfois utilisé des chaînes « françaises » à la place des chaînes « anglaises » suggérées dans l'original, du moins lorsque la DTD le permettait (par exemple quand le type de l'attribut était CDATA).
L'ensemble de ces noms, anglais et français, se retrouve en .
Tout texte conforme à la TEI comporte
L'en-tête TEI contient des informations analogues à celles que l'on trouve sur la page de titre d'un texte imprimé. Il contient jusqu'à quatre parties :
L'en-tête est décrit avec plus de détails en .
Un texte TEI peut être unitaire (une oeuvre isolée) ou composite (un recueil d'oeuvres, comme une anthologie). Dans un cas comme dans l'autre, le texte peut éventuellement comporter des pièces liminaires ou des annexes. Entre les deux se trouve le corps du texte qui, dans le cas d'un texte composite, peut comporter des groupes, chacun contenant encore des groupes ou des textes.
Un texte unitaire sera codé à peu près comme suit Dès cet exemple, on remarquera que les diverses lignes de ce texte-source sont « indentées » , c'est-à-dire qu'elles sont en retrait les unes par rapport aux autres, ce qui exhibe la structure sous-jacente; ce n'est bien sûr pas une obligation, mais une bonne façon de coder les textes-sources ! :
<TEI.2>
<teiHeader> [ informations contenues dans l'en-tête TEI ]
</teiHeader>,
<text>
<front>[ textes préliminaires... ] </front>,
<body>[ corps du texte... ] </body>
<back> [annexes... ] </back>
</text>
</TEI.2>Un texte composite peut également comporter des pièces liminaires et des annexes. Entre les deux, on trouve éventuellement un ou plusieurs groupes de textes, chaque groupe ayant éventuellement ses propres pièces liminaires et annexes. Un texte composite sera donc codé à peu près comme suit :
<TEI.2>
<teiHeader> [ informations contenues dans l'en-tête
du texte composite ] </teiHeader>
<text>
<front> [ textes liminaires du texte composite ]
</front>
<group>
<text>
<front>[textes liminaires du premier texte ]
</front>
<body> [corps du premier texte ] </body>
<back>[ annexes du premier texte ] </back>
</text>
<text>
<front>[ textes liminaires du deuxième texte ]
</front>
<body> [ corps du deuxième texte ] </body>
<back> [ annexes du deuxième texte ] </back>
</text>
[ autres textes ou groupes de textes ici ]
</group>
<back> [ annexes du texte composite ] </back>
</text>
</TEI.2>Il est également possible de définir un ensemble de textes TEI, chacun avec son propre en-tête. Un tel recueil est appelé « corpus TEI » (<teiCorpus>), et peut lui-même avoir un en-tête :
<teiCorpus>
<teiHeader> [ information contenue dans l'en-tête du corpus ]
</teiHeader>
<TEI.2>
<teiHeader>[ information contenue dans l'en-tête
du premier texte ] </teiHeader>
<text> [ premier texte du corpus ] </text>
</TEI.2>
<TEI.2>
<teiHeader>[ information contenue dans l'en-tête du
deuxième texte ] </teiHeader>
<text> [deuxiême texte du corpus ] </text>
</TEI.2>
</TEICorpus>Cependant, il n'est pas possible de créer un ensemble de corpus, c'est-à-dire plusieurs éléments <teiCorpus> combinés les uns avec les autres et traités comme un objet unique. Ceci représente une des limites de la version actuelle des recommandations de la TEI.
Dans la suite de ce document, nous discutons surtout de structures de texte simples. Dans chaque cas, la présentation consiste en une courte liste des éléments TEI pertinents, avec une brève définition de chacun, suivies de la définition des attributs spécifiques à cet élément. Dans la plupart des cas, de brefs exemples sont également fournis.
Comme indiqué ci-dessus, un document TEI simple comporte, au niveau textuel, les éléments suivants :
Les éléments spécifiques aux pièces liminaires et annexes sont décrits ci-après, en . Dans la présente section, nous présentons les éléments qui constituent le corps d'un texte.
Le corps d'un texte en prose peut avoir la forme d'une simple suite de paragraphes; les paragraphes peuvent également être regroupés en chapitres, sections, subdivisions, etc. Dans le premier cas, chaque paragraphe est balisé au moyen de <p>. Dans le second cas, l'élément <body> peut être divisé soit en une série d'éléments <div1>, soit en une série d'éléments <div>, l'un ou l'autre pouvant se voir subdivisé à son tour, comme nous le verrons ci-dessous :
Lorsque des subdivisions structurales plus petites que <div1> sont nécessaires, un <div1> peut être divisé en éléments <div2>, et un <div2> en éléments encore plus petits <div3>, etc., jusqu'au niveau <div7>. En présence de plus de sept niveaux de division structurale, il sera nécessaire soit de modifier l'ensemble du balisage TEI pour lui permettre d'accepter <div8>, etc., soit d'employer un élément <div> non numéroté : un <div> peut être subdivisé en de plus petits éléments <div> (le niveau d'imbrication n'est pas limité).
Tous ces éléments sont dotés des trois attributs suivants :
Les attributs id et n, sont de fait d'un intérêt si général qu'ils sont permis sur tout élément dans n'importe quelle DTD de la TEI : ce sont des attributs globaux. D'autres exemples d'attributs globaux définis dans les recommandations TEI Lite sont présentés en .
La valeur de chaque attribut id doit être unique au sein d'un document. Il existe une façon simple de s'assurer que ceci est bien le cas : faire en sorte que la valeur de l'attribut reflète la structure hiérarchique du document.
À titre d'exemple, l'ouvrage Wealth of Nations de Smith contenait dans sa première édition cinq tomes, chacun étant partagé en chapitres, certains chapitres étant eux mêmes subdivisés en parties. Nous pouvons définir les valeurs de l'attribut id pour cette structure comme suit :
<div1 id=WN1 n='I' type='book'>
<div2 id=WN101 n='I.1' type='chapter'>
... </div2>
<div2 id=WN102 n='I.2' type='chapter'>
... </div2>
...
<div2 id=WN110 n='I.10' type='chapter'>
<div3 id=WN1101 n='I.10.1' type=part>
... </div3>
<div3 id=WN1102 n='I.10.2' type=part>
... </div3>
</div2>
...
</div1>
<div1 id=WN2 n='II' type='book'>
....
</div1>
...
Pour prendre un exemple français, les Mémoires d'outre-tombe de Chateaubriand sont divisées en parties, ces dernières étant elles mêmes subdivisées en livres et en chapitres. Nous pouvons définir les valeurs de l'attribut id pour cette structure comme suit :
<div1 id=MOT1 n='I' type='partie'>
<div2 id=MOT11 n='I.l' type='livre'>
...
</div2>
<div3 id=MOT111 n='I.1.1 type='chapitre'>
...
</div3>
<div2 id=MOT1 n='I.2' type='livre'>
...
</div2>
.....
<div2 id=MOT1l0 n='I.10' type='livre'>
<div 3 id=MOT1101 n='I.10.1' type=chapitre>
...
</div3>
<div3 id=MOT1102 n='I.10.2 type=chapitre>
...
</div3>
</div2>
...
</div1>
<div1 id=MOT2 n='II' type='partie'>
...
</div1>
.....Les attributs id et n peuvent être traités au moyen d'un système de numérotation différent : ceci est souvent utile lorsqu'un schéma canonique de référence est employé mais que ce dernier ne concorde pas avec la structure de l'oeuvre. Par exemple, dans un roman partagé en livres, chacun contenant des chapitres, ces derniers étant numérotés séquentiellement dans la totalité de l'oeuvre plutôt qu'à l'intérieur de chaque livre, on pourrait employer une représentation proche de ce qui suit :
<div1 id=TS01 n='1' type='Volume'>
<div2 id=TS011 n='1' type='Chapter'>
...
<div2 id=TS012 n='2'>
...
</div1>
<div1 id=TS02 n='2' type='Volume'>
<div2 id=TS021 n='3'type='Chapter'>
...
<div2 id=TS022 n='4'>
...
</div1>Dans cet exemple, l'oeuvre comporte deux volumes, chacun contenant deux chapitres. Les chapitres sont numérotés conventionnellement de 1 à 4, mais les valeurs spécifiées pour l'attribut id leur permettent d'être considérés comme s'ils étaient également numérotés par 1.1, 1.2, 2.1, 2.2.
Chaque <div>, <div1>, <div2>, etc. peut commencer par un titre ou une tête de chapitre et se terminer (moins couramment) par une formule de fermeture tel que « Fin du Chapitre Premier » . De tels cas peuvent être transcrits par les éléments suivants :
Certains autres éléments éventuellement nécessaires au début ou à la fin d'une division de texte sont présentés dans .
La décision d'inclure ou non les titres et formules dans une transcription appartient au transcripteur individuel. Lorsqu'un titre est tout à fait régulier (par exemple « Chapitre 1 » ) ou a été utilisé comme valeur d'attribut (par exemple <div1 type='chapitre' n=1>), il peut être omis; lorsqu'il contient du texte qui n'apparaît pas ailleurs, il devrait toujours être inclus. Par exemple, le début de Under the Greenwood Tree de Hardy pourrait être codé comme suit :
<div1 id=UGT1 n='Winter' type='Part'> <div2 id=UGT11 n='1' type='Chapter'> <head>Mellstock-Lane</head> <p>To dwellers in a wood almost every species of tree ...
Pour prendre un exemple français du même genre, le début du sixième livre de Notre-Dame de Paris de Victor Hugo pourrait être codé comme suit :
<div1 id=NDP6 n='VI' type='livre'>
<div2 id=NDP61 n='1' type='chapitre'>
<head>Coup d'oel impartial sur l'ancienne
magistrature</head>
<p>C'était un fort heureux personnage...
Comme nous l'avons vu plus haut, les paragraphes constituant une division textuelle devraient être balisés à l'aide de la balise <p>. Par exemple :
<body> <p>I fully appreciate Gen. Pope's splendid achievements with their invaluable results; but you must know that Major Generalships in the Regular Army, are not as plenty as blackberries. </p> </body>
Un exemple français équivalent serait :
<body> <p>Nous apprécions beaucoup les résultats qui ont été obtenus et nous en tiendrons compte. Il faut toutefois garder en mémoire... </p> <body>
Diverses balises sont disponibles pour coder la structure des textes poétiques ou dramatiques (les pièces de théâtre, les films, etc.) :
Les exemples suivants représentent le début de textes poétiques dans lequel les strophes et les lignes de vers sont balisés :
<lg n=I> <l>I Sing the progresse of a deathlesse soule,</l> <l>Whom Fate, with God made, but doth not controule,</l> <l>Plac'd in most shapes; all times before the law</l> <l>Yoak'd us, and when, and since, in this I sing.</l> <l>And the great world to his aged evening;</l> <l>From infant morne, through manly noone I draw.</l> <l>What the gold Chaldee, of silver Persian saw,</l> <l>Greeke brass, or Roman iron, is in this one;</l> <l>A worke t'out weare Seths pillars, bricke and stone,</l> <l>And (holy writs excepted) made to yeeld to none,</l> </lg> <lg n=I> <l>Les sanglots longs</l> <l>Des violons</l> <l>De l'automne</l> <l>Blessent mon cœur</l> <l>D'une langueur</l><l>Monotone.</l> </lg>
À noter que l'élément <l> marque les lignes de vers et non les lignes typographiques : le découpage typographique des premières lignes ci-dessus n'a donc pas été rendu de manière explicite par ce codage et pourrait être perdu. L'élément <Ib> décrit en peut être employé pour marquer des lignes typographiques si besoin est.
Quelquefois, surtout dans des textes dramatiques, les lignes de vers sont coupées entre les personnages. La façon la plus facile de coder ce phénomène est d'employer l'attribut part pour indiquer que les lignes ainsi fragmentées sont incomplètes, comme dans cet exemple :
<div1 type ='Act' n='I'><head>ACT I</head> <div2 type ='Scene' n='1'><head>SCENE I</head> <stage rend=italic> Enter Barnardo and Francisco, two Sentinels, at several doors</stage> <sp><speaker>Barn<l part=Y>Who's there? <sp><speaker>Fran<l>Nay, answer me. Stand and unfold yourself. <sp><speaker>Barn<l part=i>Long live the King! <sp><speaker>Fran<l part=m>Barnardo? <sp><speaker>Barn<l part=f>He. <sp><speaker>Fran<l>You come most carefully upon your hour.
Le même mécanisme peut être appliqué à des strophes partagées entre deux locuteurs :
<sp><speaker>First voice</speaker> <lg type=stanza part=I> <l>But why drives on that ship so fast <l>Withouten wave or wind? </lg> <sp><speaker>Second Voice</speaker> <lg part=F> <l>The air is cut away before. <l>And closes from behind. </lg>
L'exemple suivant indique comment coder le dialogue dans une oeuvre de prose comme s'il s'agissait d'une pièce. Il illustre également l'emploi de l'attribut who pour porter un code identifiant le locuteur de la partie de dialogue en question :
<sp who=OPI><speaker>The reverend Doctor Opimiam</speaker> <p>I do not think I have named a single unpresentable fish. <sp who=GRM><speaker>Mr Gryll</speaker> <p>Bream, Doctor: there is not much to be said for bream. <sp who=OPI><speaker>The Reverend Doctor Opimiam</speaker> <p>On the contrary, sir, I think there is much to be said for him. In the first place.... <p>Fish, Miss Gryll -- I could discourse to you on fish by the hour: but for the present I will forbear... </sp>
Les coupures de lignes et de pages peuvent être marquées par les éléments vides suivants :
Ces éléments marquent un endroit précis dans le texte et non une étendue de texte. L'attribut global n devrait être employé pour fournir le numéro de la page ou de la ligne commençant à la balise. En outre, ces deux éléments partagent l'attribut suivant :
Lorsqu'on travaille à partir d'un original paginé, il est souvent utile d'enregistrer sa pagination, ne serait-ce que pour faciliter les corrections ultérieures. L'enregistrement des coupures de ligne peut être utile pour la même raison; le traitement de la division (césure) des mots en fin de ligne dans les originaux imprimés nécessitera donc une certaine considération.
Si la pagination est indiquée pour plus d'une édition, chaque édition peut être identifiée au moyen de l'attribut ed, en fournissant autant de balises que nécessaire. Par exemple, dans le passage suivant nous indiquons l'emplacement des fins de page dans deux éditions différentes (ED1 et ED2) :
<p>I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and <pb ed=ED1 n='475'> Mary approved the step unreservedly. Diana announced that she would <pb ed=ED2 n='485'>just give me time to get over the honeymoon, and then she would come and see me.
Les éléments<pb> et <lb> sont des cas particuliers d'une classe générale d'éléments de type « jalons » qui servent à marquer des points de référence dans un texte. La TEI Lite inclut également un élément générique <milestone> qui n'est pas limité aux cas spéciaux mais peut marquer toutes sortes de point de référence : par exemple une fin de colonne, le début d'un nouveau type de section qui n'est pas balisé autrement, etc. Cet élément a la description et les attributs suivants :
Les noms employés pour designer les types d'unité ainsi que les éditions désignés par ces attributs ed et unit peuvent être choisis librement, mais il convient de les expliciter dans l'en-tête.
L'élément <milestone> peut être employé pour remplacer les autres attributs, ou ces derniers peuvent être employés ensemble; toutefois, il convient d'éviter de les mélanger arbitrairement.
Par expressions ou mots mis en valeur, nous entendons ceux qui sont distingués visuellement du reste du texte, notamment par un changement de police (ou fonte), de style d'écriture ou de couleur d'encre, dans le but d'attirer l'attention du lecteur.
L'attribut global rend peut
être attaché à tout élément et employé autant que nécessaire pour
préciser les détails de la mise en valeur retenue. Par exemple, un
titre en gras pourrait être balisé par
head
rend='gras' et un titre en italique par
head
rend='italique'.
Il n'est pas toujours possible ni souhaitable d'interpréter les raisons de telles alternances typographiques dans un texte. Dans ces cas, l'élément<hi> peut être employé pour marquer une séquence de texte mise en évidence, sans formuler d'interprétation quant à son statut.
Dans l'exemple suivant, l'emploi d'un type de caractère distinct pour le sous-titre et pour le nom inclus est enregistré mais ne fait l'objet d'aucune interprétation :
<hi rend=gothic>And this Inventure further witnesseth</hi> that the said <hi rend=italic>Walter Shandy</hi>, merchant, in consideration of the said intended marriage ...
Alternativement, là où les raisons de la mise en valeur peuvent être identifiées de façon sûre, d'autres éléments plus spécifiques sont disponibles :
Dans certains textes, certains éléments (notamment des citations et des gloses) peuvent être mis en évidence soit par une mise en valeur typographique, soit par l'utilisation de guillemets. Dans l'un ou l'autre cas, les éléments <q> et <gloss> (comme nous le verrons dans la section suivante) doivent être employés. Si la présentation physique doit être enregistrée, il convient d'utiliser l'attribut global rend.
Pour illustrer ces types d'éléments, examinons la phrase suivante :
On the one hand the Nibelungenlied is associated with the new rise of romance of twelfth-century France, the romans d'antiquité, the romances of Chrétien de Troyes, and the German adaptations of these works by Heinrich van Veldeke, Hartmann von Aue, and Wolfram von Eschenbach.Si l'on choisit d'interpréter les raisons de la mise en valeur typographique, la phrase pourrait avoir l'aspect suivant :
On the one hand the <title>Nibelungenlied</title> is associated with the new rise of romance of twelfth-century France, the <foreign>romans d'antiquité</foreign>, the romances of Chrétien de Troyes, ...
Si l'on choisit de décrire uniquement l'aspect de l'original, le résultat pourrait être le suivant :
On the one hand the <hi rend=italic>Nibelungenlied</hi> is associated with the new rise of romance of twelfth-century France, the <hi rend=italic>romans d'antiquité</hi>, the romances of Chrétien de Troyes, ...
Tout comme les changements de famille de caractères, les guillemets sont conventionnellement employés pour signaler certains éléments apparaissant dans un texte, le cas le plus fréquent étant la citation. Toutefois, dans la mesure du possible, nous recommandons que l'élément logique sous-jacent soit balisé, plutôt que de se contenter d'enregistrer que des guillemets apparaissent dans le texte, ceci en employant les éléments suivants :
Voici un exemple simple de citation :
Few dictionary makers are likely to forget Dr. Johnson's description of the lexicographer as <q>a harmless drudge.</q>
Pour noter la façon dont une citation a été imprimée (par exemple, sur la même ligne ou dans un pavé typographique distinct), l'attribut rend devrait être employé. Ceci sert également pour indiquer le type de guillemets employés.
Le discours direct interrompu par un narrateur peut être représenté simplement en terminant la citation et en la recommençant après l'interruption, comme dans l'exemple suivant :
<p><q>Who-e debel you?</q> — he at last said — <q>you no speak-e, damme, I kill-e.</q> And so saying, the lighted tomahawk began flourishing about me in the dark.
S'il est nécessaire de faire comprendre que les deux éléments <q> se rapportent au même discours, les attributs de liaison next et prev peuvent être utilisés, comme cela est décrit dans .
Les citations peuvent être accompagnées d'une référence à la source ou au locuteur, au moyen de l'attribut who, que la source soit donnée dans le texte ou non, comme dans l'exemple suivant :
<q who=Wilson>Spaulding, he came down into the office just this day eight weeks with this very paper in his hand, and he says:—<q who=Spaulding>I wish to the Lord, Mr. Wilson, that I was a red-headed man.</q></q>
Cet exemple montre aussi comment les citations peuvent être imbriqué es au sein d'autres citations : un locuteur (Wilson) cite un autre locuteur (Spaulding).
Le créateur du texte électronique doit décider si les guillemets seront remplacés par les balises ou si les balises seront ajoutées et les guillemets retenus. Si les guillemets sont ôtés du texte, l'attribut rend peut être employé pour enregistrer la façon dont ils étaient rendus dans la copie.
Comme dans le cas des mises en valeur, il n'est pas toujours possible ni souhaitable d'interpréter la fonction des guillemets dans un texte de cette façon. Dans de tels cas, la balise <hi rend=quoted> pourrait être employée pour marquer un texte cité, sans formuler d'interprétation quant à son statut.
Les mots ou expressions n'appartenant pas à la langue principale du texte, peuvent être balisés comme tels de deux façons. Si le mot ou l'expression est déjà balisé pour une raison quelconque, l'élément indiqué devrait comporter une valeur pour l'attribut global lang indiquant la langue utilisée. Lorsqu'il n'y a aucun élément applicable, l'élément <foreign> peut être employé en utilisant de nouveau l'attribut lang. Par exemple :
John has real <foreign lang=fra>savoir-faire</foreign>.
Have you read <title lang=deu>Die Dreigroschenoper</title>?
<mentioned lang=fra>Savoir-faire</mentioned> is French for know-how.
The court issued a writ of <term lang=lat>mandamus</term>.
Savoir-faire se dit <mentioned lang=eng>know-how</mentioned> en anglais!
Dans ce dernier exemple, nous supposons que la langue principale du texte est le français.
Comme le montrent ces exemples, l'élément <foreign> ne devrait pas être employé pour baliser des mots étrangers si un autre élément plus spécifique tel que <title>, <mentioned> ou <terme> peut s'appliquer. L'attribut global lang peut être attaché à tout élément, pour montrer qu'il est écrit dans une autre langue que celle du texte dans lequel il se trouve.
Toutes les notes, qu'elles soient imprimées comme des notes de bas de pages, des annotations de fin d'ouvrage ou de chapitre, des notes marginales, ou sous une autre forme, devraient être marquées au moyen du même élément :
Dans la mesure du possible, le corps d'une note devrait être inséré dans le texte au même endroit que celui de son identifiant ou marqueur. Ceci peut ne pas être possible, par exemple dans le cas de notes marginales qu'il peut être difficile d'ancrer à un emplacement exact. Pour la simplicité, il convient de placer les notes marginales avant le paragraphe (ou autre élément) correspondant. Les notes peuvent également être placées dans une division séparée du texte (comme les notes de fin le sont dans des livres imprimés) et liées à la portion pertinente du texte au moyen de leur attribut target.
Si nécessaire, l'attribut n peut être employé pour donner le numéro ou l'identifiant d'une note. Voir le second exemple L'attribut resp devrait être employé de façon systématique pour distinguer les notes d'auteur et d'éditeur, si l'oeuvre comporte ces deux sortes de note; autrement, l'en-tête TEI devrait indiquer leur type.
Voici quelques exemples :
Collections are ensembles of distinct entities or objects of any sort. <note place=foot n=1> We explain below why we use the uncommon term <mentioned>collection</mentioned> instead of the expected <mentioned>set</mentioned>. Our usage corresponds to the <mentioned>aggregate</mentioned> of many mathematical writings and to the sense of <mentioned>class</mentioned> found in older logical writings. </note> The elements ... <p> <note place=margin>Voir le second exemple</note> Si nécessaire, l'attribut ... devrait indiquer leur type. </p>
Il est possible de coder les références croisées, ou des liens explicites entre des points différents d'un même document SGML, au moyen des éléments décrits en . Les références ou liens vers des éléments situés dans un autre document SGML, ou vers des parties de documents non-SGML, peuvent être codés au moyen des pointeurs étendus TEI décrits en . Les liens implicites (telle l'association entre deux textes parallèles ou celle entre un texte et son interprétation) peuvent être codés au moyen des attributs de liaison expliqués en .
Une référence croisée reliant deux endroits situés dans le même document peut être codée au moyen de l'un ou l'autre des éléments suivants :
Ces éléments partagent les attributs suivants :
La différence entre ces deux éléments est que <ptr> est un élément vide qui marque simplement un endroit à partir duquel un lien est à créer, tandis que <ref> peut contenir également du texte - typiquement le texte de la référence croisée elle-même. L'élément <ptr> serait plutôt employé pour une référence croisée signalée par des dispositifs non-verbaux tels qu'un symbole ou une icône, ou dans un texte électronique par un bouton. Il sert également dans des systèmes de production de document, où le logiciel de formatage a la possibilité de générer la forme verbale correcte de la référence croisée.
Les deux formes présentées ci-après, par exemple, sont logiquement équivalentes (en supposant que nous avons documenté ailleurs la forme verbale exacte des références croisées représentées par les éléments <ptr>) :
Voir notamment <ref target=SEC12>la section 12, page 34</ref>. Voir notamment <ptr target=SEC12>.
la valeur de l'attribut target doit être un identifiant SGML dans le document SGML courant. Ceci implique que le passage ou l'expression pointé doit porter un identifiant, et donc être balisé comme un élément d'un certain type. Dans l'exemple suivant, la référence croisée pointe vers un élément <div1> :
...
voir notamment <ptr target=SEC12>.
...
<div1 id=SEC12><head>En ce qui concerne les identificateurs
...Puisque l'attribut id est global, tout élément dans un document peut être pointé de la même façon. Dans l'exemple suivant, un paragraphe a été pourvu d'un identifiant pour qu'on puisse pointer sur lui :
... on en reparlera dans <ref target=pspec>la section sur les liens</ref> ... <p id=pspec>Les liens peuvent être composés de n'importe quel type d'éléments ...
Il est possible d'utiliser l'attribut targType pour préciser que l'élément pointé doit être d'un type particulier, comme dans l'exemple qui suit.
... on en reparlera dans <ref target=dspec targType='div1 div2'> la section sur les liens</ref>
Cette référence devrait échouer si l'élément portant l'identifiant dspec n'est ni un <div1> ni un<div2>. à noter cependant que cette vérification ne peut être effectué par un analyseur syntaxique SGML seul puisque ce dernier ne peut que vérifier l'existence d'un élément dspec donné.
L'attribut type peut être employé pour catégoriser le lien représenté par le pointeur, par tout moyen approprié. Les attributs resp et crDate peuvent également être utilisés pour identifier la personne ou l'entité responsable de la création du lien, ainsi que la date de création de ce dernier, comme dans l'exemple suivant :
on en reparlera dans <ref type=xref resp=auto crDate=950521 target=dspec targtype='div1 div2'> la section sur les liens</ref>
Selon toute vraisemblance, ces attributs seront les plus utiles dans des systèmes hypertextes contenant de nombreux pointeurs ayant de multiples fonctions et créés par toute sorte de moyens.
Parfois, la cible d'une référence croisée ne correspond à aucune caractéristique particulière d'un texte, et ne peut donc pas être balisée comme étant d'un certain type d'élément. Si la cible désiré e est simplement un endroit dans le document courant, la façon la plus facile de le marquer est d'introduire un élément <anchor> à l'endroit correspondant. Si la cible est une séquence de mots non balisée autrement, l'élément<seg> (segment) peut être introduit pour la marquer. Ces deux éléments sont décrits comme suit :
Dans l'exemple (imaginaire) suivant, des éléments <ref> ont été employés pour représenter des points dans le texte devant être attachés d'une certaine manière à d'autres parties du texte, un point précis dans le premier cas et une séquence de mots dans le second :
Si je reviens sur <ref target=ABCD>le passage sur lequel je me suis endormi</ref>, je note que <ref target=EFGH>trois mots</ref> ont été entourés de rouge par un précédant lecteur.
Ce codage nécessite que des éléments ayant les identifiants spécifiés ( « ABCD » et « EFGH » dans cet exemple) existent quelque part ailleurs dans le document courant. En supposant qu'aucun élément n'existe déjà pour porter ces identifiants, les éléments <anchor> et <seg> (segment) peuvent être employés :
.... <anchor type=bookmark id='ABCD'> .... ....<seg type=target id='EFGH'> ... </seg> ...
L'attribut type devrait être employé (comme ci-dessus) pour préciser les différents rôles de ces éléments généraux dans un texte. D'autres applications sont présentées ci-après en .
Les éléments <ptr> et <ref> servent uniquement pour des références croisées ou des liens dont les cibles se trouvent dans le même document SGML que leur source. En outre, ils ne peuvent indiquer que des éléments SGML. Les éléments présentés dans la présente section ne sont pas limités de cette façon.
En plus des attributs applicables aux pointeurs présentés dans 8.1 Références croisées simples ci-dessus, ces éléments partagent les attributs supplémentaires suivants, dont le but est de spécifier la cible de la référence croisée ou du lien, au lieu de l'attribut target :
Une spécification complète du langage formel employé pour exprimer la cible des pointeurs étendus TEI dépasserait les limites de ce document; nous nous bornerons donc à indiquer seulement quelques-unes des caractéristiques les plus généralement utiles. Pour plus de détails, il convient de consulter la version complète des recommandations de la TEI.
Un élément <xptr> (ou <xref>) peut indiquer l'ensemble d'un autre document simplement en donnant un nom d'entité comme valeur de l'attribut doc, comme dans cet exemple :
voir <xref doc=P3>The TEI Guidelines, passim</xref>
Cet exemple suppose qu'une entité système ou publique avec le nom P3 a été déclarée. Cette déclaration peut être placée dans le fichier d'extension litemods.ent ou effectuée par une autre méthode spécifique au logiciel auteur SGML employé - voir .
L'attribut from est employé pour préciser un emplacement donné au sein du document spécifié par l'attribut doc. La spécification utilise un langage spécial, appelé syntaxe du pointeur étendu TEI, dont seulement quelques détails sont donnés ici. Dans ce langage, les emplacements sont définis comme une série de pas (steps), chacun identifiant une certaine partie du document, souvent en termes des emplacements identifiés par le pas précédent. Par exemple, on pointera vers la troisième phrase du deuxième paragraphe du chapitre deux en sélectionnant le chapitre deux dans le premier pas, le deuxième paragraphe dans le deuxième pas, et la troisième phrase dans le dernier pas. Un pas peut être défini en termes de concepts SGML (tels que « parent » , « descendant » , « précédant » , etc.) ou, plus vaguement, en termes de structure de texte, de positions de mots ou de caractères. On peut également utiliser une notation étrangère (non-SGML), ou préciser un emplacement dans un graphique en termes de son système de coordonnées.
Les attributs from et to utilisent la même notation. Chacun indique une certaine portion du document cible; le pointeur étendu dans son ensemble indique la section qui commence au début de from et qui se termine à la fin de to.
La première étape du chemin vers un emplacement sera souvent de spécifier l'identifiant d'un certain élément dans le document cible, comme dans cet exemple :
<xptr doc=P3 from='id (SA)'>
Ceci sélectionne l'ensemble de l'élément qui porte l'identifiant SA à l'intérieur de l'entité P3. Si une cible plus fine est nécessaire, d'autres pas peuvent suivre. Les mots clés suivants sont disponibles afin de permettre la sélection d'autres éléments en termes de leur relation avec un élément identifié lors du pas précédent :
Chacun de ces mots clés implique un ensemble particulier d'éléments (un ensemble d'enfants, un ensemble d'ancêtres, un ensemble de descendants, etc.). Afin de préciser lequel des éléments d'un ensemble est pointé, le mot clé peut éventuellement être suivi d'une liste entre parenthèses contenant :
+1 indiquant le premier élément rencontré,
commençant à l'emplacement actuel, et
$-$1
indiquant le dernier), ou le mot clé
all
(tous) indiquant que tous les éléments dans l'ensemble doivent être
pointés;En reprenant l'exemple ci-dessus, la référence suivante sélectionne le troisième élément <p> contenu directement par tout élément ayant l'identifiant SA :
<xptr doc=P3 from='id (SA) child (3 p)'>
De la même manière, en supposant que l'entité P3 est en fait une référence à la version SGML des recommandations de la TEI, alors la référence suivante sélectionne la section 14.2.2 de cette publication qui se trouve être celle où la syntaxe du pointeur étendu est formellement définie :
Pour plus de détails, voir <ref doc=P3 from='id (SA) child (2 div2) child (2 div3)'> TEI Extended pointer syntax definition </ref>
Normalement, l'étendue d'une référence croisée est suffisamment définie par l'attribut from. Pour certains documents cependant, il peut être plus commode de définir une plage de début et une plage de fin. Comme indiqué ci-dessus, l'attribut to est fourni dans ce but. Par exemple :
<xptr doc=P1 from='id (xyz)' to='id (abc)'>
est un pointeur étendu dont la cible est la séquence qui commence au début de l'un quelconque des éléments du document P1 ayant l'identifiant XYZ, et se terminant à la fin de n'importe quel élément du même document ayant l'identifiant ABC. Tout élément se trouvant dans l'intervalle est également inclus, indépendamment de sa structure. Le pointeur est erroné si la fin de ABC précède le début de XYZ.
L'utilisation de cette syntaxe permet la construction facile de spécifications très complexes. Par exemple, la référence suivante sélectionne l'élément <head> le plus proche ayant un attribut lang avec la valeur LAT, et apparaissant avant le début de l'élément ayant l'identifiant SA :
<xptr doc=P3 from='id (SA) preceding (1 head lang lat)'>
Si aucune valeur n'est fournie pour l'attribut doc, on suppose qu'il s'agit du document courant. Ainsi, les références suivantes sont sémantiquement équivalentes. Les deux indiquent l'élément ayant l'identifiant X1 dans le document courant :
<ptr target=X1> <xptr from='id (X1)'>
Les attributs de liaison spécifiques suivants ont été définis pour chaque élément de la DTD TEI Lite :
L'attribut ana (analyse) est destiné à être utilisé lorsqu'un ensemble d'interprétations ou d'analyses abstraites a été défini quelque part dans un document, comme nous le verrons de façon plus détaillée en Par exemple, une analyse linguistique de la phrase « John aime Nancy » pourrait être codé comme suit :
<seg type=sentence ana=SVO> <seg type=lex ana=NP1>John</seg> <seg type=lex ana=VVI>aime</seg> <seg type=lex ana=NP1>Nancy</seg> </seg>
Ce codage implique l'existence, ailleurs dans le document, d'éléments ayant les identifiants SVO, NP1, et VV1 où la signification de ces codes particuliers est expliquée. On notera l'emploi de l'élément <seg> (segment) pour marquer des composants particuliers de l'analyse, différenciés par l'attribut type.
L'attribut corresp (correspondant) est un moyen simple de représenter une certaine forme de correspondance entre deux éléments dans un texte. Par exemple, dans un texte plurilingue, il peut être employé pour relier les diverses traductions d'un même passage, comme dans l'exemple suivant :
<seg lang=FRA id=FR1 corresp=EN1>Jean aime Nancy</seg> <seg lang=ENG id=EN1 corresp=FR1>John loves Nancy</seg>
Le même mécanisme peut être employé à beaucoup d'autres fins. Dans l'exemple suivant, il est employé pour représenter des correspondances anaphoriques entre the show et Shirley, et entre NBC et network :
<p><title id=shirley>Shirley</title>, which made its Friday night debut only a month ago, was not listed on <name id=nbc>NBC</name>'s new schedule, although <seg id=network corresp=nbc>the network</seg> says <seg id=show corresp=shirley>the show</seg> still is being considered.
Les attributs next et previous sont un moyen simple de relier les composants d'un élément discontinu, comme dans l'exemple suivant :
<q id=Q1a next=Q1b>Who-e debel you?</q> &mdash he at last said &mdash <q id=Q1b prev=Q1a>you no speak-e, damme, I kill-e.</q> And so saying, the lighted tomahawk began flourishing about me in the dark.
Le codage d'un texte électronique a beaucoup de points communs avec l'édition d'un manuscrit ou d'un texte destiné à être imprimé. Dans les deux cas, un éditeur consciencieux peut vouloir enregistrer l'état originel de la source ainsi que toutes les corrections éditoriales ou les modifications qui y ont été apportées. Les éléments présentés dans cette section et la suivante fournissent quelques ressources permettant de répondre à ces besoins. Le couple d'éléments suivant peut être employé pour marquer une « correction » , c'est-à-dire des changements éditoriaux introduits aux endroits où le rédacteur croît rencontrer une erreur dans l'original :
Le couple d'éléments suivant peut être employé pour marquer la normalisation, c'est-à-dire des changements éditoriaux introduits pour des raisons de cohérence ou pour transcrire le texte sous une forme plus lisible pour un lecteur moderne :
Par exemple, la lecture :
comporte selon Gifford... for his nose was as sharp as a pen and a' table of green feelds
Donc, la conjecture de Gifford pourrait être codée ainsi :
... for his nose was as sharp as a pen and <reg sic="a'">he</reg> <corr sic='table' ed=Gifford>babbl'd</corr> of green <reg sic='feelds'>fields</reg>
Outre la correction ou la normalisation des mots et des expressions, les rédacteurs et les transcripteurs peuvent aussi ajouter du texte dans des passages lacunaires, ôter du texte, ou encore transcrire du texte effacé ou biffé dans l'original. En outre, un texte donné peut être particulièrement difficile à transcrire car difficile à déchiffrer dans la page. Les éléments suivants peuvent être employés pour enregistrer de tels phénomènes :
Ces éléments peuvent être employés pour enregistrer des changements effectués par un éditeur, par le transcripteur ou (dans la source manuscrite) par l'auteur ou le scribe. Par exemple, si la source d'un texte électronique est :
Les éléments suivants sont proposés pour pour noter des interventions du transcripteur.alors il pourrait être souhaitable de corriger l'erreur évidente, tout en enregistrant l'effacement du deuxième pour superflu, ainsi :
Les éléments suivants sont proposés pour <del hand=LB>pour</del> noter des interventions du transcripteur.
La valeur d'attribut LB sur l'attribut hand indique que LB a corrigé la duplication du mot pour.
Si la source était :
Les éléments suivants proposés pour pour noter des interventions du transcripteur.
(si le verbe avait été oublié par inadvertance), alors le texte lui-même pourrait se lire :
Les éléments suivants <add hand=LB>sont</add> proposés pour <del hand=LB>pour</del> noter des interventions du transcripteur.
Ces éléments ne sont pas limités aux changements faits par un éditeur; ils peuvent aussi être employés pour enregistrer des changements dus à l'auteur dans des manuscrits. Un manuscrit {(cité par Almuth Grésillon, Éléments de critique génétique, PUF, 1994 p. 132-133)} dans lequel Proust a d'abord écrit « Bientôt la lumière sous la porte s'éteint et il retombe dans l'obscurité. » puis biffé « il retombe » et inséré en-dessous « tout rentre » pourrait être codé ainsi :
Bientôt la lumière sous la porte s'éteint et <del hand=PROUST type=overstrike>il retombe</del> <add hand=PROUST place=infralinear> tout rentre</add> dans l'obscurité.
De la même manière, les éléments <unclear> et <gap> peuvent être employés ensemble pour indiquer l'omission d'un passage illisible; l'exemple suivant montre aussi l'emploi de <add> pour une correction conjecturale :
One hundred & twenty good regulars joined to me <unclear><gap reason='indecipherable'></unclear> & instantly, would aid me signally <add hand=ed>in?</add> an enterprise against Wilmington.
L'élément <del> identifie les passages qui sont transcrits dans le texte électronique bien qu'ils soient marqués comme étant effacés, tandis que <gap> marque l'emplacement d'un passage qui est omis du texte électronique, qu'il soit lisible ou non. Un corpus contenant des passages en plusieurs langues, par exemple, pourrait omettre des citations longues dans des langues étrangères :
<p> ... An example of a list appearing in a fief ledger of
<name type=place>Koldinghus</name> <date>1611/12</date>
is given below. It shows cash income from a sale of
honey.</p>
<q><gap desc='quotation from ledger'
reason='in Danish'></q>
<p>A description of the overall structure of the account is
once again ... </p>D'autres corpus (notamment ceux qui ont été créés avant l'emploi généralisé du lecteur optique) omettent systématiquement les schémas et les parties mathématiques :
<p>En avant du puzzle ... Un des classeurs est ouvert s