%ISOdia; ]> TEI U5 FR: La TEI simplifiée

Pour publication et redistribution

TEI U5: Encoding for Interchange: an introduction to the TEI
Français English des exemples de SGML utilisent SGML comme valeur de l'attribut lang 26 janvier 1997 ed. Jean-Daniel Fekete Traduit de LaTeX vers TEI lite
La TEI simplifiée: une introduction au codage des textes électroniques en vue de leur échange Lou Burnard
Oxford University Computing Services 13, Bandury Road Oxford OX2 6NN, UK
et C. M. Sperberg-McQueen
University of Illinois at Chicago Computer Center Box 6998 Chicago IL 60680, USA
Ce document est la version HTML d'un article paru dans le Cahier GUTenberg http://www.univ-rennes1.fr/pub/GUTenberg/publicationsPS/24-teilite.ps.gz numéro 24, juin 1996 (pages 23–151). C'est la traduction française de TEI Lite: An Introduction to Text Encoding for Interchange http://www-tei.uic.edu/orgs/tei/intros/teiu5.tei. This document is a French translation of the English document: TEI Lite: An Introduction to Text Encoding for Interchange http://www-tei.uic.edu/orgs/tei/intros/teiu5.tei. Traduction française de François Role
Ministère de l'Éducation nationale, de l'Enseignement supérieur et de la Recherche DISTNB – 1, rue Descartes, 75005 Paris email: role@distb.mesr.fr
avec la collaboration de Jacques André (IRISA/Inria-Rennes) et Michael Jordan
24 juin 1996
Origine de ce document, résumé et copyright

La TEI Lite est une version simplifiée des Recommandations de la Text Encoding Initiative (TEI) qui s'adressent a tous ceux qui souhaitent échanger des informations stockées sous forme électronique. Elles mettent l'accent sur l'échange des données textuelles, notamment pour les sciences humaines et les études sur les textes littéraires, mais d'autres types de données comme les images et les sons sont également pris en compte.

The Text Encoding Initiative (TEI) Guidelines are addressed to anyone who wants to interchange information stored in an electronic form. They emphasize the interchange of textual information, but other forms of information such as images and sounds are also addressed.

Avertissement

Ce document est une introduction à la TEI Text Encoding Initiative, une DTD de SGML (voir pour une bibliographie plus complète sur SGML et sur la TEI), et en décrit un sous-ensemble connu sous le nom de TEI Lite. Ce que nous décrivons ici peut servir à coder une grande variété de phénomènes couramment rencontrés dans les textes pour en faciliter leur étude par des moyens électroniques et pour en faciliter l'échange entre humanistes utilisant des systèmes informatiques différents. Ce sous-ensemble est entièrement compatible avec la version intégrale de la TEI publiée à Chicago et à Oxford en mai 1994: TEI P3, Guidelines for Electronic Text Encoding and Interchange. Dans la suite de ce document, cette version intégrale est appelée les Recommandations ou parfois P3.

Accès par Internet/WWW La version originale anglaise de ce document se trouve dans: http://www-tei.uic.edu/orgs/tei/intros/teiu5.tei ftp://info.ox.ac.uk/pub/ota/TEI/doc/teiu5.tei Une version HTML se trouve à: http://www-tei.uic.edu/orgs/tei/intros/teiu5.html ftp://info.ox.ac.uk/ota/teilite/ La version intégrale de la DTD SGML décrite dans ces documents se trouve à: http://www-tei.uic.edu/orgs/tei/p3/dtd/teilite.dtd ftp://ftp-tei.uic.edu/pub/tei/lite/teilite.dtd ftp://ota.ox.ac.uk/pub/ota/TEI/dtd/teilite.dtd La version originale française du document est imprimable depuis: http://www.univ-rennes1.fr/pub/GUTenberg/publicationsPS/24-teilite.ps.gz http://distb.mesr.fr/norm/
Version imprimée

La version imprimée de ce texte est disponible dans le Cahier GUTenberg numéro 24. Il est en vente au prix de 100 FF (port compris). S'adresser à:

Association GUTenberg http://www.ens.fr/gut BP 10, F-93220 Gagny Principal, France tel/fax: (33 1) 30 87 06 25; email: tresorerie.gutenberg@ens.fr
Remerciements et copyright

Les copyrights de cet article sont ceux de la version originale. Cette traduction est diffusée avec l'aimable autorisation des auteurs que le rédacteur de ces Cahiers GUTenberg tient à remercier ici.

Introduction

Les Recommandations de la TEI – Text Encoding Inititative (TEI) Guidelines – s'adressent à tous ceux qui souhaitent échanger des informations stockées sous forme électronique. Elles mettent l'accent sur l'échange des données textuelles mais d'autres types de données comme les images et les sons sont également pris en compte. Les Recommandations peuvent être appliquées aussi bien pour créer de nouvelles informations que pour échanger des informations existantes.

Les Recommandations fournissent le moyen de rendre explicites certaines caractéristiques d'un texte, de façon à faciliter le traitement de ce texte par des programmes informatiques pouvant s'exécuter sur des plates-formes différentes. Cette tâche d'explicitation est appelée balisage ou codage. La représentation d'un texte sur un ordinateur met toujours en œuvre une forme de balisage ou une autre. La TEI tire son origine d'une part de l'anarchie qui règne dans la communauté scientifique en matière de format, et d'autre part du nombre croissant de traitements que les chercheurs opèrent sur les textes sous forme électronique.

Les Recommandations de la TEI s'appuient sur SGML (Standard Generalized Markup Language) pour définir leurs règles de codage (voir la bibliographie sommaire donnée en . SGML est une norme internationale de plus en plus utilisée par les entreprises spécialisées dans le traitement de l'information. Cette norme permet de définir les règles de codage en termes d'éléments, d'attributs et de règles régissant l'utilisation de ces éléments et attributs. L'utilisation que la TEI fait de SGML est ambitieuse, tant par sa complexité que par sa recherche d'universalité; elle n'est cependant pas fondamentalement différente de tous les autres schémas de balisage fondés sur SGML. La preuve en est que tous les outils SGML généralistes sont capables de traiter des textes conformes à la TEI.

La TEI est soutenue par l'Association for Computers and the Humanities, l'Association for Computational Linguistics et l'Association for Literary and Linguistic Computing. Le projet a été en partie financé par le National Endowment for the Humanities américain, la DG XIII de la CEE, la fondation Andrew W. Mellon et le Social Science and Humanities Research Council du Canada. Les Recommandations ont été publiées en mai 1994, après six ans de travaux auxquels ont participé des chercheurs de toute nationalité et de toute discipline.

Au début de cette entreprise, les objectifs généraux de la TEI ont été définis par la résolution finale de la conférence préparatoire tenue au Vassar College de New York en novembre 1987. Cette résolution connue sous le nom de Principes de Poughkeepsie fut peu à peu précisée à travers une série de documents de travail. D'après ces documents les Recommandations devaient: être suffisamment précises pour représenter les propriétés des textes intéressants pour les chercheurs; être simples, claires et concrètes; être utilisables facilement par les chercheurs et ne pas nécessiter l'utilisation de logiciels spécifiques; permettre une définition rigoureuse des textes en vue de traitements efficaces; être modifiables par l'utilisateur; respecter les normes en vigueur ou sur le point d'être adoptées.

Le monde de la recherche est large et divers. Pour que ces recommandations aient une large audience, il était important de s'assurer que: les descriptions des caractéristiques fondamentales d'un texte puissent être facilement échangées; les descriptions spécialisées puissent être facilement ajoutées (ou supprimées) d'un texte; la même caractéristique puissent être encodée en parallèle de plusieurs façons; la richesse du balisage puisse être déterminée par l'utilisateur de la façon la plus simple possible; une documentation relative au texte et à la façon dont il a été codé soit fournie.

Ce document décrit un sous-ensemble utilisable des éléments définis par la TEI et fournit des recommandations en conformité avec les principes directeurs qui viennent d'être rappelés plus haut.

En effectuant un choix parmi les centaines d'éléments définis par la TEI, nous nous sommes efforcés d'identifier un ensemble initial contenant les éléments susceptibles de servir à n'importe quel utilisateur. L'expérience acquise en ne travaillant qu'avec la TEI Lite sera d'une grande utilité pour comprendre la DTD TEI complète et pour identifier les parties de cette DTD qui sont nécessaires pour travailler sur un type de texte donné.

Nous pouvons résumer comme suit les objectifs que nous nous sommes assigné s en définissant ce sous-ensemble: il doit comprendre la plupart des éléments qui appartiennent au core tag set de la TEI; ce dernier contient en effet des éléments généraux susceptibles d'être utilisés pour tout type de texte et tout type de traitement; il doit permettre de traiter correctement une large gamme de texte, avec un niveau de précision correspondant aux pratiques courantes des chercheurs; il doit pouvoir être utilisé aussi bien pour produire de nouveaux documents que pour coder des documents existants; il doit pouvoir fonctionner avec la plupart des logiciels SGML; il doit être dérivé de la DTD TEI complète en utilisant les mécanismes d'extension décrits dans les Recommandations de la TEI; il doit enfin respecter les contraintes énoncées ci-dessus de la façon la plus simple et la plus concise possible.

Premiers exemples Ce chapitre a pour titre anglais A Short Example et correspond intégralement à la première sous-section de . La section 2.2 présente un exemple en français qui n'apparaît pas dans l'original mais qu'il nous a paru intéressant d'ajouter pour montrer dès à présent quelques possibilités de la TEI en ce qui concerne les textes en français. Ce second exemple n'est donc qu'un complément au premier que le lecteur est supposé avoir étudié d'abord. Un court exemple

Nous commençons par un bref exemple, reproduit ci-dessous et destiné à illustrer ce qui se passe lorsqu'un passage de prose est saisi sur ordinateur par un opérateur n'ayant qu'une faible notion de ce que représente le balisage, ou du potentiel des textes électroniques. Dans un monde parfait, une telle sortie imprimée pourrait être générée par un lecteur optique très précis. Elle tente de rester fidèle à l'aspect du texte imprimé, en retenant les mêmes coupures de ligne que l'original, en insérant des blancs afin de représenter la disposition des titres originaux et des fins de page, et ainsi de suite. Lorsque certains caractères sont nécessaires mais indisponibles au clavier (tels que la lettre a accentuée dans le mot faàl, ou le trait long), elle essaie de reproduire leur aspect.

CHAPTER 38 READER, I married him. A quiet wedding we had: he and I, the parson and clerk, were alone present. When we got back from church, I went into the kitchen of the manor-house, where Mary was cooking the dinner, and John cleaning the knives, and I said ‐ 'Mary, I have been married to Mr Rochester this mor- ning.' The housekeeper and her husband were of that decent, phlegmatic order of people, to whom one may at any time safely ommunicate a remarkable piece of news without incurring the danger of having on'es ears pierced by some shrill ejaculation and subsequently stunned by a torrent of wordy wonderment. Mary did look up, and she did stare at me; the ladle with which she was basting a pair of chickens roasting at the fire, did for some three minutes hang suspended in air, and for the same space of time John's knives also had rest from the polishing pro- cess; but Mary, bending again over the roast, said only ‐ 'Have you, miss? Well, for sure!' A short time after she pursued, 'I seed you go out with the master, but I didn't know you were gone to church to be wed'; and she basted away. John, when I turned to him, was grinning from ear to ear. 'I telled Mary how it would be,' he said: 'I knew what Mr Edward' (John was an old servant, and had known his mas- ter when he was the cadet of the house, therefore he often gave him his Christian name) ‐ 'I knew what Mr Edward would do; and I was certain he would not wait long either: and h'es done right, for aught I know. I wish you joy, miss!' and he politely pulled his forelock. 'Thank you, John. Mr Rochester told me to give you and Mary this.' I put into his hand a five-pound note. Without waiting to hear more, I left the kitchen. In passing the door of that sanctum some time after, I caught the words ‐ 'Sh'ell happen do better for him nor ony o' t' grand ladies.' And again, 'If she ben't one o' th' handsomest, sh'es noan faa\l, and varry good-natured; and i' his een sh'es fair beautiful, onybody may see that.' I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and 474 JANE EYRE 475 Mary approved the step unreservedly. Diana announced that she would just give me time to get over the honeymoon, and then she would come and see me. 'She had better not wait till then, Jane,' said Mr Rochester, when I read her letter to him; 'if she does, she will be too late, for our honey moon will shine our life long: its beams will only fade over your grave or mine.' How St John received the news I don't know: he never answered the letter in which I communicated it: yet six months after he wrote to me, without, however, mentioning Mr Rochester's name or alluding to my marriage. His letter was then calm, and though very serious, kind. He has maintained a regular, though not very frequent correspond ence ever since: he hopes I am happy, and trusts I am not of those who live without God in the world, and only mind earthly things.

Cette transcription souffre d'un certain nombre de limitations: les numéros de page ainsi que les titres courants sont mêlés au texte de façon si inextricable qu'un logiciel aurait du mal à les démêler; aucune distinction n'est faite entre l'apostrophe et les guillemets simples, d'où la difficulté de déterminer de façon sûre quels passages sont en discours direct; la conservation des césures de l'original implique que des programmes de recherche peu élaborés ne trouveront pas les mots coupés; la lettre accentuée dans faàl et le trait long ont été saisis selon des conventions ad hoc et ne seront donc traités correctement que si le transcripteur prend le soin de les mentionner dans la documentation; les divisions de paragraphe sont marquées uniquement par l'emploi d'espaces blancs, et des fins de ligne forcées ont été introduites au bout de chaque ligne. Par conséquent, tout changement de taille de police lors de l'impression du texte engendrera des problèmes de mise en page.

Nous présentons maintenant le même passage avec un codage conforme aux recommandations de la TEI. Comme nous le verrons, ce codage pourrait être étendu de bien des façons, mais au minimum, le codage recommandé par la TEI permet d'effectuer les distinctions suivantes: les divisions de paragraphe sont maintenant marquées de façon explicite; les apostrophes sont distinguées des guillemets; les références d'entité sont employées pour la lettre accentuée et le trait long; les divisions de page ont été marquées par un seul élément pb vide; afin de simplifier la recherche et le traitement, la division en lignes de l'original n'a pas été retenue et des mots coupés par accident typographique en fin de ligne se trouvent réassemblés sans commentaire; si la division en lignes de l'original avait un intérêt particulier, comme ce pourrait être le cas pour une édition rare, elle pourrait être notée facilement, bien que ce ne soit pas le cas ici; afin de faciliter la correction des épreuves, une nouvelle ligne a été insérée en début de chaque paragraphe, mais l'alinéa n'a pas été conservé.

Reader, I married him. A quiet wedding we had: he and I, the parson and clerk, were alone present. When we got back from church, I went into the kitchen of the manor-house, where Mary was cooking the dinner, and John cleaning the knives, and I said ‐

Mary, I have been married to Mr Rochester this morning. The housekeeper and her husband were of that decent, phlegmatic order of people, to whom one may at any time safely communicate a remarkable piece of news without incurring the danger of having one's ears pierced by some shrill ejaculation and subsequently stunned by a torrent of wordy wonderment. Mary did look up, and she did stare at me; the ladle with which she was basting a pair of chickens roasting at the fire, did for some three minutes hang suspended in air, and for the same space of time John's knives also had rest from the polishing process; but Mary, bending again over the roast, said only ‐

Have you, miss? Well, for sure!

A short time after she pursued, I seed you go out with the master, but I didn't know you were gone to church to be wed; and she basted away. John, when I turned to him, was grinning from ear to ear. I telled Mary how it would be, he said: I knew what Mr Edward (John was an old servant, and had known his master when he was the cadet of the house, therefore he often gave him his Christian name) ‐ I knew what Mr Edward would do; and I was certain he would not wait long either: and he's done right, for aught I know. I wish you joy, miss! and he politely pulled his forelock.

Thank you, John. Mr Rochester told me to give you and Mary this.

I put into his hand a five-pound note. Without waiting to hear more, I left the kitchen. In passing the door of that sanctum some time after, I caught the words ‐

She'll happen do better for him nor ony o' t' grand ladies. And again, If she ben't one o' th' handsomest, she's noan faàl, and varry good-natured; and i' his een she's fair beautiful, onybody may see that.

I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and Mary approved the step unreservedly. Diana announced that she would just give me time to get over the honeymoon, and then she would come and see me.

She had better not wait till then, Jane, said Mr Rochester, when I read her letter to him; if she does, she will be too late, for our honeymoon will shine our life long: its beams will only fade over your grave or mine.

How St John received the news I don't know: he never answered the letter in which I communicated it: yet six months after he wrote to me, without, however, mentioning Mr Rochester's name or alluding to my marriage. His letter was then calm, and though very serious, kind. He has maintained a regular, though not very frequent correspondence ever since: he hopes I am happy, and trusts I am not of those who live without God in the world, and only mind earthly things. ]]>

La décision de se concentrer sur le texte de Brontë, plutôt que sur la façon dont il a été imprimé dans cette édition spécifique, témoigne d'un problème de codage fondamental: celui de la sélectivité. Un codage rend explicite seulement celles des caractéristiques du texte qui ont une importance pour l'encodeur. Il n'est pas difficile d'imaginer comment on pourrait étendre facilement le codage d'un passage même aussi court que celui-ci. Par exemple: une forme en anglais officiel pourrait être fournie pour les passages en dialecte; des gloses ou des commentaires sous forme de notes de pied de page pourraient être ajoutés; des pointeurs pourraient être ajoutés afin de lier certaines parties du texte entre elles; des noms propres de divers types pourraient être distingués par rapport au texte environnant; des données bibliographiques détaillées concernant la provenance du texte ainsi que son contexte pourraient être fournies dans un en-tête; une analyse linguistique du passage en phrases, clauses, mots, etc. pourrait être fournie, chaque unité étant associée à des codes de catégorie appropriés; le texte pourrait être segmenté dans des unités de discours ou de narration; l'interprétation ou l'analyse systématique du texte pourraient être incluses dans le codage, avec des associations ou des alignements potentiellement complexes entre le texte et l'analyse, ou entre le texte et une ou plusieurs traductions de ce dernier; certains passages dans le texte pourraient être liés à des images ou à du son stockés sur d'autres supports.

La méthode recommandée par la TEI pour faire tout ceci est décrite dans le reste de ce document. La TEI dans son ensemble fournit également maintes possibilités, dont nous ne citons que quelques exemples: l'analyse détaillée des composants de noms; des méta-informations détaillées fournissant des données quant aux origines du texte et aux sujets qu'il aborde; des informations sur l'historique des impressions, ou des variantes manuscrites telles qu'elles apparaissent dans une suite de versions particulières du texte.

Pour connaître les recommandations applicables dans ces différents cas, et pour découvrir de nombreuses autres possibilités, il convient de se reporter au texte complet des recommandations de la TEI.

La TEI et le français

Le premier exemple a mis l'accent sur la typologie du texte. Nous complétons cette introduction par un exemple en langue française montrant quelques possibilités de la TEI liées à notre langue. Cette fois partons du document original de la figure .

Un exemple de texte français à coder (début du premier chapitre de Les belles images de Simone de Beauvoir, Gallimard, 1960)

C'est un mois d'octobre… exceptionnel, dit Gisèle Dufrène; ils acquiescent, ils sourient, une chaleur d'été tombe du ciel gris-bleu — Qu'est-ce que les autres ont que je n'ai pas? — ils caressent leurs regards à l'image parfaite qu'ont reproduite Plaisir de France et Votre Maison: la ferme achetée pour une bouchée de pain — enfin, disons, de pain brioché — et aménagée par Jean-Charles au prix d'une tonne de caviar. (je n'en suis pas à un million près, a dit Gilbert), les roses contre les murs de pierre, les chrysanthèmes, les asters, les dahlias les plus beaux de toute l'Ile-de-France , dit Dominique; le paravent et les fauteuils bleux et violet — c'est d'une audace! — tranchent sur le vert de la pelouse, la glace tinte dans les verres, Houdan baise la main de Dominique, très mince dans son pantalon noir et son chemisier éclatant, les cheveux pâles, mi-blonds, mi-blancs, de dos on lui donnerait trente ans. …

Si l'on devait coder ce texte, on aurait quelques problèmes plus évidents en français qu'en anglais: l'emploi de lettres accentuées est très important; mais si l'on saisit en utilisant un codage comme ISO 8859-1 (Latin1), on sera quand-même obligé de coder certains caractères en utilisant des entités SGML, par exemple œ ne fait pas partie de ce codage et devra donc être codé œ; alors que les textes anglais peuvent provoquer des confusions entre l'apostrophe et le guillemet simple, les textes français sont souvent composés avec toute une artillerie de guillemets divers (ce texte de Simone de Beauvoir utilise les guillemets français et et ceux anglais „ et ”); la typographie française nécessite divers types d'espaces (par exemple avant le point-virgule on met une espace fine, avant le deux-points une espace justifiante, etc.) ou de tirets (par exemple ) qu'une saisie simple aurait du mal à distinguer;

Un texte TEI peut tenir compte de tous ces éléments: ce texte pourrait être codé comme suit: <p> <q rend=frdqo> C'est un mois d'octobre ... exceptionnel </q>, dit Gisèle Dufrène; ils acquiescent, ils sourient, une chaleur d'été tombe du ciel gris-bleu— <q>Qu'est-ce que les autres ont que je n'ai pas? </q> — ils caressent leurs regards á l'image parfaite qu'ont reproduite <title>Plaisir de France</title> et <title>Votre Maison</title>: la ferme achetée pour une bouchée de pain — enfin, disons, de pain brioché — et aménagée par Jean-Charles au prix d'une tonne de caviar. (<q rend=endqo>je n'en suis pas á un million près</q>, a dit Gilbert), les roses contre les murs de pierre, les chrysanthèmes, les asters, les dahlias <q rend=endqo> les plus beaux de toute l'Ile-de-France</q>, dit Dominique; le paravent et les fauteuils bleux et violet — <q>c'est d'une audace!</q> — tranchent sur le vert de la pelouse, la glace tinte dans les verres, Houdan baise la main de Dominique, très mince dans son pantalon noir et son chemisier éclatant, les cheveux pâles, mi-blonds, mi-blancs, de dos on lui donnerait trente ans. ...

Dans ce texte, on a trois types de citations: celles entre guillemets français, celles entre guillemets anglais et celles sans guillemets (par exemple c'est d'une audace!]]>). Pour les deux premiers types, on a délimité la citation par le couple de balises q et /q et au moyen de l'attribut rend on a mémorisé la nature des guillemets utilisés dans le texte imprimé (frdquo pour fr ench d ouble quo te et enddquo pour en glish d ouble quo te) de façon à pouvoir les restituer si besoin est. De même, nous supposons que c'est lors de l'édition/impression du document que l'on doit se soucier de la présence d'espaces avant les points-virgules, deux-points, etc., pas au moment de la saisie ni du traitement. Aussi codons-nous dit Dominique; et non dit Dominique_;.

Dans les documents SGML, les caractères accentués doivent être notés à l'aide d'entités (voir ) qui prévoient, par exemple, que é soit codé &eacute;. Le but de ce mécanisme est d'obtenir un document composé uniquement de caractères appartenant au jeu ISO 646-IRV (ASCII) de base, donc très facile à transmettre.

Cependant, pour des raisons de lisibilité, nous avons employé les caractères ISO 8859-1 (Latin-1) pour coder les lettres des exemples utilisant le français dans la suite de cette traduction. En réalité, il est techniquement possible d'échanger des documents SGML de cette façon, mais au prix d'une modification de la déclaration SGML qui ne peut être effectuée que par un utilisateur expérimenté et qui rend le document moins interchangeable.

Comme il a été dit dans ce Cahier (voir l'article de Jacques André sur les balises), travailler directement sur le codage TEI n'est pas chose naturelle. On écrira donc, dans les exemples qui suivent, des textes lisibles (quitte à imaginer qu'il faille passer un programme de remplacement automatique sur ces textes), comme: la ferme achetée pour une bouchée de pain — enfin, disons, de pain brioché — et aménagée par Jean-Charles au prix d'une tonne de caviar.

Balises françaises

Un autre aspect de l'utilisation du français pour la TEI est celui de la francisation des balises et attributs.

La TEI prévoit des mécanismes pour paramétrer le nom des balises et donc, si on le souhaite, utiliser des balises en français de son choix. Il y a là un compromis entre le confort d'écriture et de lisibilité pour le créateur du document et l'échangeabilité: les textes avec des balises localisées ne peuvent évidemment plus être immédiatement interprétés par d'autres. À noter que les tentatives pour franciser les langages de programmation (Basic, Pascal, etc.) n'ont jamais eu de succès, sans doute pour la raison ci-dessus… Mais enfin, avec la TEI c'est possible si on le souhaite.

Notre attitude, ici, a été de garder le nom anglais des balises dans le codage SGML des exemples, mais de proposer en cas d'ambiguïté, un équivalent français dans le texte de l'article.

Enfin, en ce qui concerne les valeurs d'attribut, nous avons parfois utilisé des chaînes françaises à la place des chaînes anglaises suggérées dans l'original, du moins lorsque la DTD le permettait (par exemple quand le type de l'attribut était CDATA).

L'ensemble de ces noms, anglais et français, se retrouve en .

Structure d'un texte TEI

Tout texte conforme à la TEI comporte un en-tête TEI (balisé comme un élément teiHeader la transcription du texte lui-même (balisé comme un élément text).

L'en-tête TEI contient des informations analogues à celles que l'on trouve sur la page de titre d'un texte imprimé. Il contient jusqu'à quatre parties: une description bibliographique du texte électronique; une description de la manière dont il a été codé; une description non-bibliographique du texte (le profil du texte); un historique de révision.

L'en-tête est décrit avec plus de détails en .

Un texte TEI peut être unitaire (une œuvre isolée) ou composite (un recueil d'œuvres, comme une anthologie). Dans un cas comme dans l'autre, le texte peut éventuellement comporter des pièces liminaires ou des annexes. Entre les deux se trouve le corps du texte qui, dans le cas d'un texte composite, peut comporter des groupes, chacun contenant encore des groupes ou des textes.

Un texte unitaire sera codé à peu près comme suit Dès cet exemple, on remarquera que les diverses lignes de ce texte-source sont indentées, c'est-à-dire qu'elles sont en retrait les unes par rapport aux autres, ce qui exhibe la structure sous-jacente; ce n'est bien sûr pas une obligation, mais une bonne façon de coder les textes-sources!: <TEI.2> <teiHeader> [ informations contenues dans l'en-tête TEI ] </teiHeader>, <text> <front>[ textes préliminaires... ] </front>, <body>[ corps du texte... ] </body> <back> [annexes... ] </back> </text> </TEI.2>

Un texte composite peut également comporter des pièces liminaires et des annexes. Entre les deux, on trouve éventuellement un ou plusieurs groupes de textes, chaque groupe ayant éventuellement ses propres pièces liminaires et annexes. Un texte composite sera donc codé à peu près comme suit: <TEI.2> <teiHeader> [ informations contenues dans l'en-tête du texte composite ] </teiHeader> <text> <front> [ textes liminaires du texte composite ] </front> <group> <text> <front>[textes liminaires du premier texte ] </front> <body> [corps du premier texte ] </body> <back>[ annexes du premier texte ] </back> </text> <text> <front>[ textes liminaires du deuxième texte ] </front> <body> [ corps du deuxième texte ] </body> <back> [ annexes du deuxième texte ] </back> </text> [ autres textes ou groupes de textes ici ] </group> <back> [ annexes du texte composite ] </back> </text> </TEI.2>

Il est également possible de définir un ensemble de textes TEI, chacun avec son propre en-tête. Un tel recueil est appelé corpus TEI (teiCorpus), et peut lui-même avoir un en-tête: <teiCorpus> <teiHeader> [ information contenue dans l'en-tête du corpus ] </teiHeader> <TEI.2> <teiHeader>[ information contenue dans l'en-tête du premier texte ] </teiHeader> <text> [ premier texte du corpus ] </text> </TEI.2> <TEI.2> <teiHeader>[ information contenue dans l'en-tête du deuxième texte ] </teiHeader> <text> [deuxiême texte du corpus ] </text> </TEI.2> </TEICorpus>

Cependant, il n'est pas possible de créer un ensemble de corpus, c'est-à-dire plusieurs éléments teiCorpus combinés les uns avec les autres et traités comme un objet unique. Ceci représente une des limites de la version actuelle des recommandations de la TEI.

Dans la suite de ce document, nous discutons surtout de structures de texte simples. Dans chaque cas, la présentation consiste en une courte liste des éléments TEI pertinents, avec une brève définition de chacun, suivies de la définition des attributs spécifiques à cet élément. Dans la plupart des cas, de brefs exemples sont également fournis.

Codage du corps du texte

Comme indiqué ci-dessus, un document TEI simple comporte, au niveau textuel, les éléments suivants: regroupe tous les éléments (en-têtes, page de titre, préfaces, dédicaces, etc.) situés avant le début du texte lui-même; regroupe plusieurs textes unitaires ou groupes de textes; regroupe le corps entier d'un texte unitaire seul, à l'exclusion de toute pièce liminaire ou annexe; regroupe toutes les annexes qui suivent le texte principal.

Les éléments spécifiques aux pièces liminaires et annexes sont décrits ci-après, en . Dans la présente section, nous présentons les éléments qui constituent le corps d'un texte.

Éléments servant à marquer les divisions de texte

Le corps d'un texte en prose peut avoir la forme d'une simple suite de paragraphes; les paragraphes peuvent également être regroupés en chapitres, sections, subdivisions, etc. Dans le premier cas, chaque paragraphe est balisé au moyen de p. Dans le second cas, l'élément body peut être divisé soit en une série d'éléments div1, soit en une série d'éléments div, l'un ou l'autre pouvant se voir subdivisé à son tour, comme nous le verrons ci-dessous: marque les paragraphes écrits en texte courant; contient une subdivision des pièces liminaires, du corps, ou des annexes d'un texte; regroupe une subdivision de premier niveau des pièces liminaires, du corps, ou des annexes d'un texte (la plus grande si div0 n'est pas employée, sinon la seconde en ordre de grandeur).

Lorsque des subdivisions structurales plus petites que div1 sont nécessaires, un div1 peut être divisé en éléments div2, et un div2 en éléments encore plus petits div3, etc., jusqu'au niveau div7. En présence de plus de sept niveaux de division structurale, il sera nécessaire soit de modifier l'ensemble du balisage TEI pour lui permettre d'accepter div8, etc., soit d'employer un élément div non numéroté: un div peut être subdivisé en de plus petits éléments div (le niveau d'imbrication n'est pas limité).

Tous ces éléments sont dotés des trois attributs suivants: indique le nom conventionnel pour cette catégorie de division de texte. Typiquement, sa valeur sera livre, chapitre, poème, etc. D'autres valeurs sont possibles: groupe pour des groupes de poèmes, etc. traités comme une seule unité, ou bien sonnet, speech, et song. À noter que toute valeur fournie pour l'attribut type du premier div, div1, div2, etc. dans un texte est supposée s'appliquer pour tous les div, div1 divn ultérieurs dans le même body. Cela implique qu'une valeur doit être donnée pour le premier élément de division de chaque type, ou lors de tout changement de valeur. spécifie un identifiant unique, spécifique à cette division, qui servira dans le cas des références croisées ou d'autres liens pointant vers cette division (par exemple un commentaire) comme c'est expliqué de façon plus détaillée en . Il est souvent utile de fournir un attribut id pour chaque unité structurale majeure d'un texte et de déterminer les valeurs de l'identifiant de façon systématique, par exemple en accolant un numéro de section à un court libellé rappelant le titre de l'œuvre en question, comme ceci est montré dans les exemples suivants. indique un nom court mnémonique ou un numéro pour la division, qui serviront à l'identifier de préférence à l'attribut id. S'il existe déjà une forme conventionnelle de référence ou d'abréviation pour les parties d'un ouvrage existant (tel que le modèle livre / chapitre / vers pour les citations bibliques), ladite forme sera enregistrée dans l'attribut n .

Les attributs id et n, sont de fait d'un intérêt si général qu'ils sont permis sur tout élément dans n'importe quelle DTD de la TEI: ce sont des attributs globaux. D'autres exemples d'attributs globaux définis dans les recommandations TEI Lite sont présentés en .

La valeur de chaque attribut id doit être unique au sein d'un document. Il existe une façon simple de s'assurer que ceci est bien le cas: faire en sorte que la valeur de l'attribut reflète la structure hiérarchique du document.

À titre d'exemple, l'ouvrage Wealth of Nations de Smith contenait dans sa première édition cinq tomes, chacun étant partagé en chapitres, certains chapitres étant eux mêmes subdivisés en parties. Nous pouvons définir les valeurs de l'attribut id pour cette structure comme suit: ... ... ... ... ... ... .... ... ]]>

Pour prendre un exemple français, les Mémoires d'outre-tombe de Chateaubriand sont divisées en parties, ces dernières étant elles mêmes subdivisées en livres et en chapitres. Nous pouvons définir les valeurs de l'attribut id pour cette structure comme suit: ... ... ... .....

... ... ..... ]]>

Les attributs id et n peuvent être traités au moyen d'un système de numérotation différent: ceci est souvent utile lorsqu'un schéma canonique de référence est employé mais que ce dernier ne concorde pas avec la structure de l'œuvre. Par exemple, dans un roman partagé en livres, chacun contenant des chapitres, ces derniers étant numérotés séquentiellement dans la totalité de l'œuvre plutôt qu'à l'intérieur de chaque livre, on pourrait employer une représentation proche de ce qui suit: ... ... ... ... ]]>

Dans cet exemple, l'œuvre comporte deux volumes, chacun contenant deux chapitres. Les chapitres sont numérotés conventionnellement de 1 à 4, mais les valeurs spécifiées pour l'attribut id leur permettent d'être considérés comme s'ils étaient également numérotés par 1.1, 1.2, 2.1, 2.2.

Têtes et fins de chapitre

Chaque div, div1 , div2, etc. peut commencer par un titre ou une tête de chapitre et se terminer (moins couramment) par une formule de fermeture tel que Fin du Chapitre Premier. De tels cas peuvent être transcrits par les éléments suivants: contient toute forme de titre, par exemple, le titre d'une section, ou l'en-tête d'une liste ou d'un glossaire; contient un formule de fin de chapitre ou un pied de page apparaissant à la fin d'une division de texte.

Certains autres éléments éventuellement nécessaires au début ou à la fin d'une division de texte sont présentés dans .

La décision d'inclure ou non les titres et formules dans une transcription appartient au transcripteur individuel. Lorsqu'un titre est tout à fait régulier (par exemple Chapitre 1) ou a été utilisé comme valeur d'attribut (par exemple div1 type='chapitre' n=1), il peut être omis; lorsqu'il contient du texte qui n'apparaît pas ailleurs, il devrait toujours être inclus. Par exemple, le début de Under the Greenwood Tree de Hardy pourrait être codé comme suit: Mellstock-Lane

To dwellers in a wood almost every species of tree ... ]]>

Pour prendre un exemple français du même genre, le début du sixième livre de Notre-Dame de Paris de Victor Hugo pourrait être codé comme suit: <div1 id=NDP6 n='VI' type='livre'> <div2 id=NDP61 n='1' type='chapitre'> <head>Coup d'œl impartial sur l'ancienne magistrature</head> <p>C'était un fort heureux personnage...

Prose, vers et art dramatique

Comme nous l'avons vu plus haut, les paragraphes constituant une division textuelle devraient être balisés à l'aide de la balise p. Par exemple:

I fully appreciate Gen. Pope's splendid achievements with their invaluable results; but you must know that Major Generalships in the Regular Army, are not as plenty as blackberries.

]]>

Un exemple français équivalent serait: <body> <p>Nous apprécions beaucoup les résultats qui ont été obtenus et nous en tiendrons compte. Il faut toutefois garder en mémoire... </p> <body>

Diverses balises sont disponibles pour coder la structure des textes poétiques ou dramatiques (les pièces de théâtre, les films, etc.): contient une seule ligne de vers, éventuellement incomplète; parmi les attributs s'appliquant à cet élément citons: indique si la ligne est un vers complet; les valeurs permises sont: si la ligne n'est pas un vers complet; si la ligne est complète, ou si aucune supposition n'est faite quant à son intégralité; pour la partie finale d'une ligne incomplète; pour la partie initiale d'une ligne incomplète; pour une partie médiane d'une ligne incomplète; contient un groupe de lignes de vers formant un tout, par exemple une strophe, un refrain, un paragraphe de vers, etc.; contient une réplique dans un texte théâtral, ou un passage présenté comme tel dans un texte de vers ou un prose; parmi les attributs de cet élément, on trouve: identifie le locuteur, en donnant son attribut id; contient une forme spéciale de titre ou d'étiquette, donnant le nom d'un ou de plusieurs locuteurs dans un texte ou un fragment de texte; contient toute sorte d'indication scénique au sein d'un texte ou d'un fragment de texte dramatique; parmi les attributs citons: indique le type d'indication scénique; les valeurs suggérées sont: entrée, sortie, mise en scène, diction, etc.

Les exemples suivants représentent le début de textes poétiques dans lequel les strophes et les lignes de vers sont balisés: I Sing the progresse of a deathlesse soule, Whom Fate, with God made, but doth not controule, Plac'd in most shapes; all times before the law Yoak'd us, and when, and since, in this I sing. And the great world to his aged evening; From infant morne, through manly noone I draw. What the gold Chaldee, of silver Persian saw, Greeke brass, or Roman iron, is in this one; A worke t'out weare Seths pillars, bricke and stone, And (holy writs excepted) made to yeeld to none, Les sanglots longs Des violons De l'automne Blessent mon cœur D'une langueurMonotone. ]]>

À noter que l'élément l marque les lignes de vers et non les lignes typographiques: le découpage typographique des premières lignes ci-dessus n'a donc pas été rendu de manière explicite par ce codage et pourrait être perdu. L'élément Ib décrit en peut être employé pour marquer des lignes typographiques si besoin est.

Quelquefois, surtout dans des textes dramatiques, les lignes de vers sont coupées entre les personnages. La façon la plus facile de coder ce phénomène est d'employer l'attribut part pour indiquer que les lignes ainsi fragmentées sont incomplètes, comme dans cet exemple: ACT I SCENE I Enter Barnardo and Francisco, two Sentinels, at several doors BarnWho's there? FranNay, answer me. Stand and unfold yourself. BarnLong live the King! FranBarnardo? BarnHe. FranYou come most carefully upon your hour. ]]>

Le même mécanisme peut être appliqué à des strophes partagées entre deux locuteurs: First voice But why drives on that ship so fast Withouten wave or wind? Second Voice The air is cut away before. And closes from behind. ]]>

L'exemple suivant indique comment coder le dialogue dans une œuvre de prose comme s'il s'agissait d'une pièce. Il illustre également l'emploi de l'attribut who pour porter un code identifiant le locuteur de la partie de dialogue en question: The reverend Doctor Opimiam

I do not think I have named a single unpresentable fish. Mr Gryll

Bream, Doctor: there is not much to be said for bream. The Reverend Doctor Opimiam

On the contrary, sir, I think there is much to be said for him. In the first place....

Fish, Miss Gryll -- I could discourse to you on fish by the hour: but for the present I will forbear... ]]>

Numérotation des lignes et des pages

Les coupures de lignes et de pages peuvent être marquées par les éléments vides suivants: marque la limite entre une page d'un texte et la suivante, dans un système de référence normalisé; marque le début d'une nouvelle ligne (typographique) dans une édition ou version donnée d'un texte.

Ces éléments marquent un endroit précis dans le texte et non une étendue de texte. L'attribut global n devrait être employé pour fournir le numéro de la page ou de la ligne commençant à la balise. En outre, ces deux éléments partagent l'attribut suivant: indique l'édition ou la version du texte dans laquelle la fin de page est située à cet endroit.

Lorsqu'on travaille à partir d'un original paginé, il est souvent utile d'enregistrer sa pagination, ne serait-ce que pour faciliter les corrections ultérieures. L'enregistrement des coupures de ligne peut être utile pour la même raison; le traitement de la division (césure) des mots en fin de ligne dans les originaux imprimés nécessitera donc une certaine considération.

Si la pagination est indiquée pour plus d'une édition, chaque édition peut être identifiée au moyen de l'attribut ed, en fournissant autant de balises que nécessaire. Par exemple, dans le passage suivant nous indiquons l'emplacement des fins de page dans deux éditions différentes (ED1 et ED2): I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and Mary approved the step unreservedly. Diana announced that she would just give me time to get over the honeymoon, and then she would come and see me. ]]>

Les élémentspb et lb sont des cas particuliers d'une classe générale d'éléments de type jalons qui servent à marquer des points de référence dans un texte. La TEI Lite inclut également un élément générique milestone qui n'est pas limité aux cas spéciaux mais peut marquer toutes sortes de point de référence: par exemple une fin de colonne, le début d'un nouveau type de section qui n'est pas balisé autrement, etc. Cet élément a la description et les attributs suivants: marque la limite entre des sections d'un texte, comme indiqué par des changements dans un système de référence standard. Les attributs sont: indique l'édition ou la version à laquelle le jalon s'applique; indique le type de section qui change à partir de cet endroit.

Les noms employés pour designer les types d'unité ainsi que les éditions désignés par ces attributs ed et unit peuvent être choisis librement, mais il convient de les expliciter dans l'en-tête.

L'élément milestone peut être employé pour remplacer les autres attributs, ou ces derniers peuvent être employés ensemble; toutefois, il convient d'éviter de les mélanger arbitrairement. Marquage d'expressions mises en valeur Changements des styles de caractères ou alternances typographiques

Par expressions ou mots mis en valeur, nous entendons ceux qui sont distingués visuellement du reste du texte, notamment par un changement de police (ou fonte), de style d'écriture ou de couleur d'encre, dans le but d'attirer l'attention du lecteur.

L'attribut global rend peut être attaché à tout élément et employé autant que nécessaire pour préciser les détails de la mise en valeur retenue. Par exemple, un titre en gras pourrait être balisé par head rend='gras' et un titre en italique par head rend='italique'.

Il n'est pas toujours possible ni souhaitable d'interpréter les raisons de telles alternances typographiques dans un texte. Dans ces cas, l'élémenthi peut être employé pour marquer une séquence de texte mise en évidence, sans formuler d'interprétation quant à son statut. marque un mot ou une expression comme étant graphiquement distinct du texte environnant, sans donner d'indication quant aux raisons de cette mise en valeur.

Dans l'exemple suivant, l'emploi d'un type de caractère distinct pour le sous-titre et pour le nom inclus est enregistré mais ne fait l'objet d'aucune interprétation: And this Inventure further witnesseth that the said Walter Shandy, merchant, in consideration of the said intended marriage ... ]]>

Alternativement, là où les raisons de la mise en valeur peuvent être identifiées de façon sûre, d'autres éléments plus spécifiques sont disponibles: marque des mots ou des expressions qui sont accentués ou mis en valeur pour des effets rhétoriques ou linguistiques; identifie un mot ou une expression comme appartenant à une langue autre que celle du texte qui l'entoure; marque des mots ou des expressions mentionnés, mais non employés; contient un mot unique, plusieurs mots ou une désignation symbolique considérée comme un terme technique; contient le titre d'une œuvre, que ce soit un article, un livre, un journal ou une série, y compris tous les sous-titres ou titres alternatifs; les attributs possibles sont: indique s'il s'agit d'un titre d'article, de livre, de journal, de série ou d'un texte non publié: les valeurs autorisées sont: pour le titre monographique (livre, collection, ou autre ouvrage publié comme une œuvre distincte, comportant des volumes uniques de travaux multivolumes); (titre de série); (titre de journal); pour le titre d'un document non publié (y compris des dissertations et des thèses, à moins qu'elles n'aient été publiées par un éditeur commercial); pour le titre analytique (article, poème ou autre œuvre publiée comme une partie d'un ouvrage plus important). classe le titre selon une typologie adéquate; des valeurs possibles sont: abbreviated, main, subordinate (pour des sous-titres et des titres de parties), parallel (pour des titres alternatifs, souvent dans une autre langue, sous lesquels l'œuvre est aussi connue).

Dans certains textes, certains éléments (notamment des citations et des gloses) peuvent être mis en évidence soit par une mise en valeur typographique, soit par l'utilisation de guillemets. Dans l'un ou l'autre cas, les éléments q et gloss (comme nous le verrons dans la section suivante) doivent être employés. Si la présentation physique doit être enregistrée, il convient d'utiliser l'attribut global rend.

Pour illustrer ces types d'éléments, examinons la phrase suivante: On the one hand the Nibelungenlied is associated with the new rise of romance of twelfth-century France, the romans d'antiquité, the romances of Chrétien de Troyes, and the German adaptations of these works by Heinrich van Veldeke, Hartmann von Aue, and Wolfram von Eschenbach. Si l'on choisit d'interpréter les raisons de la mise en valeur typographique, la phrase pourrait avoir l'aspect suivant: Nibelungenlied is associated with the new rise of romance of twelfth-century France, the romans d'antiquité, the romances of Chrétien de Troyes, ... ]]>

Si l'on choisit de décrire uniquement l'aspect de l'original, le résultat pourrait être le suivant: Nibelungenlied is associated with the new rise of romance of twelfth-century France, the romans d'antiquité, the romances of Chrétien de Troyes, ... ]]>

Citations et éléments associés

Tout comme les changements de famille de caractères, les guillemets sont conventionnellement employés pour signaler certains éléments apparaissant dans un texte, le cas le plus fréquent étant la citation. Toutefois, dans la mesure du possible, nous recommandons que l'élément logique sous-jacent soit balisé, plutôt que de se contenter d'enregistrer que des guillemets apparaissent dans le texte, ceci en employant les éléments suivants: contient une citation ou une citation apparente – la représentation d'une parole ou d'une pensée, balisée pour bien indiquer qu'il s'agit d'une citation (qu'il s'agisse réellement ou non d'une citation); dans un texte narratif, les mots sont habituellement ceux d'un personnage ou d'un locuteur; dans des dictionnaires, q peut être employé pour marquer des exemples d'usage arrangés ou réels; parmi les attributs possibles citons: peut être employé pour indiquer si le passage cité est prononcé ou simplement pensé, ou pour le caractériser plus finement: des valeurs possibles sont: spoken (pour la représentation de discours directs, marquée habituellement par des guillemets) et thought (pour la représentation de pensées, par exemple monologue intérieur); identifie le locuteur dans le cas d'un passage de discours direct; marque des mots ou des expressions mentionnés, mais non employés ; contient un mot ou une expression vis-à-vis desquels l'auteur ou le narrateur décline toute responsabilité, ce qui est en général indiqué par l'utilisation des guillemets ou de l'italique; marque un mot ou une expression qui fournit une glose ou une définition pour un autre mot ou une autre expression; parmi les attributs possibles citons: identifie l'expression ou le mot associé.

Voici un exemple simple de citation: a harmless drudge. ]]>

Pour noter la façon dont une citation a été imprimée (par exemple, sur la même ligne ou dans un pavé typographique distinct), l'attribut rend devrait être employé. Ceci sert également pour indiquer le type de guillemets employés.

Le discours direct interrompu par un narrateur peut être représenté simplement en terminant la citation et en la recommençant après l'interruption, comme dans l'exemple suivant: Who-e debel you? — he at last said — you no speak-e, damme, I kill-e. And so saying, the lighted tomahawk began flourishing about me in the dark. ]]>

S'il est nécessaire de faire comprendre que les deux éléments q se rapportent au même discours, les attributs de liaison next et prev peuvent être utilisés, comme cela est décrit dans .

Les citations peuvent être accompagnées d'une référence à la source ou au locuteur, au moyen de l'attribut who, que la source soit donnée dans le texte ou non, comme dans l'exemple suivant: Spaulding, he came down into the office just this day eight weeks with this very paper in his hand, and he says:—I wish to the Lord, Mr. Wilson, that I was a red-headed man. ]]>

Cet exemple montre aussi comment les citations peuvent être imbriqué es au sein d'autres citations: un locuteur (Wilson) cite un autre locuteur (Spaulding).

Le créateur du texte électronique doit décider si les guillemets seront remplacés par les balises ou si les balises seront ajoutées et les guillemets retenus. Si les guillemets sont ôtés du texte, l'attribut rend peut être employé pour enregistrer la façon dont ils étaient rendus dans la copie.

Comme dans le cas des mises en valeur, il n'est pas toujours possible ni souhaitable d'interpréter la fonction des guillemets dans un texte de cette façon. Dans de tels cas, la balise hi rend=quoted pourrait être employée pour marquer un texte cité, sans formuler d'interprétation quant à son statut.

Expressions ou mots étrangers

Les mots ou expressions n'appartenant pas à la langue principale du texte, peuvent être balisés comme tels de deux façons. Si le mot ou l'expression est déjà balisé pour une raison quelconque, l'élément indiqué devrait comporter une valeur pour l'attribut global lang indiquant la langue utilisée. Lorsqu'il n'y a aucun élément applicable, l'élément foreign peut être employé en utilisant de nouveau l'attribut lang. Par exemple: savoir-faire. ]]>Die Dreigroschenoper? ]]>Savoir-faire is French for know-how. ]]>mandamus. ]]>know-how en anglais! ]]>

Dans ce dernier exemple, nous supposons que la langue principale du texte est le français.

Comme le montrent ces exemples, l'élément foreign ne devrait pas être employé pour baliser des mots étrangers si un autre élément plus spécifique tel que title, mentioned ou terme peut s'appliquer. L'attribut global lang peut être attaché à tout élément, pour montrer qu'il est écrit dans une autre langue que celle du texte dans lequel il se trouve. Notes

Toutes les notes, qu'elles soient imprimées comme des notes de bas de pages, des annotations de fin d'ouvrage ou de chapitre, des notes marginales, ou sous une autre forme, devraient être marquées au moyen du même élément: contient une note ou une annotation. Parmi les attributs citons: décrit le type de la note; indique le responsable de l'annotation: l'auteur, le rédacteur, le traducteur, etc.; la valeur pourrait être author,editor, etc., ou les initiales de la personne qui a ajouté l'annotation; indique l'emplacement de l'annotation dans le texte source; des valeurs possibles sont: inline (sur la ligne), interlinear (interlinéaire), left (gauche), right (droit), foot (pied de page) et end (fin), valeurs qui indiquent respectivement que les notes paraissent comme des paragraphes marqués dans le corps du texte, entre les lignes, dans la marge gauche ou droite, en bas de la page, ou à la fin du chapitre ou du volume; indique le point d'attachement d'une note, ou le début du passage auquel la note est attachée; indique la fin du passage auquel la note est attachée, si la note n'est pas insérée dans le texte à cet endroit; indique si la copie donne l'endroit exact de référence pour la note.

Dans la mesure du possible, le corps d'une note devrait être inséré dans le texte au même endroit que celui de son identifiant ou marqueur. Ceci peut ne pas être possible, par exemple dans le cas de notes marginales qu'il peut être difficile d'ancrer à un emplacement exact. Pour la simplicité, il convient de placer les notes marginales avant le paragraphe (ou autre élément) correspondant. Les notes peuvent également être placées dans une division séparée du texte (comme les notes de fin le sont dans des livres imprimés) et liées à la portion pertinente du texte au moyen de leur attribut target.

Si nécessaire, l'attribut n peut être employé pour donner le numéro ou l'identifiant d'une note. Voir le second exemple L'attribut resp devrait être employé de façon systématique pour distinguer les notes d'auteur et d'éditeur, si l'œuvre comporte ces deux sortes de note; autrement, l'en-tête TEI devrait indiquer leur type.

Voici quelques exemples: We explain below why we use the uncommon term collection instead of the expected set. Our usage corresponds to the aggregate of many mathematical writings and to the sense of class found in older logical writings. The elements ...

Voir le second exemple Si nécessaire, l'attribut ... devrait indiquer leur type.

]]>

Références croisées et liens

Il est possible de coder les références croisées, ou des liens explicites entre des points différents d'un même document SGML, au moyen des éléments décrits en . Les références ou liens vers des éléments situés dans un autre document SGML, ou vers des parties de documents non-SGML, peuvent être codés au moyen des pointeurs étendus TEI décrits en . Les liens implicites (telle l'association entre deux textes parallèles ou celle entre un texte et son interprétation) peuvent être codés au moyen des attributs de liaison expliqués en . Références croisées simples

Une référence croisée reliant deux endroits situés dans le même document peut être codée au moyen de l'un ou l'autre des éléments suivants: référence à un autre emplacement dans le document courant, en termes d'un ou plusieurs éléments identifiables, le tout pouvant éventuellement être modifié par un commentaire ou du texte supplémentaire; pointeur vers un autre emplacement dans le document courant, en termes d'un ou plusieurs éléments identifiables.

Ces éléments partagent les attributs suivants: indique la destination du pointeur en termes d'un ou plusieurs identifiants SGML; catégorise le pointeur d'une manière quelconque, au moyen de tout ensemble de catégories approprié; indique le ou les types d'éléments désignés par ce pointeur; indique la date de création du pointeur; indique le créateur du pointeur.

La différence entre ces deux éléments est que ptr est un élément vide qui marque simplement un endroit à partir duquel un lien est à créer, tandis que ref peut contenir également du texte – typiquement le texte de la référence croisée elle-même. L'élément ptr serait plutôt employé pour une référence croisée signalée par des dispositifs non-verbaux tels qu'un symbole ou une icône, ou dans un texte électronique par un bouton. Il sert également dans des systèmes de production de document, où le logiciel de formatage a la possibilité de générer la forme verbale correcte de la référence croisée.

Les deux formes présentées ci-après, par exemple, sont logiquement équivalentes (en supposant que nous avons documenté ailleurs la forme verbale exacte des références croisées représentées par les éléments ptr): la section 12, page 34. Voir notamment . ]]>

la valeur de l'attribut target doit être un identifiant SGML dans le document SGML courant. Ceci implique que le passage ou l'expression pointé doit porter un identifiant, et donc être balisé comme un élément d'un certain type. Dans l'exemple suivant, la référence croisée pointe vers un élément div1: . ... En ce qui concerne les identificateurs ... ]]>

Puisque l'attribut id est global, tout élément dans un document peut être pointé de la même façon. Dans l'exemple suivant, un paragraphe a été pourvu d'un identifiant pour qu'on puisse pointer sur lui: ... on en reparlera dans <ref target=pspec>la section sur les liens</ref> ... <p id=pspec>Les liens peuvent être composés de n'importe quel type d'éléments ...

Il est possible d'utiliser l'attribut targType pour préciser que l'élément pointé doit être d'un type particulier, comme dans l'exemple qui suit. la section sur les liens ]]>

Cette référence devrait échouer si l'élément portant l'identifiant dspec n'est ni un div1 ni undiv2. à noter cependant que cette vérification ne peut être effectué par un analyseur syntaxique SGML seul puisque ce dernier ne peut que vérifier l'existence d'un élément dspec donné.

L'attribut type peut être employé pour catégoriser le lien représenté par le pointeur, par tout moyen approprié. Les attributs resp et crDate peuvent également être utilisés pour identifier la personne ou l'entité responsable de la création du lien, ainsi que la date de création de ce dernier, comme dans l'exemple suivant: la section sur les liens ]]>

Selon toute vraisemblance, ces attributs seront les plus utiles dans des systèmes hypertextes contenant de nombreux pointeurs ayant de multiples fonctions et créés par toute sorte de moyens.

Parfois, la cible d'une référence croisée ne correspond à aucune caractéristique particulière d'un texte, et ne peut donc pas être balisée comme étant d'un certain type d'élément. Si la cible désiré e est simplement un endroit dans le document courant, la façon la plus facile de le marquer est d'introduire un élément anchor à l'endroit correspondant. Si la cible est une séquence de mots non balisée autrement, l'élémentseg (segment) peut être introduit pour la marquer. Ces deux éléments sont décrits comme suit: indique un emplacement ou un endroit sur lequel on peut pointer dans un document; identifie un passage ou un segment de texte au sein d'un document, sur lequel on peut pointer; exemple d'attribut: catégorise le segment.

Dans l'exemple (imaginaire) suivant, des éléments ref ont été employés pour représenter des points dans le texte devant être attachés d'une certaine manière à d'autres parties du texte, un point précis dans le premier cas et une séquence de mots dans le second: Si je reviens sur <ref target=ABCD>le passage sur lequel je me suis endormi</ref>, je note que <ref target=EFGH>trois mots</ref> ont été entourés de rouge par un précédant lecteur.

Ce codage nécessite que des éléments ayant les identifiants spécifiés (ABCD et EFGH dans cet exemple) existent quelque part ailleurs dans le document courant. En supposant qu'aucun élément n'existe déjà pour porter ces identifiants, les éléments anchor et seg (segment) peuvent être employés: .... .... ... ... ]]>

L'attribut type devrait être employé (comme ci-dessus) pour préciser les différents rôles de ces éléments généraux dans un texte. D'autres applications sont présentées ci-après en .

Pointeurs étendus

Les éléments ptr et ref servent uniquement pour des références croisées ou des liens dont les cibles se trouvent dans le même document SGML que leur source. En outre, ils ne peuvent indiquer que des éléments SGML. Les éléments présentés dans la présente section ne sont pas limités de cette façon. définit un pointeur vers un autre emplacement dans le document courant ou dans un document externe; définit un pointeur vers un autre emplacement dans le document courant ou dans un document externe, modifié éventuellement par un commentaire ou un texte supplémentaire.

En plus des attributs applicables aux pointeurs présentés dans ci-dessus, ces éléments partagent les attributs supplémentaires suivants, dont le but est de spécifier la cible de la référence croisée ou du lien, au lieu de l'attribut target: indique le document dans lequel l'emplacement requis doit être trouvé; par défaut, c'est le document courant; indique le début de la destination du pointeur, sous forme d'une expression dans la syntaxe du pointeur étendu TEI: par défaut, c'est l'ensemble du document indiqué par l'attribut doc; indique le point final de la destination du pointeur, sous forme d'une expression dans la syntaxe du pointeur étendu TEI; cet attribut ne peut être spécifié que si l'attribut from l'a été.

Une spécification complète du langage formel employé pour exprimer la cible des pointeurs étendus TEI dépasserait les limites de ce document; nous nous bornerons donc à indiquer seulement quelques-unes des caractéristiques les plus généralement utiles. Pour plus de détails, il convient de consulter la version complète des recommandations de la TEI.

Un élément xptr (ou xref) peut indiquer l'ensemble d'un autre document simplement en donnant un nom d'entité comme valeur de l'attribut doc, comme dans cet exemple: The TEI Guidelines, passim ]]>

Cet exemple suppose qu'une entité système ou publique avec le nom P3 a été déclarée. Cette déclaration peut être placée dans le fichier d'extension litemods.ent ou effectuée par une autre méthode spécifique au logiciel auteur SGML employé – voir .

L'attribut from est employé pour préciser un emplacement donné au sein du document spécifié par l'attribut doc. La spécification utilise un langage spécial, appelé syntaxe du pointeur étendu TEI, dont seulement quelques détails sont donnés ici. Dans ce langage, les emplacements sont définis comme une série de pas (steps), chacun identifiant une certaine partie du document, souvent en termes des emplacements identifiés par le pas précédent. Par exemple, on pointera vers la troisième phrase du deuxième paragraphe du chapitre deux en sélectionnant le chapitre deux dans le premier pas, le deuxième paragraphe dans le deuxième pas, et la troisième phrase dans le dernier pas. Un pas peut être défini en termes de concepts SGML (tels que parent, descendant, précédant, etc.) ou, plus vaguement, en termes de structure de texte, de positions de mots ou de caractères. On peut également utiliser une notation étrangère (non-SGML), ou préciser un emplacement dans un graphique en termes de son système de coordonnées.

Les attributs from et to utilisent la même notation. Chacun indique une certaine portion du document cible; le pointeur étendu dans son ensemble indique la section qui commence au début de from et qui se termine à la fin de to.

La première étape du chemin vers un emplacement sera souvent de spécifier l'identifiant d'un certain élément dans le document cible, comme dans cet exemple: ]]>

Ceci sélectionne l'ensemble de l'élément qui porte l'identifiant SA à l'intérieur de l'entité P3. Si une cible plus fine est nécessaire, d'autres pas peuvent suivre. Les mots clés suivants sont disponibles afin de permettre la sélection d'autres éléments en termes de leur relation avec un élément identifié lors du pas précédent: éléments contenus par cet élément; éléments englobant cet élément, directement ou indirectement; éléments ayant le même parent que cet élément mais situés avant dans le document; éléments ayant le même parent que cet élément mais situés après dans le document; éléments dans le document qui commencent avant cet élément, indépendamment de leurs parents; éléments dans le document qui commencent après cet élément, indépendamment de leurs parents.

Chacun de ces mots clés implique un ensemble particulier d'éléments (un ensemble d'enfants, un ensemble d'ancêtres, un ensemble de descendants, etc.). Afin de préciser lequel des éléments d'un ensemble est pointé, le mot clé peut éventuellement être suivi d'une liste entre parenthèses contenant: un nombre positif ou négatif, indiquant lequel des nombreux éléments éventuellement trouvés est le bon (+1 indiquant le premier élément rencontré, commençant à l'emplacement actuel, et $-$1 indiquant le dernier), ou le mot clé all (tous) indiquant que tous les éléments dans l'ensemble doivent être pointés; un identifiant générique, indiquant le type d'élément requis, ou une étoile ☆ indiquant que n'importe quel type d'élément fait l'affaire; un ensemble de noms et de valeurs d'attribut, indiquant que l'élément sélectionné devrait avoir des attributs ayant les noms et les valeurs spécifiés, s'il en existe.

En reprenant l'exemple ci-dessus, la référence suivante sélectionne le troisième élément p contenu directement par tout élément ayant l'identifiant SA: ]]>

De la même manière, en supposant que l'entité P3 est en fait une référence à la version SGML des recommandations de la TEI, alors la référence suivante sélectionne la section 14.2.2 de cette publication qui se trouve être celle où la syntaxe du pointeur étendu est formellement définie: Pour plus de détails, voir <ref doc=P3 from='id (SA) child (2 div2) child (2 div3)'> TEI Extended pointer syntax definition </ref>

Normalement, l'étendue d'une référence croisée est suffisamment définie par l'attribut from. Pour certains documents cependant, il peut être plus commode de définir une plage de début et une plage de fin. Comme indiqué ci-dessus, l'attribut to est fourni dans ce but. Par exemple: ]]>

est un pointeur étendu dont la cible est la séquence qui commence au début de l'un quelconque des éléments du document P1 ayant l'identifiant XYZ, et se terminant à la fin de n'importe quel élément du même document ayant l'identifiant ABC. Tout élément se trouvant dans l'intervalle est également inclus, indépendamment de sa structure. Le pointeur est erroné si la fin de ABC précède le début de XYZ.

L'utilisation de cette syntaxe permet la construction facile de spécifications très complexes. Par exemple, la référence suivante sélectionne l'élément head le plus proche ayant un attribut lang avec la valeur LAT, et apparaissant avant le début de l'élément ayant l'identifiant SA: ]]>

Si aucune valeur n'est fournie pour l'attribut doc , on suppose qu'il s'agit du document courant. Ainsi, les références suivantes sont sémantiquement équivalentes. Les deux indiquent l'élément ayant l'identifiant X1 dans le document courant: ]]>

Attributs de liaison

Les attributs de liaison spécifiques suivants ont été définis pour chaque élément de la DTD TEI Lite: relie un élément à son interprétation; relie un élément à un ou plusieurs autres éléments correspondants; relie un élément au prochain élément dans un agrégat; relie un élément à l'élément précédent dans un agrégat.

L'attribut ana (analyse) est destiné à être utilisé lorsqu'un ensemble d'interprétations ou d'analyses abstraites a été défini quelque part dans un document, comme nous le verrons de façon plus détaillée en Par exemple, une analyse linguistique de la phrase John aime Nancy pourrait être codé comme suit: John aime Nancy ]]>

Ce codage implique l'existence, ailleurs dans le document, d'éléments ayant les identifiants SVO, NP1, et VV1 où la signification de ces codes particuliers est expliquée. On notera l'emploi de l'élément seg (segment) pour marquer des composants particuliers de l'analyse, différenciés par l'attribut type.

L'attribut corresp (correspondant) est un moyen simple de représenter une certaine forme de correspondance entre deux éléments dans un texte. Par exemple, dans un texte plurilingue, il peut être employé pour relier les diverses traductions d'un même passage, comme dans l'exemple suivant: Jean aime Nancy John loves Nancy ]]>

Le même mécanisme peut être employé à beaucoup d'autres fins. Dans l'exemple suivant, il est employé pour représenter des correspondances anaphoriques entre the show et Shirley, et entre NBC et network: Shirley, which made its Friday night debut only a month ago, was not listed on NBC's new schedule, although the network says the show still is being considered. ]]>

Les attributs next et previous sont un moyen simple de relier les composants d'un élément discontinu, comme dans l'exemple suivant: Who-e debel you? &mdash he at last said &mdash you no speak-e, damme, I kill-e. And so saying, the lighted tomahawk began flourishing about me in the dark. ]]>

Interventions éditoriales

Le codage d'un texte électronique a beaucoup de points communs avec l'édition d'un manuscrit ou d'un texte destiné à être imprimé. Dans les deux cas, un éditeur consciencieux peut vouloir enregistrer l'état originel de la source ainsi que toutes les corrections éditoriales ou les modifications qui y ont été apportées. Les éléments présentés dans cette section et la suivante fournissent quelques ressources permettant de répondre à ces besoins. Le couple d'éléments suivant peut être employé pour marquer une correction, c'est-à-dire des changements éditoriaux introduits aux endroits où le rédacteur croît rencontrer une erreur dans l'original: contient la forme correcte d'un passage apparemment erroné dans la copie; parmi les attributs, citons: donne la forme originelle de l'erreur supposé dans la copie; identifie l'éditeur ou le transcripteur ayant proposé la correction contenue par l'élément corr; signifie le degré de certitude attribué à la correction contenue par l'élément corr; contient le texte reproduit bien qu'apparemment incorrect ou inexact; parmi les attributs possibles, citons: donne une correction pour l'erreur apparente dans la copie; identifie le rédacteur ou le transcripteur ayant suggéré la correction; signifie le degré de certitude attribuée à la correction.

Le couple d'éléments suivant peut être employé pour marquer la normalisation, c'est-à-dire des changements éditoriaux introduits pour des raisons de cohérence ou pour transcrire le texte sous une forme plus lisible pour un lecteur moderne: contient la forme originelle d'une lecture, pour laquelle une forme régularisée est donnée dans une valeur d'attribut; parmi les attributs possibles, citons: donne une forme régularisée (normalisée) du texte; identifie la personne responsable de la régularisation du mot ou de l'expression; contient une lecture qui a été régularisée ou normalisée dans un certain sens; parmi les attributs possibles, citons: donne la forme non régularisée du texte telle qu'elle apparaît dans l'original; identifie la personne responsable de la régularisation du mot ou de l'expression.

Par exemple, la lecture: ... for his nose was as sharp as a pen and a' table of green feelds comporte selon Gifford la substitution erronée de table pour babbled, et les orthographes non-standard a' et feelds pour he et fields.

Donc, la conjecture de Gifford pourrait être codée ainsi: he babbl'd of green fields ]]>

Omissions, effacements et ajouts

Outre la correction ou la normalisation des mots et des expressions, les rédacteurs et les transcripteurs peuvent aussi ajouter du texte dans des passages lacunaires, ôter du texte, ou encore transcrire du texte effacé ou biffé dans l'original. En outre, un texte donné peut être particulièrement difficile à transcrire car difficile à déchiffrer dans la page. Les éléments suivants peuvent être employés pour enregistrer de tels phénomènes: contient des lettres, mots ou expressions insérés dans le texte par un auteur, scribe, annotateur ou correcteur; parmi les attributs possibles, citons: si l'ajout est écrit dans la copie, il indique l'emplacement du texte supplémentaire. Des exemples de valeurs possibles sont inline (sur la ligne), supralinear (au dessus de la ligne), infralinear (sous la ligne), left (dans la marge gauche), right (dans la marge droite), top (au dessus), bottom (en dessous), etc. indique un endroit où du texte a été omis dans une transcription, que ce soit pour des raisons éditoriales décrites dans l'en-tête TEI, (dans la section décrivant les principes de sélection), ou parce que l'original est illisible ou inaudible; parmi les attributs possibles, citons: donne une description du texte omis; indique l'éditeur scientifique, le transcripteur ou l'encodeur ayant pris la décision de ne pas fournir une transcription du texte, d'où l'application de la balise gap. contient une lettre, un mot ou un passage effacé, marqué comme effacé, sinon indiqué comme étant superflu ou erroné dans la copie par un auteur, scribe, annotateur ou correcteur; parmi les attributs possibles, citons: classe le type d'effacement selon une typologie appropriée; peut être employé pour indiquer des effacements erronés, par exemple des raturages comportant trop de texte ou pas assez de texte; désigne la main de l'agent qui a effectué l'effacement. contient un mot, une expression ou un passage qui ne peut pas être transcrit avec certitude parce qu'il est illisible ou inaudible dans la source; parmi les attributs possibles, citons: indique la raison pour laquelle le passage est difficile à transcrire; indique la personne responsable de la transcription de la lettre, du mot ou du passage contenu dans l'élément unclear.

Ces éléments peuvent être employés pour enregistrer des changements effectués par un éditeur, par le transcripteur ou (dans la source manuscrite) par l'auteur ou le scribe. Par exemple, si la source d'un texte électronique est: Les éléments suivants sont proposés pour pour noter des interventions du transcripteur. alors il pourrait être souhaitable de corriger l'erreur évidente, tout en enregistrant l'effacement du deuxième pour superflu, ainsi: Les éléments suivants sont proposés pour <del hand=LB>pour</del> noter des interventions du transcripteur.

La valeur d'attribut LB sur l'attribut hand indique que LB a corrigé la duplication du mot pour.

Si la source était: Les éléments suivants proposés pour pour noter des interventions du transcripteur.

(si le verbe avait été oublié par inadvertance), alors le texte lui-même pourrait se lire: Les éléments suivants <add hand=LB>sont</add> proposés pour <del hand=LB>pour</del> noter des interventions du transcripteur.

Ces éléments ne sont pas limités aux changements faits par un éditeur; ils peuvent aussi être employés pour enregistrer des changements dus à l'auteur dans des manuscrits. Un manuscrit {(cité par Almuth Grésillon, Éléments de critique génétique, PUF, 1994 p. 132–133)} dans lequel Proust a d'abord écrit Bientôt la lumière sous la porte s'éteint et il retombe dans l'obscurité. puis biffé il retombe et inséré en-dessous tout rentre pourrait être codé ainsi: Bientôt la lumière sous la porte s'éteint et <del hand=PROUST type=overstrike>il retombe</del> <add hand=PROUST place=infralinear> tout rentre</add> dans l'obscurité.

De la même manière, les éléments unclear et gap peuvent être employés ensemble pour indiquer l'omission d'un passage illisible; l'exemple suivant montre aussi l'emploi de add pour une correction conjecturale: & instantly, would aid me signally in? an enterprise against Wilmington. ]]>

L'élément del identifie les passages qui sont transcrits dans le texte électronique bien qu'ils soient marqués comme étant effacés, tandis que gap marque l'emplacement d'un passage qui est omis du texte électronique, qu'il soit lisible ou non. Un corpus contenant des passages en plusieurs langues, par exemple, pourrait omettre des citations longues dans des langues étrangères: ... An example of a list appearing in a fief ledger of Koldinghus 1611/12 is given below. It shows cash income from a sale of honey.

A description of the overall structure of the account is once again ...

]]>

D'autres corpus (notamment ceux qui ont été créés avant l'emploi généralisé du lecteur optique) omettent systématiquement les schémas et les parties mathématiques: <p>En avant du puzzle ... Un des classeurs est ouvert sur une page en partie couverte d'équations transcrites d'une écriture fine et serrée: <gap desc='demonstration morphisme' reason='maths'> </p>

Noms, dates, chiffres et abréviations

La TEI définit des éléments pour un grand nombre de types de données spéciales que l'on peut rencontrer presque partout dans des textes de toutes sortes. Ces types de données peuvent être d'un intérêt particulier dans tout un éventail de disciplines. Ils se réfèrent tous à des objets externes au texte lui-même (noms de personnes et de lieux, chiffres, dates). Ils posent toutefois des problèmes particuliers à beaucoup d'applications de traitement du langage naturel (NLP), à cause des formes variées sous lesquelles ils peuvent apparaître dans les textes. Les éléments décrits dans le présent chapitre, en rendant ces types de données explicites, facilitent le traitement des textes qui les contiennent. Noms et chaînes de caractère de référence

Une chaîne de référence (referring string) est une expression qui se réfère à une personne, un endroit, un objet donné, etc. Deux éléments sont fournis pour marquer de telles chaînes: contient une chaîne de référence ou un nom général; parmi les attributs possibles, citons: indique plus spécifiquement l'objet auquel la chaîne se réfère. Des exemples de valeurs sont: personne, endroit, navire, élément, etc. contient un nom propre ou une proposition substantive; parmi les attributs possibles, citons: indique le type d'objet qui est nommé par l'expression.

L'attribut type est employé pour distinguer (par exemple) entre des noms de personnes, d'endroits ou d'organisations, dans les cas où cela est possible: My dear Mr. Bennet, said his lady to him one day, have you heard that Netherfield Park is let at last? ]]> Circumlocution Office never, on any account whatsoever, to give a straightforward answer, Mr Barnacle said, Possibly. ]]>

Comme le montrent les exemples suivants, l'élément rs peut être employé pour toute référence à une personne, un endroit, etc., qui n'est pas forcément un nom propre ou une proposition substantive: My dear Mr. Bennet, said his lady to him one day... ]]> <q>Peu après son installation <rs type=lieu>rue Simon- Crubelier</rs>, <rs type=personne>Maurice Réol</rs>, qui était <rs type=metier>aide-rédacteur</rs> à la <rs type=organisation>CAMPA</rs> ...

L'élément name, au contraire, est prévu pour le cas spécial des chaînes de référence contenant uniquement des noms propres; il peut être utilisé de la même façon que l'élément rs, ou imbriqué au sein de celui-ci si une chaîne de référence contient un mélange de noms communs et de noms propres.

Le simple fait de baliser un objet en tant que nom ne suffit généralement pas pour permettre le traitement automatique des noms de personnes afin d'obtenir les formes canoniques généralement requises à des fins de référence. Un nom tel qu'il apparaît dans le texte peut être orthographié de façon incohérente, ou être partiel ou flou. Qui plus est, des particules de noms tel que van ou de la peuvent ou non être incluses dans la forme de référence d'un nom. Ceci dépend de la langue et du pays de celui qui porte le nom en question.

Les attributs suivants sont également disponibles pour ces éléments et pour des éléments similaires, afin de surmonter ces difficultés: fournit un autre identifiant pour l'objet nommé, telle qu'une clé d'un enregistrement de base de données; donne une forme régularisée ou normalisée du nom utilisé.

L'attribut key peut être un moyen utile pour rassembler toutes les références se rapportant à la même personne ou au même emplacement éparpillés à travers un document: My dear Mr. Bennet, said his lady to him one day, have you heard that Netherfield Park is let at last? ]]>

Cette utilisation devrait être distinguée du cas de l'attribut reg (régularisation), qui permet de marquer la forme standard d'une chaîne de référence, comme ci-dessous: Walter de la Mare was born at Charlton, in Kent, in 1873. ]]>

On peut aussi baliser de façon plus détaillée les composants de noms propres, en utilisant le jeu de balises supplémentaires traitant les noms et les dates.

Dates et heures

Les balises suivantes permettent un codage plus détaillé des dates et de l'heure: contient une date dans n'importe quel format; parmi les attributs possibles, citons: indique le système ou le calendrier auquel la date se rattache; donne la valeur de la date sous une forme standard, habituellement aaaa‐mm‐jj; contient une expression définissant une heure du jour dans n'importe quel format; parmi les attributs possibles, citons: donne la valeur de l'heure sou