TEI Lite:

Una introducción al
Text Encoding for Interchange



Lou Burnard

C. M. Sperberg-McQueen

Documento no: TEI U 5
Junio de 1995



Traducido por

Manuel Sánchez Quero

Biblioteca Virtual Miguel de Cervantes
Universidad de Alicante
España

Septiembre de 2001





Existe una versión en SGML de este documento para bajar en . También existe una versión en HTML de este documento dividida en varios archivos (para una consulta más rápida) en .





Índice

 



     Este documento constituye una introducción a las recomendaciones del Text Encoding Initiative (TEI), ya que describe un subconjunto controlable del esquema de etiquetado completo del TEI. El esquema documentado aquí puede emplearse para etiquetar una amplia variedad de características textuales comunes, de tal modo que maximice la utilidad de las trascripciones electrónicas y que facilite su intercambio entre estudiosos que empleen diferentes sistemas informáticos. También es totalmente compatible con el esquema del TEI completo tal y como está definido en el TEI documento P3, Guidelines for Electronic Text Encoding and Interchange, publicado en Chicago y Oxford en mayo de 1994. Se pueden encontrar copias de esta versión de este texto a través de la World Wide Web en y , así como en otros sitios. El documento también está disponible en formato HTML en y . Se pueden encontrar copias de la definición del tipo de documento en SGML para el conjunto de etiquetas descrito aquí en las mismas direcciones, bajo el archivo llamado teilite.dtd: , y .





1 Introducción

     Las Normas del Text Encoding Initiative (TEI) están dirigidas a cualquier persona que quiera intercambiar información almacenada en un formato electrónico. En ellas se enfatiza el intercambio de información textual, pero también se hace referencia a otras formas de información como son las imágenes y el sonido. Las Normas son del mismo modo aplicables a la creación de nuevos recursos y al intercambio de los ya existentes.

     Las Normas proporcionan un medio para hacer explícitos ciertos rasgos de un texto de tal modo que faciliten el procesamiento de dicho texto por programas informáticos ejecutados desde diferentes máquinas. Esto es lo que se denomina marcado o codificado. Cualquier representación textual en un ordenador utiliza algún tipo de marcado; el TEI aparició, en parte, debido a la gran variedad de esquemas de codificación mutuamente incomprensibles que abundan actualmente en los ámbitos de estudio, y en parte, debido a la creciente variedad de usos que están siendo identificados para los textos en formato electrónico.

     Las Normas TEI usan el Standard Generalized Markup Language (SGML) para definir su esquema de codificación. SGML es un estándar internacional (ISO 8879), usado cada vez más por todas las industrias de procesamiento de información, que posibilita una definición formal de un esquema de codificación, en función de elementos y atributos, y reglas que controlan su aparición en un texto. El uso que hace el TEI del SGML es ambicioso en su complejidad y generalidad, pero fundamentalmente no es diferente del de cualquier otro esquema de marcado en SGML. Por lo tanto, cualquier programa preparado para SGML puede procesar los textos que cumplan el TEI.

     El TEI está patrocinado por la Association for Computers and the Humanities, la Association for Computational Linguistics, y la Association for Literary and Linguistic Computing. La financiación ha sido facilitada, en parte, por el U.S. National Endowment for the Humanities, Directorate General XIII of the Commission of the European Communities, la Fundación Andrew W. Mellon, y el Social Science and Humanities Research Council of Canada. Sus Normas fueron publicadas en mayo de 1994, tras seis años de desarrollo donde participaron cientos de estudiosos de diferentes disciplinas académicas de todo el mundo.

     Al comienzo de este trabajo, los objetivos generales del TEI fueron definidos por la declaración de clausura de una conferencia de organización que tuvo lugar en Vassar College, N.Y., en noviembre de 1987; estos principios 'Poughkeepsie' fueron más tarde elaborados en series de documentos de diseño. Las Normas, según estos documentos, deben:

  • ser suficientes para representar los rasgos textuales necesarios para la investigación;
  • ser sencillas, claras y concretas;
  • ser fáciles para los investigadores para que las usen sin ningún programa específico;
  • permitir la definición rigurosa y el procesamiento eficaz de los textos;
  • prevenir las extensiones definidas por los usuarios;
  • ajustarse a los estándares existentes y en desarrollo.

     El mundo de estudio es amplio y diverso. Para que las Normas sean aceptadas era importante asegurar que:

  1. el núcleo común de los rasgos textuales fuera fácilmente compartido;
  2. otros rasgos específicos fueran añadidos (o eliminados) fácilmente a un texto;
  3. fueran posibles múltiples codificaciones semejantes de un mismo rasgo;
  4. la riqueza del marcado debía ser definida por el usuario, con un mínimo nivel de exigencia;
  5. una adecuada documentación del texto y de su codificación debía ser suministrada.

     Este documento describe una manejable selección del extenso conjunto de elementos SGML y recomendaciones resultantes de aquellos objetivos de diseño. Esta selección es el llamado TEI Lite.

     Al seleccionar de los varios cientos de elementos SGML definidos por el TEI completo, hemos tratado de identificar un 'conjunto inicial' que recoja los elementos que casi cualquier usuario debería conocer. La experiencia al trabajar con el TEI Lite será de gran valor para entender la DTD del TEI completo y para conocer qué partes opcionales de la DTD completa son necesarias para trabajar con tipos de textos específicos.

     Nuestros objetivos al definir este subconjunto se puede resumir del siguiente modo:

  • debe incluir la mayoría de las etiquetas principales del TEI, ya que estas contienen elementos importantes para todos los tipos de textos y todos los tipos de trabajo de procesamiento de los textos;
  • debe poder manejar correctamente una variedad de textos bastante amplia, a un nivel de detalle que se dé en la práctica real (tal y como ocurre en, por ejemplo, las bases del Oxford Text Archive);
  • debe ser útil para la producción de nuevos documentos así como para etiquetar los ya existentes;
  • debe ser utilizable por la mayoría de los programas de SGML ya existentes;
  • debe poder ser obtenido de la completa TEI DTD empleando los mecanismos de extensión descritos en las Normas del TEI;
  • debe ser lo más reducido y sencillo posible siempre y cuando sea coherente con los otros objetivos.

     El lector puede juzgar por sí mismo nuestro éxito en la consecución de estos objetivos. A la hora de escribir, estamos seguros de haberlo conseguido, al menos en parte, por su uso en la práctica de etiquetado de textos reales. El Oxford Text Archive usa el TEI Lite cuando traduce sus textos de su esquema de marcado original a SGML; el Electronic Text Centers de la Universidad de Virginia y la Universidad de Michigan han usado el TEI Lite para marcar sus textos. Y la propia Text Encoding Initiative utiliza el TEI Lite, para su documentación técnica --- incluyendo este documento.

     Aunque hemos tratado de hacer este documento independiente, como un tutorial, el lector debe ser consciente de que este no cubre todos los detalles del esquema de marcado del TEI. Todos los elementos descritos aquí están totalmente documentados en las Normas del TEI, que deben ser consultadas para mayor información sobre los aspectos tratados, y no tratados, aquí. Se presupone un conocimiento básico de SGML.





2 Un pequeño ejemplo

     Empezaremos con un pequeño ejemplo, que trata de mostrar lo que ocurre cuando un fragmento de prosa es escrito en un ordenador por alguien con poco conocimiento del propósito del marcado o del potencial de los textos electrónicos. En un mundo ideal, este resultado debería conseguirse con un apropiado escáner óptico. Trata de ser fiel al aspecto del texto impreso, conservando los fines de línea, insertando espacios en blanco para representar el formato de los títulos originales, de los finales de página, etc. En el caso de caracteres que no están en el teclado (como las letras acentuadas, la ñ o la raya de los diálogos), trata de imitar su forma.

                         Capi'tulo XVIII

     Veamos ahora lo que paso' aquella noche. Jenara tomo' asiento 

en el despacho del sen-or D. Felici'simo, y Pipao'n, acerca'ndose a este, 

le hablo' un poco al oi'do para contarle lo que a la dama le pasaba. A 

cada dos palabras que oi'a, D. Felici'simo articulaba una especie de chi-

llido, un ji ji, que ma's teni'a de suspiro que de interjeccio'n y que al 

mismo tiempo expresaba hipo y burla.



     --Bueno, bueno --murmuro' el anciano moviendo la cabeza en adema'n 

de conciliacio'n--.





                                                                  178



En mi casa no sera' molestada; yo le respondo de que no sera' molestada, 

ji ji.



     --Gracias --dijo la dama secamente tratando de darse aire con 

los restos de su abanico.



     --El Sr. D. Miguel de Baraona y yo fuimos muy amigos --an-adio' Car-

nicero, volviendo a Jenara su faz plana, fri'a, sin expresio'n de senti-

miento alguno--, pero muy amigos. Cuando aquellas cuestiones de la Santa 

Iglesia Colegial de Vitoria con los Cano'nigos cuartos de frutos de 

Calahorra, vino aqui' don Jose' Marque's, cano'nigo entero, D. Vicente Mora-

les, racionero medio y D. Andre's de Baraona, cano'nigo cuarto de opta-

cio'n, hermano de su abuelo de usted que tambie'n vino. Yo le consegui' el 

arcedianato de Berberiega para su primo. ¡Cua'ntas tardes pasamos juntos 

en este despacho hablando de sermones y Toros! Era en los tiempos de Pedro 

Romero y dicho se esta' que habi'a materia para dos buenos aficionados como 

nosotros. Si el sen-or de Baraona viviera se acordari'a de cuando vimos la 

cogida de Pepe-Hillo y la ce'lebre cornada de Jose' Ca'ndido, motivada por 

haberse escupido el toro, con lo que se atolondro' Jose' y quiso matarlo fue-

ra de la jurisdiccio'n, recibiendo un encontronazo...

     Esta transcripción tiene una serie de deficiencias:

  • los números de página y los títulos están entremezclados con el texto de tal modo que hace muy difícil que un programa informático pueda distinguirlos;
  • la conservación de los guiones en la copia del texto significa que los programas de búsqueda más sencillos no encontrarán las palabras partidas;
  • las letras acentuadas, la ñ y la raya han sido insertadas específicamente tecleando convenciones que no siguen ningún patrón estándar y no podrán ser procesadas correctamente a no ser que el transcriptor recuerde mencionarlas en la documentación;
  • las divisiones entre párrafos se marcan únicamente mediante un espacio en blanco y se han introducido retornos manuales al final de cada línea. Por lo tanto, si el tamaño de la letra usada para imprimir el texto cambia, el reformateo será problemático.

     Ahora mostramos el mismo fragmento tal y como debería estar etiquetado según las Normas del TEI. Como veremos, hay muchas niveles de profundidad del etiquetado, pero como mínimo, el TEI nos permite representar las diferentes distinciones:

  • Las divisiones entre párrafos están ahora marcadas explícitamente.
  • Se usan referencias a entidades para las letras acentuadas, la ñ y para la raya.
  • Las divisiones entre páginas se han marcado sólo con un elemento vacío: <pb>.
  • Para simplificar la búsqueda y el procesamiento, no se han mantenido las del original y las palabras partidas a final de línea se han juntado sin ningún comentario previo. Si fuera interesante mantener las líneas del original, como por ejemplo en el caso de una impresión importante, podría apuntarse fácilmente, aunque aquí no es el caso.
  • Para que la lectura y corrección sea más sencilla, se ha insertado una línea al principio de cada párrafo, pero la tabulación se ha quitado.
<pb n="177">

<div1 type=capítulo n='XVIII'>

<p>Veamos ahora lo que pas&oacute; aquella noche. Jenara tom&oacute; 

asiento en el despacho del se&ntilde;or D. Felic&iacute;simo, y 

Pipa&oacute;n, acerc&aacute;ndose a este, le habl&oacute; un poco al 

o&iacute;do para contarle lo que a la dama le pasaba. A cada dos 

palabras que o&iacute;a, D. Felic&iacute;simo articulaba una especie 

de chillido, un ji ji, que m&aacute;s ten&iacute;a de suspiro que de 

interjecci&oacute;n y que al mismo tiempo expresaba hipo y burla.</p>



<p><q>&dash;Bueno, bueno</q> &dash;murmur&oacute; el anciano moviendo 

la cabeza en adem&aacute;n de conciliaci&oacute;n&dash;. <pb n="178"> 

<q>En mi casa no ser&aacute; molestada; yo le respondo de que no 

ser&aacute; molestada, ji ji.</q></p>



<p><q>&dash;Gracias </q>&dash;dijo la dama secamente tratando de darse 

aire con los restos de su abanico.</p>



<p><q>&dash;El Sr. D. Miguel de Baraona y yo fuimos muy amigos 

</q>&dash;a&ntilde;adi&oacute; Carnicero, volviendo a Jenara su faz plana, 

fr&iacute;a, sin expresi&oacute;n de sentimiento alguno&dash;, <q>pero 

muy amigos. Cuando aquellas cuestiones de la Santa Iglesia Colegial de 

Vitoria con los Can&oacute;nigos cuartos de frutos de Calahorra, vino 

aqu&iacute; don Jos&eacute; Marqu&eacute;s, can&oacute;nigo entero, D. 

Vicente Morales, racionero medio y D. Andr&eacute;s de Baraona, 

can&oacute;nigo cuarto de optaci&oacute;n, hermano de su abuelo de usted 

que tambi&eacute;n vino. Yo le consegu&iacute; el arcedianato de Berberiega 

para su primo. ¡Cu&aacute;ntas tardes pasamos juntos en este despacho 

hablando de sermones y Toros! Era en los tiempos de Pedro Romero y dicho 

se est&aacute; que hab&iacute;a materia para dos buenos aficionados como 

nosotros. Si el se&ntilde;or de Baraona viviera se acordar&iacute;a de 

cuando vimos la cogida de Pepe-Hillo y la c&eacute;lebre cornada de 

Jos&eacute; C&aacute;ndido, motivada por haberse escupido el toro, con 

lo que se atolondr&oacute; Jos&eacute; y quiso matarlo fuera de la 

jurisdicci&oacute;n, recibiendo un encontronazo...</q></p>

     La decisión de centrarnos en el texto de Pérez Galdós, en lugar de en la impresión de este en esta edición en particular, es una cuestión fundamental del etiquetado: la selección. Un etiquetado explicita únicamente aquellos rasgos textuales importantes para el etiquetador. No es difícil pensar en otros modos en que se podría profundizar en el etiquetado de este pequeño fragmento. Por ejemplo:

  • se podrían añadir notas al pie que glosen o comenten algún pasaje;
  • se podrían añadir punteros que enlacen unas partes con otras dentro de este texto;
  • se podrían diferenciar los nombres propios del resto del texto;
  • se podría indicar antes del texto información bibliográfica detallada sobre el origen y contexto del texto;
  • se podría añadir un análisis lingüístico del fragmento separando sus frases, proposiciones, palabras, etc., y asociando cada unidad con un código que indique su categoría gramatical;
  • se podría dividir el texto en unidades narrativas o discursivas;
  • se podría incluir en el etiquetado un análisis sistemático o una interpretación del texto, con un posible enlace complejo entre el texto y el análisis, o entre el texto y una o más traducciones;
  • se puden enlazar fragmentos del texto con imágenes, etc.

     El modo recomendado por el TEI de llevar a cabo todo esto se describe a lo largo de este documento. El esquema del TEI en su conjunto proporciona también una gran variedad de posibilidades de las que citamos somos unas cuantas:

  • análisis detallado de los componentes de los nombres;
  • metainformación detallada que proporcione información a modo de tesauro sobre los orígenes y temas del texto;
  • información sobre la historia de las variaciones de impresión o de manuscrito mostrada en una serie particular de versiones del texto.

     Consultar las Normas completas para ver recomendaciones sobre estas y otras posibilidades.





3 La estructura de un texto TEI

     Todos los textos que cumplan el TEI contienen (a) un encabezado TEI (marcado con el elemento <teiHeader>) y (b) la transcripción del propio texto (marcado con el elemento <text>).

     El encabezado TEI provee información similar a la de la portada de un texto impreso. Tiene hasta cuatro partes: una descripción bibliográfica del texto electrónico, una descripción de cómo ha sido etiquetado, una descripción no bibliográfica del texto (un perfil del texto), y una revisión de su historia (su creación). El encabezado está descrito más detalladamente en la sección .

     Un texto TEI puede ser individual (una única obra) o compuesto (una colección de obras, como por ejemplo una antología). En cualquier caso, el texto puede tener un front o back opcional. En medio está el body, cuerpo de la obra, que, en el caso de un texto compuesto, puede estar formado por groups, cada uno conteniendo a su vez más grupos o textos.

     Un texto individual se etiquetará siguiendo una estructura genérica como esta:

 

<TEI.2>

    <teiHeader> [ Información del encabezado TEI ]  </teiHeader>

    <text>

        <front> [ materia del front ... ]   </front>

        <body>  [ cuerpo del texto ... ]   </body>

        <back>  [ materia back ...  ]   </back>

    </text>

</TEI.2>

     Un texto compuesto también tiene una materia previa (front) y final (back) opcional. En medio aparecen uno o más grupos de textos, cada uno con sus propios front y back opcionales. Un texto compuesto se etiquetará usando una estructura genérica como esta:

 

<TEI.2>

    <teiHeader> [ información del encabezado del conjunto de textos] </teiHeader>

    <text>

        <front>  [ materia del front del conjunto de textos]  </front>

        <group>

           <text>

              <front> [ materia del front del primer texto ] </front>

              <body>  [ materia del body del primer texto ]  </body>

              <back>  [ materia del back del primer texto ]  </back>

           </text>

           <text>

              <front> [ materia del front del segundo texto ] </front>

              <body>  [ materia del body del segundo texto ]  </body>

              <back>  [ materia del back del segundo texto ]  </back>

           </text>

           [ aquí van los demás textos o grupos de textos ]

        </group>

        <back>  [ materia del back del conjunto de textos ]  </back>

    </text>

</TEI.2>

     También es posible definir un conjunto de textos TEI, cada uno con su propio encabezado. Este tipo de colección se llama corpus TEI, y toda esta puede tener un encabezado:

 

<teiCorpus>

  <teiHeader>  [ información del encabezado del corpus ]  </teiHeader>

  <TEI.2>

     <teiHeader>  [ información del encabezado del primer texto ]  </teiHeader>

     <text>  [primer texto del corpus]  </text>

  </TEI.2>

  <TEI.2>

    <teiHeader>  [ información del encabezado del primer texto ]  </teiHeader>

    <text>  [second texto del corpus ]  </text>

  </TEI.2>

</teiCorpus>

     Sin embargo, no es posible crear un conjunto de corpora, es decir, un a serie de elementos <teiCorpus> combinados juntos y tratados como un único objeto. Esta es una restricción de la actual versión de las Normas TEI.

     Más adelante en este documento trataremos con más profundidad las estructuras textuales simples. Mostraremos una pequeña lista con los elementos del TEI más importantes y una breve explicación o definición junto con los atributos específicos de cada elemento también definidos. En la mayoría de los casos, se dan tambi´ne pequeños ejemplos.





4 Codificando el cuerpo (body)

     Como se ha indicado arriba, un documento TEI sencillo está formado por los siguientes elementos:

<front>
contiene los materiales previos al comienzo del texto propiamente dicho: introducción, prólogos, dedicatorias, etc.
<group>
contiene un conjunto de textos individuales o grupos de textos.
<body>
contiene todo el cuerpo de un texto individual, exceptuando la materia del front y del back.
<back>
contiene los apéndices, etc., que siguen a la parte principal de un texto.

     Los elementos específicos del front y del back están descritos en la sección . En esta sección veremos los elementos empleados para marcar el body del texto.

4.1 Elementos de división textual

     El cuerpo de un texto en prosa puede ser simplemente un conjunto de párrafos, o estos pueden estar agrupados en capítulos, secciones, subsecciones, etc. En el primer caso, cada párrafo está etiquetado con la etiqueta <p>. En el segundo caso, el <body> puede estar dividido o en diferentes elementos <div1>, o en elementos <div>, y cada uno de estos subdivididos a su vez como se ve más abajo:

<p>
indica los párrafo en prosa.
<div>
contiene una subdivisión del front, body o back del texto.
<div1>
contiene una subdivisión de primer nivel del front, body o back de un texto (es la mayor si no se usa el <div0>, si se usara sería la segunda mayor).

     Cuando hay subdivisiones estructurales más pequeñas que el <div1>, la <div1> puede dividirse en elementos <div2>, los elementos <div2> en elementos <div3> menores, etc., hasta el nivel de la <div7>. Si fueran necesarias más de siete nivel de divisiones estructurales, se debe modificar el conjunto de etiquetas del TEI para que acepte <div8>, etc., o para usar los elementos <div> sin numerar: un <div> puede subdividirse en <div> más pequeños sin ningún límite de anidamiento.

     Todos estos elementos de división tienen los mismos tres atributos:

type
Indica el nombre convencional para esta categoría de división textual. Su valor será normalmente "Book", "Chapter", "Poem", etc. Otros posibles valores son "Group" para grupos de poemas, etc., tratados como unidades sencillas sería "Sonnet", "Speech" y "Song". Los valores insertados en el atributo type del primer <div>, <div1>, <div2>, etc., en un texto se supone que es aplicable a los siguientes <div>, <div1>s, etc., dentro del mismo <body>. Esto supone que sólo se debe indicar el valor en el primer elemento de división de cada tipo, o donde este cambie.
id
Especifica un identificador único para la división, que puede usarse para hacer referencias cruzadas o enlaces, como se verá más adelante en la sección . A menudo es útil insertar un atributo id en las unidades estructurales de nivel superior de un texto y obtener los valores ID de algún modo automático, por ejemplo añadiendo un número de sección a un pequeño código usado para el título de la obra en cuestión, como se verá en los ejemplos de abajo.
n
El atributo n especifica un corto nombre o número mnemotécnico para la división, que puede usarse para identificarla en lugar del ID. Si existe un modo convencional de referencia o abreviatura para las partes de una obra (como el modelo 'libro/capítulo/versículo' para las citas bíblicas), el atributo n es el lugar para indicarlo.

     Los atributos id y n, de hecho, son tan útiles que están en cualquier elemento de cualquier TEI DTD: son los llamados atributos globales. Otros atributos globales definidor por el TEI Lite se verán en la sección .

     El valor de cada atributo id debe ser único dentro del documento. Un modo sencillo de asegurarnos de que es así es hacer que refleje la estructura jerárquica del documento. Por ejemplo, el libro Los bandos de Castilla o El caballero del cisne: novela original española de Ramón López Soler fue publicado en tres tomos, cada uno divido en capítulos, mientras que algunos capítulos están divididos en partes. Podríamos definir valores para el id así:

 

<div1 id=BC1 n='I' type='tomo'>

  <div2 id=BC101 n='I.1' type='capítulo'>

   ... </div2>

  <div2 id=BC102 n='I.2' type='capítulo'>

   ... </div2>

   ...

  <div2 id=BC110 n='I.10' type='capítulo'>

   ... </div2>

  ...

</div1>

<div1 id=BC2 n='II' type='tomo'>

   ...

</div1>

...

     Se deben usar esquemas de nomenclatura diferentes para los atributos id y n: esto es útil cuando se usa un esquema de referencia canónica que no tiene en cuenta la estructura de la obra. Por ejemplo, en una novela divida en libros y cada uno de estos en capítulos, donde los capítulos están numerados consecutivamente a lo largo de toda la obra, en lugar de por libros, podríamos usar un esquema como este:

 

<div1 id=TS01 n='1' type='Volumen'>

   <div2 id=TS011 n='1' type='Capítulo'>

      ...

   <div2 id=TS012 n='2'>

      ...

</div1>

<div1 id=TS02 n='2' type='Volumen'>

   <div2 id=TS021 n='3'type='Capítulo'>

      ...

   <div2 id=TS022 n='4'>

      ...

</div1>

     En este caso la obra tiene dos volúmenes y cada uno de estos tiene dos capítulos. Los capítulos se numeran convencionalmente del 1 al 4, pero los valores de los id especificados permite además referirnos a ellos como si estuvieran numerados: 1.1, 1.2, 2.1, 2.2.

4.2 Encabezados y cierres

     Cada <div>, <div1>, <div2>, etc., puede tener un título o encabezado al principio, y (no tan comúnmente) un cierre como "Fin del Capítulo I". Se emplean estos elementos para transcribirlos:

<head>
contiene cualquier encabezado, por ejemplo, el título de una sección o el encabezado de una lista o glosario.
<trailer>
contiene un título o pie de cierre que aparece al final de una división de un texto.

     Otros elementos que pueden ser necesarios al principio o final de las divisiones textuales se verán más abajo en la sección .

     Es tarea del transcriptor decidir si los encabezados y pies deben ser incluidos en la transcripción. En el caso en que un encabezado es totalmente regular (por ejemplo, "Capítulo 1") o se le ha dado (el título) como valores en los atributos (p. ej., <div1 type='Capítulo' n=1>), se puede omitir; en los casos en que tiene otro texto irrecuperable, este se debe incluir. Por ejemplo, el comienzo de El ante-Cristo de Francisco Navarro Villoslada se podría etiquetar así:

 

<div1 id=AC1 type='Parte' n='1'>

<head>Favores que matan</head>

<div2 id=AC11 n='1' type='Capítulo'>

<head>La más hermosa</head>

<p>Era una de esas apacibles y sosegadas tardes de otoño,...

4.3 Prosa, Verso y Teatro

     Como se ha indicado anteriormente, los párrafos que indican una división textual deben etiquetarse con la etiqueta <p>. Por ejemplo:

 

<body>

<p>En un lugar de la Mancha, de cuyo nombre no quiero acordarme, 

no ha mucho tiempo que vivía un hidalgo de los de lanza en 

astillero, adarga antigua, rocín flaco y galgo corredor. Una 

olla de algo más vaca que carnero, salpicón las más noches, 

duelos y quebrantos los sábados, lantejas los viernes, algún 

palomino de añadidura los domingos, consumían las tres partes 

de su hacienda. El resto della concluían sayo de velarte, calzas 

de velludo para las fiestas, con sus pantuflos de lo mesmo, y los 

días de entresemana se honraba con su vellorí de lo más fino.

[...]

</p>

</body>

     Existe un gran número de etiquetas para etiquetar los diferentes componentes de los textos poéticos y dramáticos (teatro, películas, etc.):

<l>
contiene un único verso, aunque pueda estar incompleto. Tiene los siguientes atributos:
part
indica si el verso está métricamente completo o no. Los valores válidos son: F para la parte final de un verso incompleto, Y si el verso está métricamente incompleto, N si el verso está completo o si no se hace referencia a esto, I para la parte inicial de un verso incompleto, M para la parte media de un verso incompleto.
<lg>
contiene un grupo de versos que funcionan como una unidad formal, p. ej., una estrofa, refrán, etc.
<sp>
contiene un parlamento en un texto dramático o en un pasaje presentado como tal, ya esté en prosa o en verso. Tiene los siguientes atributos:
who
identifica al hablante insertando un ID.
<speaker>
contiene un tipo especial de encabezado o rótulo, en el que se da el nombre de uno o más hablantes de un texto o fragmento dramático.
<stage>
contiene cualquier tipo de acotación en un texto o fragmento dramático. Tiene los siguientes atributos:
type
indica el tipo de acotación. Se sugieren los siguientes valores entrance, exit, setting, delivery, etc.

     Por ejemplo, este es el comienzo de un texto poético en el que los versos y estrófas están etiquetadas:

<lg n=I>

<l>Altazor ¿por qué perdiste tu primera serenidad?</l>

<l>¿Qué ángel malo se paró en la puerta de tu sonrisa</l>

<l>Con la espada en la mano?</l>

<l>¿Quién sembró la angustia en las llanuras de tus ojos como el adorno 

de un dios?</l>

<l>¿Por qué un día de repente sentiste el terror de ser?</l>

<l>Y esa voz que te gritó vives y no te ves vivir</l>

<l>¿Quién hizo converger tus pensamientos al cruce de todos los vientos

del dolor?</l>

<l>Se rompió el diamante de tus sueños en un mar de estupor</l>

<l>Estás perdido Altazor</l>

<l>Solo en medio del universo</l>

<l>Solo como una nota que florece en las alturas del vacío</l>

<l>No hay bien no hay mal ni verdad ni orden ni belleza</l>

<l>¿En dónde estás Altazor?</l>

</lg>

     Las etiquetas <l> indican versos, no líneas tipográficas: las líneas originales de algunos versos de arriba no se han explicitado con esta codificación y se ha perdido. El elemento <lb> descrito en la sección se puede usar para marcar las líneas tipográficas si se deseara.

     A veces, especialmente en los textos dramáticos, las líneas de verso se dividen entre personajes. La forma más sencilla de etiquetar esto es usar el atributo part para indicar que las líneas partidas están incompletas, con se muestra en este ejemplo:

<div1 type ='Acto' n='II'><head>Acto segundo

[...]

<stage rend=italic>Dentro ruido de pastores, y sale Bato.</stage>

[...]

<sp><speaker>CUPIDO</speaker><l part=I>¿Cantáis vos?</l>

<sp><speaker>BATO</speaker><l part=M>Muy mal.</l>

<sp><speaker>CUPIDO</speaker><l part=F>¿Saltáis?</l>

<sp><speaker>BATO</speaker><l part=I>Mucho peor.</l>

<sp><speaker>CUPIDO</speaker><l part=F>¿Hacéis versos?</l>

<sp><speaker>BATO</speaker><l>Sí, señor; mas son perversos.</l>

     El mismo sistema se puede aplicar a las estrófas divididas entre dos hablantes:

<sp><speaker>ELISA</speaker>

<lg type=estrofa part=I>

<l>Bien te supieras quedar</l>

<l>si me tuvieras amor.</l>

</lg> 

<sp><speaker>FABIO</speaker>

<lg part=F>

<l>No hay amor donde hay señor,</l>

<l>ni quedar donde hay mandar.</l>

</lg>

     Este ejemplo muestra cómo se puede etiquetar un diálogo en prosa en un texto dramático. También muestra el uso del atributo who para indicar un código que identifique al hablante de ese fragmento de diálogo:

<sp who="MAT">

<speaker>MATILDE</speaker>

<p>Pero, querida tía, ¿es algún delito acaso interesarse 

en la suerte de Federico? Es tan bueno, tan amable, tan 

desgraciado... Un joven huérfano, aislado, que nunca ha 

conocido a sus padres... ¿Usted misma no le recogió en su 

casa desde su más tierna infancia? ¿No le ha dado usted 

una educación nada común?...</p>

</sp>

<sp who="ISA">

<speaker>ISABEL</speaker>

<p>Eres muy niña todavía, Matilde. Es verdad que no es un 

delito querer a Federico; que lo merece, ¡ah! sin duda; pero 

una joven de tus años debe ocultar sus sentimientos, y...</p>

</sp>

<sp who="MAT">

<speaker>MATILDE</speaker>

<p>Señora...</p>

</sp>





5 Numeración de página y línea

     Los finales de página y línea pueden marcarse con los siguientes elementos vacíos.

<pb>
marca el límite entre una página y la siguiente según un sistema de referencia estándar.
<lb>
marca el inicio de una nueva línea (tipográfica) según alguna edición o versión del texto.

     Estos elementos indican un punto exacto del texto, no un fragmento de este. El atributo global n debe emplearse para indicar el número de la página o línea que empieza en la etiqueta. Además, estos dos elementos comparten el siguiente atributo:

ed
indica la edición o versión en la que se da el final de página en ese punto.

     Cuando se trabaja con un texto original paginado, suele ser útil indicar esta paginación, aunque sea para simplificar más tarde la corrección. Indicar los finales de línea puede ser útil por el mismo motivo; el tratamiento de los guiones al final de línea en las fuentes impresas requerirá más atención.

     Si se marca la paginación, etc., de más de una edición, se debe especificar cada edición en el atributo ed, e insertar tantas etiquetas como sean necesarias. Por ejemplo, en el siguiente pasaje indicamos dónde están los fines de página en dos ediciones diferentes (ED1 y ED2)

 

<p>Pero otra vez, sin quererlo, me aparto de mi objeto, 

y no ha de ser así, sino que vuelvo atrás para deciros 

que el señor conde de Rumblar, luego que esparcía su 

ánimo en aquello del esqueleto, y hablaba por los codos 

durante una hora, iba en busca de entretenimientos más 

agradables, y aquí es donde viene como anillo en el dedo 

la ocasión de nombrar <pb ed=ED2 n='15'> a la Zaina, 

porque a eso de las once era cuando penetraba en sus 

salones el joven de que me ocupo, no acompañado sólo 

por el citado Mañara, sino también por D. Luis de 

Santorcaz, que <pb ed=ED1 n='10'> siempre se le unía en 

la Rosa-Cruz para seguir juntos hasta la madrugada.</p>

     Los elementos <pb> y <lb> son casos especiales de la clase general de elementos milestone que marcan puntos de referencia dentro de un texto. El TEI Lite también tiene un elemento genérico <milestone>, que no está limitado a casos especiales sino que puede marcar cualquier tipo de punto de referencia: por ejemplo, un final de columna, el inicio de una nueva sección que no se marca de otro modo, etc. Este elemento tiene la siguiente descripción t atributos:

<milestone>
marca el límite entre secciones de un texto, tal y como se indica en los cambios de un sistema de referencia estándar. Tiene los siguientes atributos:
ed
indica la edición o versión a la que hace referencia el milestone.
unit
indica que tipo de sección cambia en ese milestone.

     Los nombres usados para los tipos de unidad (atributo unit) y para las ediciones a las que hace referencia (atributo ed) pueden elegirse libremente, pero se deben indicar en el encabezado (teiHeader).

     El elemento <milestone> puede usarse en lugar de otros, o los otros pueden emplearse como un conjunto; pero no deben mezclarse arbitrariamente.





6 Marcar frases enfatizadas

6.1 Cambios de tipografía, etc.

     Las palabras o frases enfatizadas son aquellas que visiblemente son diferentes del resto del texto, normalmente por un cambio en la fuente, en el tipo de letra o en el color, con el fin de llamar la atención del lector.

     El atributo global rend puede utilizarse en cualquier cualquier elemento cuanodo sea necesario para indicar cómo debe ser ese enfasis. Por ejemplo, un encabezado que deba ir en negrita podría etiquetarse como head rend='Bold', y uno en cursiva como head rend='Italic'.

     No siempre es posible o deseable interpretar las razones de dichos cambios en el formato del texto. En tales casos el elemento <hi> puede usarse para marcar un fragmento de texto enfatizado sin indicar su estatus o posición.

<hi>
marca una palabra o frase gráficamente distinta del texto que le rodea por razones que no se especifican.

     En el siguiente ejemplo se recoge aunque no se interpreta el uso de una tipografía distinta para el subtítulo y para el nombre incluido:


<hi rend=gothic>El ama y la sobrina</hi>

El lector tendrá la bondad de trasladarse con nosotros 

a una hermosa quinta del reino de Granada, donde vivía 

habrá como veinte años una familia acomodada y virtuosa. 

<hi rend=italic>Don Alberto Ludueña</hi> se había 

enriquecido en el comercio: y todo su conato, desde que 

perdió a una esposa querida...

     Por otro lado, en los casos en que se sepa con certeza la causa del enfasis podemos usar otros elementos más específicos.

<emph>
marca palabras o frases que son enfatizadas por un efecto lingüístico o retórico.
<foreign>
identifica una palabra o frase que está en un idioma diferente del del texto de alrededor.
<mentioned>
marca palabras o frases mencionadas o citadas, no usadas.
<term>
contiene una palabra o expresión que se considera un término técnico.
<title>
contiene el título de una obra, ya sea un artículo, libro, periódico, etc., y los subtítulos. Tiene los siguientes atributos:
level
indica si es el título de un artículo, libro, periódico, serie o material inédito. Los valores válidos son: m para un título monográfico (libro, colección u otro objeto publicado como un objeto independiente, incluyendo cada uno de los volúmenes de las obras con varios); s (título de una serie o secuencia); j (título de un periódico); u para los títulos de material inédito (se incluyen las tesis y conferencias, excepto en el caso de que estén publicadas por alguna editorial); a para los títulos analíticos (artículos, poemas u otros objetos publicados como parte de una publicación mayor).
type
clasifica el título de acuerdo con alguna tipología. Algunos valores recomendados son: abbreviated, main, subordinate (para los subtítulos y los títulos de partes) y parallel (para los títulos alternativos, a menudo en otro idioma, por los que también se conoce la obra).

     Algunos rasgos (especialmente citas o glosas) se pueden encontrar en un texto o marcado con algún enfasis o con comillas. En estos casos, se deben emplear los elementos <q> y <gloss> (como se verá en la siguiente sección). Si se debiese mantener el formato, usaríamos el atributo global rend.

     He aquí un ejemplo de los elementos definidos:

Dafnis y Cloe, más bien que de novela bucólica, puede calificarse de novela campesina, de novela idílica o de idilio en prosa; y en este sentido, lejos de pasar de moda, da la moda y sirve de modelo aún, mutatis mutandi, no sólo a Pablo y Virginia, sino a muchas preciosas novelas de Jorge Sand, y hasta a una que compuso en español, pocos años ha, cierto amigo mío, con el título de Pepita Jiménez.

     Si interpretamos la función del texto enfatizado, la frase quedaría así:

<title>Dafnis y Cloe</title>, más bien que de 

novela bucólica, puede calificarse de novela campesina, 

de novela idílica o de idilio en prosa; y en este 

sentido, lejos de pasar de moda, da la moda y sirve de 

modelo aún, <foreign>mutatis mutandi</foreign>, no sólo 

a Pablo y Virginia, sino a muchas preciosas novelas de 

Jorge Sand, y hasta a una que compuso en español, pocos 

años ha, cierto amigo mío, con el título de <title>Pepita 

Jiménez</title>.

     Si sólo reproducimos el formato del original, quedaría entonces así:

<hi rend=italic>Dafnis y Cloe</hi>, más bien que 

de novela bucólica, puede calificarse de novela campesina, 

de novela idílica o de idilio en prosa; y en este sentido, 

lejos de pasar de moda, da la moda y sirve de modelo aún, 

<hi rend=italic>mutatis mutandi</hi>, no sólo a Pablo y 

Virginia, sino a muchas preciosas novelas de Jorge Sand, 

y hasta a una que compuso en español, pocos años ha, 

cierto amigo mío, con el título de <hi rend=italic>Pepita 

Jiménez</hi>.

6.2 Citas y características similares

     Del mismo modo que los cambios en la tipografía, las comillas se usan convencionalmente para indicar varios rasgos dentro de un texto, entre los que destacan las citas. En la medida de lo posible, recomendamos que el rasgo subyacente sea etiquetado con los siguientes elementos, en lugar de simplemente reproducir las comillas del texto:

<q>
contiene aparentemente una cita -una representación de habla o pensamiento marcado como si fuera citado por otra persona (esté realmente citado o no); en prosa, suele ser el caso de los parlamentos de un personaje; en los diccionarios, el elemento <q> se puede usar para marcar ejemplos de uso reales o inventados. Tiene los siguientes atributos:
type
puede usarse para indicar si el texto citado es hablado o pensado, o para describirlo de modo más exacto. Posibles valores recomendados son: spoken (para la representación de estilo directo, normalmente marcado con comillas o raya) y thought (para la representación del pensamiento, p. ej., un monólogo interno).
who
aquí se identifica al hablante de dicho texto en estilo directo.
<mentioned>
marca palabras o frases mencionadas o citadas, no usadas.
<soCalled>
contiene una palabra o frase en la que el autor o narrador niega su responsabilidad, por ejemplo mediante el uso de comillas o cursiva.
<gloss>
marca una palabra o frase que constituye una glosa o definición de alguna otra palabra o frase. Tiene los siguientes atributos:
target
identifica la palabra o frase asociada.

     He aquí un sencillo ejemplo de cita:


Con esa profundización en las más íntimas 

realidades humanas hay que relacionar la 

permanencia de uno de los elementos trágicos 

fundamentales, la catarsis, que Buero entiende 

como <q>interior perfeccionamiento.</q>

     Para indicar cómo fue impresa una cita (por ejemplo, in-line o resaltada como display o block quotation), se debe usar el atributo rend. También puede emplearse para indicar cualquier tipo de marca de citación.

     El estilo directo interrumpido por un narrador puede representarse simplemente cerrando la etiqueta de cita y abriéndola de nuevo tras la interrupción, como en este ejemplo:


<p><q>Extraño es</q> &mdash;dijo fray Domingo&mdash; 

<q>que afirme todo eso vuestra reverencia por meras 

conjeturas.</q></p>

     Si es importante transmitir la idea de que los dos elementos <q> juntos reproducen un único parlamento, podemos usar los atributos de unión next y prev, tal y como se describe en la sección .

     Las citas pueden ir acompañadas por una referencia a la fuente o hablante, utilizando el atributo who, según se indique o no en el texto dicha fuente. Por ejemplo:

 

<q who=Wilson>Spaulding, he came down into the office just this

day eight weeks with this very paper in his hand, and he

says:&mdash;<q who=Spaulding>I wish to the Lord, Mr. Wilson, that

I was a red-headed man.</q></q>



<q who=Quijote>Gracias doy al cielo por la merced 

que me hace, pues tan presto me pone ocasiones 

delante donde yo pueda cumplir con lo que debo a mi 

profesión, y donde pueda coger el fruto de mis buenos 

deseos. Estas voces, sin duda, son de algún menesteroso 

o menesterosa que ha menester mi favor y ayuda.</q>

     Este ejemplo también muestra cómo puebe haber citas incluidas dentro de otras citas: un personaje (Wilson) cita a otro personaje (Spaulding).

     El creador del texto electrónico debe decidir si las marcas de cita (comillas, guiones,...) son reemplazadas por las etiquetas o si las etiquetas son añadidas y se mantienen las marcas de cita (comillas, guiones,...). Si las marcas de citas son suprimidas del texto, se debe usar el atributo rend para indicar cómo venían dichas citas en el texto original.

     Como con el resaltado, no siempre es posible ni deseable interpretar de este modo la función de las marcas de cita de un texto. En tales casos, podemos usar la etiqueta <hi rend=quoted> para marcar un texto citado sin indicar su estado o situación.

6.3 Palabras y expresiones en otros idiomas

     Las palabras o frases que están en un idioma distinto al principal del texto pueden etiquetarse de dos modos. Si la palabra o frase ya está etiquetado por alguna razón, se puede rellenar el atributo lang de dicho elemento con un valor que indique el idioma. En los casos en que no hay un elemento, se debe usar el elemento <foreign>, usando también en este caso el atributo lang. Por ejemplo:

 

John has real <foreign lang=fra>savoir-faire</foreign>.

 

Have you read <title lang=deu>Die Dreigroschenoper</title>?

 

<mentioned lang=fra>Savoir-faire</mentioned> is French for know-how.

 

The court issued a writ of <term lang=lat>mandamus</term>.

     Como muestran estos ejemplos, el elemento <foreign> no debe usarse para etiquetar palabras en otro idioma si se usa otro elemento más específico como <title>, <mentioned>, o <term>. El atributo global lang se puede usar en cualquier elemento para mostrar que se está usando un idioma diferente del general del texto.





7 Notas

     Todas las notas deben marcarse utilizando el mismo elemento, ya estén impresas como notas al pie, al final de capítulo, marginales o de otro modo:

<note>
contiene una nota o anotación. Tiene los siguientes atributos:
type
describe el tipo de nota.
resp
indica quién es el responsable de dicha anotación: autor, editor, traductor, etc. El valor puede ser author, editor, etc., o las iniciales del quien ha hecho la anotación.
place
indica dónde aparece la nota en el texto fuente. Tiene los siguientes valores válidos: inline, interlinear, left, right, foot, y end, para aquellas notas que aparecen como párrafos en el cuerpo del texto, entre líneas, al margen izquierdo o derecho, a pie de página o al final de capítulo o volumen, respectivamente.
target
indica el punto de enlace a una nota o el principio del fragmento al que la nota está referida.
targetEnd
apunta al final del fragmento al que la nota hace referencia, si la nota no está incluida en el texto en ese punto.
anchored
indica si el texto copia muestra el lugar exacto de referencia de la nota.

     En la medida de lo posible, el texto de la nota debe insertarse en el texto en el punto donde su identificador o marca aparece en el texto fuente. Esto puede no ser posible por ejemplo con las notas marginales, que no pueden ser insertadas en un lugar exacto. Para simplificarlo, lo adecuado puede ser colocar las notas marginales antes del párrafo. Las notas también pueden ser colocadas en una división independiente del texto (como notas al final de capítulo, en los libros impresos) y hacer enlaces al lugar donde hacen referencia por medio del atributo target.

     El atributo n puede usarse para indicar el número o identificador de una nota si es necesario. El atributo resp debe usarse consistentemente para distinguir entre las notas del autor y las del editor, si la obra tiene de los dos tipos; de otro modo, el TEI header debe indicar de qué tipo son.

     Ejemplos:


<p>Cuál encomiaba la defensa de Zaragoza

<note place=foot n=1>El primer sitio de 

Zaragoza.</note>; cuál ponía la defensa 

de Valencia contra Moncey por cima de 

todos los hechos de armas antiguos y 

modernos; quién decía que nada podía 

igualarse a lo del Bruch;...</p>





<lg>

<l>En tiempo del Estoraque

<note place=margin>El año 1833 el general 

Rosas en su mensaje a la Sala dijo que, en 

su campaña al Colorado, había encontrado 

por junto la papilla y el estoraque.</note></l>

<l>que encontró don Juan Manuel,</l>

<l>largaba cierto papel,</l>

<l>titulao el Bristi-Pake,</l>

<l>un Inglés de mal empaque...</l>

</lg>





8 Referencias cruzadas y enlaces

     Las referencias cruzadas o enlaces de un punto a otro dentro del mismo documento SGML se pueden etiquetar usando los elementos descritos en la sección . Las referencias o enlaces a elementos de otro documento SGML o a partes de documentos que no estén en SGML pueden marcarse utilizando los punteros extendidos del TEI (TEI extended pointers) descritos en la sección . Los enlaces implícitos (como la asociación entre dos textos paralelos o entre un texto y su interpretación) puede codificarse usando los atributos de enlace a los que hace referencia en la sección .

8.1 Referencias cruzadas sencillas

     Una referencia cruzada de un punto a otro de un documento puede etiquetarse con los siguientes elementos:

<ref>
una referencia a otro sitio del documento, en función de uno o más elementos identificables, posiblemente modificados por un texto o comentario adicional.
<ptr>
un puntero a otro sitio del documento en función de uno o más elementos identificables.

     Estos elementos comparten los siguientes atributos:

target
especifica el destino del puntero como uno o más identificadores SGML.
type
categoriza el puntero de algún modo, usando un conjunto conveniente de categorías.
targType
especifica el tipo (o tipos) de elemento al que apunta este puntero.
crDate
especifica cuando se creó este puntero.
resp
especifica el creador del puntero.

     La diferencia entre estos dos elementos es que <ptr> es un elemento vacío, que únicamente indica un punto desde el que se hace un enlace, mientras que <ref> puede contener texto -normalmente el texto de la propia referencia cruzada. El elemento <ptr> se usa para las referencias cruzadas que nos indicadas por algún símbolo o icono o por un botón en un texto electrónico. También es útil en los sistemas de producción de documentos en los que el maquetador puede general la forma verbal correcta de una referencia cruzada.

     Las siguientes dos forma, por ejemplo, son lógicamente equivalentes (dando por hecho que hemos documentado la forma verbal exacta de las referencias cruzadas representadas con los elementos <ptr>):

 

Para más información ver el <ref target=ART4>artículo IV</ref>.

 

Para más información ver <ptr target=ART4>.

     El valor del atributo target debe ser un identificador SGML del documento SGML. Esto implica que el fragmento o frase al que se apunta debe tener un identificador y por lo tanto debe estar etiquetado con algún elemento. En el siguiente ejemplo, la referencia es a un elemento <div1>:

 

    ...

    para más información ver <ptr target=ART4>.

    ...

    <div1 id=ART4><head>Del género de los nombres</head>

    ...

     Dado que el atributo id es global, cualquier elemento de un documento puede ser enlazado de este modo. En el siguiente ejemplo, se le ha dado un identificador a un párrafo para que pueda ser enlazado:

 

    ...

    esto está explicado en <ref target=pspec>el párrafo sobre los enlaces</ref>

    ...

    <p id=pspec>Se pueden hacer enlaces a cualquier elemento

    ...

     El atributo targType se puede usar para indicar que el elemento referido debe ser de un tipo específico, como en el siguiente ejemplo:

 

    ...

    esto está explicado en <ref target=dspec targType='div1 div2'>

    la sección sobre los enlaces</ref>

     Esta referencia puede fallar si el elemento con el identificador dspec no es un <div1> o un <div2>. Sin embargo, esto no puede revisarse únicamente por medio de un programa SGML, ya que el programa SGML sólo puede comprobar que el elemento dspec existe.

     El atributo type puede usarse para clasificar, de algún modo, el tipo de enlace representado por el puntero. Los atributos resp y crDate también pueden usarse para representar al responsable y la fecha de creación del enlace, respectivamente. Por ejemplo:


   ...

   esto está explicado en

   <ref type=xref resp=auto crdate=950521 target=dspec targtype='div1 div2'>

   la sección sobre los enlaces</ref>

     Lo más probable es que estos atributos se usen en sistemas de hipertexto que contengan muchos punteros usados con diferentes propósitos y creados por una variedad de medios.

     A veces el destino de una referencia cruzada no corresponde a ningún rasgo particular del texto, y por lo tanto no puede etiquetarse como un elemento. Si el destino deseado es simplemente un punto del documento, el modo más fácil de marcarlo es introducir un elemento <anchor> en el sitio apropiado. Si el destino es una serie de palabras sin etiquetar específicamente, se puede introducir el elemento <seg> para marcarlas. Estos dos elementos tienen la siguiente descripción:

<anchor>
especifica un sitio o punto dentro de un documento al que hacer la referencia.
<seg>
identifica un fragmento de texto dentro de un documento para que pueda enlazarse. Tiene los siguientes atributos:
type
indica el tipo de segmento.

     En este ejemplo (ficticio), los elementos <ref> se han empleado para representar puntos en este texto que deben ser enlazados de algún modo a otras partes de este; en el primer caso a un punto, y en el segundo a una serie de palabras:


  Volviendo al <ref target=ABCD>punto donde me

  quedé dormido</ref>, me di cuenta que hay

  <ref target=EFGH>tres palabras</ref> que han

  sido marcadas en rojo por	el lector anterior

  

     Este etiquetado requiere que los elementos con identificadores específicos (ABCD y EFGH en este ejemplo) aparezcan en algún sitio del documento. Si tenemos en cuenta que no exista ningún elemento con estos identificadores podemos utilizar los elementos <anchor> y <seg>:

 

  .... <anchor type=bookmark id='ABCD'> ....

   ....<seg type=target id='EFGH'> ... </seg> ...

     El atributo type debe usarse (como arriba) para distinguir los diferentes propósitos por los que se usan estos elementos en el texto. Otros usos son los que se verán más abajo en la sección .

8.2 Punteros extendidos

     Los elementos <ptr> y <ref> sólo pueden usarse para referencias cruzadas o enlaces cuyos destinos están en el mismo documento SGML. Sólo pueden hacer referenica a elementos SGML. Los elementos explicados en esta sección no están restringidos.

<xptr>
define un puntero a otra posición en el mismo documento o a otro documento externo.
<xref>
define un puntero a otra posición en el mismo documento o a otro documento externo, posiblemente modificado por un texto o comentario adicional.

     Además de los atributos de los punteros que hemos visto en la sección , estos elementos comparten también estos atributos, que se usan para indicar el destino de la referencia cruzada o enlace en lugar del atributo target:

doc
especifica el documento en el que se encuentra el punto requerido; por defecto es el mismo documento.
from
especifica el comienzo del destino del puntero como una expresión en la sintaxis del puntero extendido del TEI; por defecto todo el documento indicado en el atributo doc.
to
especifica el fin del destino del puntero como una expresión en la sintaxis del puntero extendido del TEI; sólo puede indicarse si se ha rellenado el atributo from.

     La especificación completa del lenguaje usado para expresar el destino de los punteros extendidos del TEI está fuera de lo previsto en este documento; aquí señalamos únicamente algunos de los aspectos más útiles. Hay que consultar las Normas completas para estudiarlo en más detalle.

     Un <xptr> (o <xref>) puede apuntar a todo otro documento simplemente insertando un nombre de entidad como valor del atributo doc, como en este ejemplo:

 

  ver <xref doc=P3>Las Normas del TEI</xref>

     Este ejemplo asume que algún sistema o entidad pública con el nombre P3 ha sido declarada. Esta declaración puede colocarse dentro del archivo de extensión litemods.ent o en cualquier otro modo específico del software de SGML que se use (como veremos en la sección ).

     El atributo from se usa para especificar cualquier lugar dentro del documento especificado en el atributo doc. El valor especificado utiliza un lenguaje especial, llamado TEI extended pointer syntax (sintaxis de los punteros extendidos del TEI); de la que sólo se dan algunos detalles aquí. En este lenguaje, los lugares se definen como una serie de steps (pasos), y cada uno identifica una parte del documento, a menudo en función de los lugares identificados en los pasos anteriores. Por ejemplo, es posible apuntar a la tercera oración del segundo párrafo del capítulo dos seleccionando el capítulo dos en el primer paso, el segundo párrafo en el segundo paso y la tercera oración en el último paso. Un paso puede estar definido en función de conceptos de SGML (como parent, descendent, preceding, etc.) o, más líbremente, en función de patrones de texto, de posición palabras o de carácter. También se puede usar una notación que no sea de SGML o especificar un lugar dentro de un gráfico en función de un sistema de coordenadas.

     Los atributos from y to emplean la misma notación. Cada uno apunta a una parte del documento de destino; el puntero extendido en conjunto apunta al fragmento que comienza en el inicio del from y continúa hasta el final del to.

     El primer paso en una ruta de situación debe especificar el identificador de algún elemento dentro del documento de destino, como en este ejemplo:

 

<xptr doc=P3 from='id (SA)'>

     Esto selecciona todo el elemento que lleve el identificador SA dentro de la entidad P3. Si se necesita un destino más concreto debemos seguir otros pasos. Los siguientes términos están disponibles para seleccionar otros elementos en función de su relación con este:

child
elementos contenidos por este.
ancestor
elementos que contienen a este, directa o indirectamente.
previous
elementos con el mismo padre que este pero anteriores en el documento.
next
elementos con el mismo padre que este pero posteriores en el documento.
preceding
elementos del documento que empiezan antes de este, independientemente de sus padres.
following
elementos del documento que empiezan después de este, independientemente de sus padres.

     Cada uno de estos términos implica un conjunto particular de elementos (el conjunto de hijos, el conjunto de ancestros, el conjunto de hermanos, etc.); para especificar a qué elemento del conjunto estamos apuntado el término puede, opcionalmente, ir seguido por una lista entre paréntesis que contenga:

  • un número positivo o negativo, que indique cuál de los muchos elementos posibles es el deseado (+1 indica el primer elemento encontrado, empezando desde la posición actual y -1 indica el último), o el término all, que indica que se apunta a todos los elementos del conjunto;
  • un identificador genérico, que indica el tipo de elemento requerido o un asterisco que indica cualquier tipo de elemento;
  • un conjunto de nombres y valores de elementos, que indiquen que el elemento selecionado debe tener atributos con los nombres y valores especificados, si hay alguno.

     Siguiendo con el ejemplo anterior, la siguiente referencia seleccionará el tercer elemento <p> directamente contenido por cualquier elemento que tenga el identificador SA:

 

<xptr doc=P3 from='id (SA) child (3 p)'>

     Del mismo modo, dado que la entidad P3 es de hecho una referencia a la forma SGML de las Normas del TEI, entonces la siguiente referencia seleccionará la sección 14.2.2 de aquella publicación en la que (como sucede) la sintaxis del puntero extendido está formalmente definida:

 

Para más detalles, ver

<ref doc=P3 from='id (SA) child (2 div2) child (2 div3)'>

  La definición de la sintaxis de los punteros extendidos del TEI

</ref>

     Comúnmente, el objetivo de una referencia cruzada estará definida adecuadamente en el atributo from. En algunos documentos, sin embargo, puede ser más conveniente definir tanto el punto de partida como el de fin. Como se ha dicho arriba, el atributo to se proporciona por este motivo. Por ejemplo,

 

  <xptr doc=P1 from='id (xyz)' to='id (abc)'>

     es un puntero extendido cuyo destino es el fragmento que comienza al principio de cualquier elemento del documento P1 que tenga el identificador XYZ y que acaba al final de cualquier elemento del mismo documento que tenga el identificador ABC. Todos los elementos que haya en medio también están incluidos, independientemente de la estructura; el puntero es incorrecto si el final del ABC está antes del comienzo de XYZ.

     Utilizando esta sintaxis es muy fácil construir especificaciones muy complejas. Por ejemplo, la siguiente referencia seleccionará el elemento <head> más reciente que lleve un atributo lang con el valor LAT y que aparezca antes del comienzo del elemento con el identificador SA:

 

<xptr doc=P3 from='id (SA) preceding (1 head lang lat)'>

     Si no se da un valor al atributo doc, se presume el dicho documento. Por tanto, las siguientes referencias son semánticamente equivalentes. Las dos indican el elemento con el identificador X1 de dicho documento:

 

<ptr target=X1>

<xptr from='id (X1)'>

8.3 Atributos de enlace

     Los siguientes atributos de enlace están definidos en todos los elementos de la DTD del TEI Lite:

ana
enlaza un elemento con su interpretación.
corresp
enlaza un elemento con uno o más elementos parecidos.
next
enlaza un elemento al siguiente en un conjunto.
prev
enlaza un elemento al anterior en un conjunto.

     El atributo ana (análisis) está pensado para aquellos casos en que se ha definido un conjunto de análisis o interpretaciones abstractas en algún lugar del documento, como se verá en la sección . Por ejemplo, un análisis lingüístico de la frase "Juan bebe agua" podría etiquetarse así:

 

<seg type=sentence ana=SVO>

  <seg type=lex ana=NP1>Juan</seg>

  <seg type=lex ana=VVT>bebe</seg>

  <seg type=lex ana=NP1>agua</seg>

</seg>

     Este etiquetado implica la existencia en el documento de elementos con identificadores SVO, NP1 y VVT donde se explique el significado de estos códigos. Fíjese en el uso del elemento <seg> par marcar los componentes del análisis, distinguiéndolos por medio del atributo type.

     El atributo corresp (correspondiente) proporciona un modo sencillo de representar algún tipo de correspondencia entre dos elementos del texto. Por ejemplo, en un texto multilingüe, se puede utilizar para enlazar el original y la traducción, como en este ejemplo:

 

<seg lang=FRA id=ES1 corresp=EN1>Juan bebe agua</seg>

<seg lang=ENG id=EN1 corresp=ES1>John drinks water</seg>

     El mismo mecanismo puede usarse para varios fines. En el siguiente ejemplo (ficticio), se ha usado para representar correspondencias anafóricas entre "the show" y "Shirley", y entre "NBC" y "the network":

 

<p>La obra <title id=quijote>Don Quijote</title>, que se

estrenó el pasado sábado, no fue anunciada en la 

<name id=ser>Cadena SER</name>, aunque

<seg id=net