TEI Lite:
Una introducción al Text
Encoding for Interchange
Lou Burnard
C. M.
Sperberg-McQueen Documento no: TEI U 5 Junio de 1995
Traducido por
Manuel
Sánchez Quero
Biblioteca Virtual
Miguel de Cervantes Universidad de Alicante España
Septiembre de 2001
Existe una versión en SGML de
este documento para bajar en
http://www.hcu.ox.ac.uk/TEI/Lite/teiu5.tei.
También existe una versión en HTML de este documento dividida en
varios archivos (para una consulta más rápida) en
http://www.hcu.ox.ac.uk/TEI/Lite/teiu5.split.html.
Índice
Este
documento constituye una introducción a las recomendaciones del Text
Encoding Initiative (TEI), ya que describe un subconjunto controlable del
esquema de etiquetado completo del TEI. El esquema documentado aquí
puede emplearse para etiquetar una amplia variedad de características
textuales comunes, de tal modo que maximice la utilidad de las trascripciones
electrónicas y que facilite su intercambio entre estudiosos que empleen
diferentes sistemas informáticos. También es totalmente
compatible con el esquema del TEI completo tal y como está definido en
el TEI documento P3, Guidelines for Electronic Text Encoding and
Interchange, publicado en Chicago y Oxford en mayo de 1994. Se pueden
encontrar copias de esta versión de este texto a través de la
World Wide Web en
http://www-tei.uic.edu/orgs/tei/intros/teiu5.tei y
ftp://info.ox.ac.uk/pub/ota/TEI/doc/teiu5.tei, así
como en otros sitios. El documento también está disponible en
formato HTML en
http://www-tei.uic.edu/orgs/tei/intros/teiu5.html y
http://info.ox.ac.uk/~archive/teilite/teiu5.html. Se pueden
encontrar copias de la definición del tipo de documento en SGML para el
conjunto de etiquetas descrito aquí en las mismas direcciones, bajo el
archivo llamado teilite.dtd:
http://www-tei.uic.edu/orgs/tei/p3/dtd/teilite.dtd,
ftp://ftp-tei.uic.edu/pub/tei/lite/teilite.dtd y
ftp://info.ox.ac.uk/pub/ota/TEI/dtd/teilite.dtd.
1
Introducción
Las Normas
del Text Encoding Initiative (TEI) están dirigidas a cualquier persona
que quiera intercambiar información almacenada en un formato
electrónico. En ellas se enfatiza el intercambio de información
textual, pero también se hace referencia a otras formas de
información como son las imágenes y el sonido. Las Normas son del
mismo modo aplicables a la creación de nuevos recursos y al intercambio
de los ya existentes.
Las Normas
proporcionan un medio para hacer explícitos ciertos rasgos de un texto
de tal modo que faciliten el procesamiento de dicho texto por programas
informáticos ejecutados desde diferentes máquinas. Esto es lo que
se denomina marcado o codificado. Cualquier
representación textual en un ordenador utiliza algún tipo de
marcado; el TEI aparició, en parte, debido a la gran variedad de
esquemas de codificación mutuamente incomprensibles que abundan
actualmente en los ámbitos de estudio, y en parte, debido a la creciente
variedad de usos que están siendo identificados para los textos en
formato electrónico.
Las Normas
TEI usan el Standard Generalized Markup Language (SGML) para definir
su esquema de codificación. SGML es un estándar internacional
(ISO 8879), usado cada vez más por todas las industrias de procesamiento
de información, que posibilita una definición formal de un
esquema de codificación, en función de elementos y
atributos, y reglas que controlan su aparición en un texto. El
uso que hace el TEI del SGML es ambicioso en su complejidad y generalidad, pero
fundamentalmente no es diferente del de cualquier otro esquema de marcado en
SGML. Por lo tanto, cualquier programa preparado para SGML puede procesar los
textos que cumplan el TEI.
El TEI
está patrocinado por la Association for Computers and the
Humanities, la Association for Computational Linguistics, y la
Association for Literary and Linguistic Computing. La
financiación ha sido facilitada, en parte, por el U.S.
National Endowment for the Humanities, Directorate General XIII of the
Commission of the European Communities, la Fundación Andrew W.
Mellon, y el Social Science and Humanities Research Council of Canada.
Sus Normas fueron publicadas en mayo de 1994, tras seis años de
desarrollo donde participaron cientos de estudiosos de diferentes disciplinas
académicas de todo el mundo.
Al
comienzo de este trabajo, los objetivos generales del TEI fueron definidos por
la declaración de clausura de una conferencia de organización que
tuvo lugar en Vassar College, N.Y., en noviembre de 1987; estos principios
'Poughkeepsie' fueron más tarde elaborados en series de documentos de
diseño. Las Normas, según estos documentos, deben:
- ser suficientes para representar los rasgos textuales
necesarios para la investigación;
- ser sencillas, claras y concretas;
- ser fáciles para los investigadores para que
las usen sin ningún programa específico;
- permitir la definición rigurosa y el
procesamiento eficaz de los textos;
- prevenir las extensiones definidas por los usuarios;
- ajustarse a los estándares existentes y en
desarrollo.
El mundo
de estudio es amplio y diverso. Para que las Normas sean aceptadas era
importante asegurar que:
- el núcleo común de los rasgos textuales
fuera fácilmente compartido;
- otros rasgos específicos fueran
añadidos (o eliminados) fácilmente a un texto;
- fueran posibles múltiples codificaciones
semejantes de un mismo rasgo;
- la riqueza del marcado debía ser definida por
el usuario, con un mínimo nivel de exigencia;
- una adecuada documentación del texto y de su
codificación debía ser suministrada.
Este
documento describe una manejable selección del extenso conjunto de
elementos SGML y recomendaciones resultantes de aquellos objetivos de
diseño. Esta selección es el llamado TEI Lite.
Al
seleccionar de los varios cientos de elementos SGML definidos por el TEI
completo, hemos tratado de identificar un 'conjunto inicial' que recoja los
elementos que casi cualquier usuario debería conocer. La experiencia al
trabajar con el TEI Lite será de gran valor para entender la DTD del TEI
completo y para conocer qué partes opcionales de la DTD completa son
necesarias para trabajar con tipos de textos específicos.
Nuestros
objetivos al definir este subconjunto se puede resumir del siguiente modo:
- debe incluir la mayoría de las etiquetas
principales del TEI, ya que estas contienen elementos importantes para todos
los tipos de textos y todos los tipos de trabajo de procesamiento de los
textos;
- debe poder manejar correctamente una variedad de
textos bastante amplia, a un nivel de detalle que se dé en la
práctica real (tal y como ocurre en, por ejemplo, las bases del Oxford
Text Archive);
- debe ser útil para la producción de
nuevos documentos así como para etiquetar los ya existentes;
- debe ser utilizable por la mayoría de los
programas de SGML ya existentes;
- debe poder ser obtenido de la completa TEI DTD
empleando los mecanismos de extensión descritos en las Normas del
TEI;
- debe ser lo más reducido y sencillo posible
siempre y cuando sea coherente con los otros objetivos.
El lector
puede juzgar por sí mismo nuestro éxito en la consecución
de estos objetivos. A la hora de escribir, estamos
seguros de haberlo conseguido, al menos en parte, por su uso en la
práctica de etiquetado de textos reales. El Oxford Text Archive usa el
TEI Lite cuando traduce sus textos de su esquema de marcado original a SGML; el
Electronic Text Centers de la Universidad de Virginia y la Universidad de
Michigan han usado el TEI Lite para marcar sus textos. Y la propia Text
Encoding Initiative utiliza el TEI Lite, para su documentación
técnica --- incluyendo este documento.
Aunque
hemos tratado de hacer este documento independiente, como un tutorial, el
lector debe ser consciente de que este no cubre todos los detalles del esquema
de marcado del TEI. Todos los elementos descritos aquí están
totalmente documentados en las Normas del TEI, que deben ser consultadas para
mayor información sobre los aspectos tratados, y no tratados,
aquí. Se presupone un conocimiento básico de SGML.
2 Un
pequeño ejemplo
Empezaremos con un pequeño
ejemplo, que trata de mostrar lo que ocurre cuando un fragmento de prosa es
escrito en un ordenador por alguien con poco conocimiento del propósito
del marcado o del potencial de los textos electrónicos. En un mundo
ideal, este resultado debería conseguirse con un apropiado
escáner óptico. Trata de ser fiel al aspecto del texto impreso,
conservando los fines de línea, insertando espacios en blanco para
representar el formato de los títulos originales, de los finales de
página, etc. En el caso de caracteres que no están en el teclado
(como las letras acentuadas, la ñ o la raya de los
diálogos), trata de imitar su forma.
Capi'tulo XVIII
Veamos ahora lo que paso' aquella noche. Jenara tomo' asiento
en el despacho del sen-or D. Felici'simo, y Pipao'n, acerca'ndose a este,
le hablo' un poco al oi'do para contarle lo que a la dama le pasaba. A
cada dos palabras que oi'a, D. Felici'simo articulaba una especie de chi-
llido, un ji ji, que ma's teni'a de suspiro que de interjeccio'n y que al
mismo tiempo expresaba hipo y burla.
--Bueno, bueno --murmuro' el anciano moviendo la cabeza en adema'n
de conciliacio'n--.
178
En mi casa no sera' molestada; yo le respondo de que no sera' molestada,
ji ji.
--Gracias --dijo la dama secamente tratando de darse aire con
los restos de su abanico.
--El Sr. D. Miguel de Baraona y yo fuimos muy amigos --an-adio' Car-
nicero, volviendo a Jenara su faz plana, fri'a, sin expresio'n de senti-
miento alguno--, pero muy amigos. Cuando aquellas cuestiones de la Santa
Iglesia Colegial de Vitoria con los Cano'nigos cuartos de frutos de
Calahorra, vino aqui' don Jose' Marque's, cano'nigo entero, D. Vicente Mora-
les, racionero medio y D. Andre's de Baraona, cano'nigo cuarto de opta-
cio'n, hermano de su abuelo de usted que tambie'n vino. Yo le consegui' el
arcedianato de Berberiega para su primo. ¡Cua'ntas tardes pasamos juntos
en este despacho hablando de sermones y Toros! Era en los tiempos de Pedro
Romero y dicho se esta' que habi'a materia para dos buenos aficionados como
nosotros. Si el sen-or de Baraona viviera se acordari'a de cuando vimos la
cogida de Pepe-Hillo y la ce'lebre cornada de Jose' Ca'ndido, motivada por
haberse escupido el toro, con lo que se atolondro' Jose' y quiso matarlo fue-
ra de la jurisdiccio'n, recibiendo un encontronazo...
Esta
transcripción tiene una serie de deficiencias:
- los números de página y los
títulos están entremezclados con el texto de tal modo que hace
muy difícil que un programa informático pueda distinguirlos;
- la conservación de los guiones en la copia del
texto significa que los programas de búsqueda más sencillos no
encontrarán las palabras partidas;
- las letras acentuadas, la ñ y la raya
han sido insertadas específicamente tecleando convenciones que no siguen
ningún patrón estándar y no podrán ser procesadas
correctamente a no ser que el transcriptor recuerde mencionarlas en la
documentación;
- las divisiones entre párrafos se marcan
únicamente mediante un espacio en blanco y se han introducido retornos
manuales al final de cada línea. Por lo tanto, si el tamaño de la
letra usada para imprimir el texto cambia, el reformateo será
problemático.
Ahora
mostramos el mismo fragmento tal y como debería estar etiquetado
según las Normas del TEI. Como veremos, hay muchas niveles de
profundidad del etiquetado, pero como mínimo, el TEI nos permite
representar las diferentes distinciones:
- Las divisiones entre párrafos están
ahora marcadas explícitamente.
- Se usan referencias a entidades para las letras
acentuadas, la ñ y para la raya.
- Las divisiones entre páginas se han marcado
sólo con un elemento vacío: <pb>.
- Para simplificar la búsqueda y el
procesamiento, no se han mantenido las del original y las palabras partidas a
final de línea se han juntado sin ningún comentario previo. Si
fuera interesante mantener las líneas del original, como por ejemplo en
el caso de una impresión importante, podría apuntarse
fácilmente, aunque aquí no es el caso.
- Para que la lectura y corrección sea
más sencilla, se ha insertado una línea al principio de cada
párrafo, pero la tabulación se ha quitado.
<pb n="177">
<div1 type=capítulo n='XVIII'>
<p>Veamos ahora lo que pasó aquella noche. Jenara tomó
asiento en el despacho del señor D. Felicísimo, y
Pipaón, acercándose a este, le habló un poco al
oído para contarle lo que a la dama le pasaba. A cada dos
palabras que oía, D. Felicísimo articulaba una especie
de chillido, un ji ji, que más tenía de suspiro que de
interjección y que al mismo tiempo expresaba hipo y burla.</p>
<p><q>‐Bueno, bueno</q> ‐murmuró el anciano moviendo
la cabeza en ademán de conciliación‐. <pb n="178">
<q>En mi casa no será molestada; yo le respondo de que no
será molestada, ji ji.</q></p>
<p><q>‐Gracias </q>‐dijo la dama secamente tratando de darse
aire con los restos de su abanico.</p>
<p><q>‐El Sr. D. Miguel de Baraona y yo fuimos muy amigos
</q>‐añadió Carnicero, volviendo a Jenara su faz plana,
fría, sin expresión de sentimiento alguno‐, <q>pero
muy amigos. Cuando aquellas cuestiones de la Santa Iglesia Colegial de
Vitoria con los Canónigos cuartos de frutos de Calahorra, vino
aquí don José Marqués, canónigo entero, D.
Vicente Morales, racionero medio y D. Andrés de Baraona,
canónigo cuarto de optación, hermano de su abuelo de usted
que también vino. Yo le conseguí el arcedianato de Berberiega
para su primo. ¡Cuántas tardes pasamos juntos en este despacho
hablando de sermones y Toros! Era en los tiempos de Pedro Romero y dicho
se está que había materia para dos buenos aficionados como
nosotros. Si el señor de Baraona viviera se acordaría de
cuando vimos la cogida de Pepe-Hillo y la célebre cornada de
José Cándido, motivada por haberse escupido el toro, con
lo que se atolondró José y quiso matarlo fuera de la
jurisdicción, recibiendo un encontronazo...</q></p>
La
decisión de centrarnos en el texto de Pérez Galdós, en
lugar de en la impresión de este en esta edición en particular,
es una cuestión fundamental del etiquetado: la selección. Un
etiquetado explicita únicamente aquellos rasgos textuales importantes
para el etiquetador. No es difícil pensar en otros modos en que se
podría profundizar en el etiquetado de este pequeño fragmento.
Por ejemplo:
- se podrían añadir notas al pie que
glosen o comenten algún pasaje;
- se podrían añadir punteros que enlacen
unas partes con otras dentro de este texto;
- se podrían diferenciar los nombres propios del
resto del texto;
- se podría indicar antes del texto
información bibliográfica detallada sobre el origen y contexto
del texto;
- se podría añadir un análisis
lingüístico del fragmento separando sus frases, proposiciones,
palabras, etc., y asociando cada unidad con un código que indique su
categoría gramatical;
- se podría dividir el texto en unidades
narrativas o discursivas;
- se podría incluir en el etiquetado un
análisis sistemático o una interpretación del texto, con
un posible enlace complejo entre el texto y el análisis, o entre el
texto y una o más traducciones;
- se puden enlazar fragmentos del texto con
imágenes, etc.
El modo
recomendado por el TEI de llevar a cabo todo esto se describe a lo largo de
este documento. El esquema del TEI en su conjunto proporciona también
una gran variedad de posibilidades de las que citamos somos unas cuantas:
- análisis detallado de los componentes de los
nombres;
- metainformación detallada que proporcione
información a modo de tesauro sobre los orígenes y temas del
texto;
- información sobre la historia de las
variaciones de impresión o de manuscrito mostrada en una serie
particular de versiones del texto.
Consultar
las Normas completas para ver recomendaciones sobre estas y otras
posibilidades.
3 La estructura de
un texto TEI
Todos los
textos que cumplan el TEI contienen (a) un encabezado TEI (marcado con
el elemento <teiHeader>) y (b) la transcripción del
propio texto (marcado con el elemento <text>).
El
encabezado TEI provee información similar a la de la portada de un texto
impreso. Tiene hasta cuatro partes: una descripción bibliográfica
del texto electrónico, una descripción de cómo ha sido
etiquetado, una descripción no bibliográfica del texto (un
perfil del texto), y una revisión de su historia (su
creación). El encabezado está descrito más detalladamente
en la sección 20 La portada
electrónica.
Un texto
TEI puede ser individual (una única obra) o compuesto
(una colección de obras, como por ejemplo una antología). En
cualquier caso, el texto puede tener un front o back
opcional. En medio está el body, cuerpo de la obra, que, en el
caso de un texto compuesto, puede estar formado por groups, cada uno
conteniendo a su vez más grupos o textos.
Un texto
individual se etiquetará siguiendo una estructura genérica como
esta:
<TEI.2>
<teiHeader> [ Información del encabezado TEI ] </teiHeader>
<text>
<front> [ materia del front ... ] </front>
<body> [ cuerpo del texto ... ] </body>
<back> [ materia back ... ] </back>
</text>
</TEI.2>
Un texto
compuesto también tiene una materia previa (front) y final
(back) opcional. En medio aparecen uno o más grupos de textos,
cada uno con sus propios front y back opcionales. Un texto
compuesto se etiquetará usando una estructura genérica como
esta:
<TEI.2>
<teiHeader> [ información del encabezado del conjunto de textos] </teiHeader>
<text>
<front> [ materia del front del conjunto de textos] </front>
<group>
<text>
<front> [ materia del front del primer texto ] </front>
<body> [ materia del body del primer texto ] </body>
<back> [ materia del back del primer texto ] </back>
</text>
<text>
<front> [ materia del front del segundo texto ] </front>
<body> [ materia del body del segundo texto ] </body>
<back> [ materia del back del segundo texto ] </back>
</text>
[ aquí van los demás textos o grupos de textos ]
</group>
<back> [ materia del back del conjunto de textos ] </back>
</text>
</TEI.2>
También es posible definir
un conjunto de textos TEI, cada uno con su propio encabezado. Este tipo de
colección se llama corpus TEI, y toda esta puede tener un
encabezado:
<teiCorpus>
<teiHeader> [ información del encabezado del corpus ] </teiHeader>
<TEI.2>
<teiHeader> [ información del encabezado del primer texto ] </teiHeader>
<text> [primer texto del corpus] </text>
</TEI.2>
<TEI.2>
<teiHeader> [ información del encabezado del primer texto ] </teiHeader>
<text> [second texto del corpus ] </text>
</TEI.2>
</teiCorpus>
Sin
embargo, no es posible crear un conjunto de corpora, es decir, un a serie de
elementos <teiCorpus> combinados juntos y tratados como un
único objeto. Esta es una restricción de la actual versión
de las Normas TEI.
Más
adelante en este documento trataremos con más profundidad las
estructuras textuales simples. Mostraremos una pequeña lista con los
elementos del TEI más importantes y una breve
explicación o definición junto con los atributos
específicos de cada elemento también definidos. En la
mayoría de los casos, se dan tambi´ne pequeños
ejemplos.
4 Codificando el
cuerpo (body)
Como se ha
indicado arriba, un documento TEI sencillo está formado por los
siguientes elementos:
- <front>
- contiene los materiales previos al comienzo del texto
propiamente dicho: introducción, prólogos, dedicatorias, etc.
- <group>
- contiene un conjunto de textos individuales o grupos
de textos.
- <body>
- contiene todo el cuerpo de un texto individual,
exceptuando la materia del front y del back.
- <back>
- contiene los apéndices, etc., que siguen a la
parte principal de un texto.
Los
elementos específicos del front y del back
están descritos en la sección 19
Materia del Front y del Back. En esta sección veremos los elementos
empleados para marcar el body del texto.
4.1 Elementos de
división textual
El cuerpo
de un texto en prosa puede ser simplemente un conjunto de párrafos, o
estos pueden estar agrupados en capítulos, secciones, subsecciones, etc.
En el primer caso, cada párrafo está etiquetado con la etiqueta
<p>. En el segundo caso, el <body> puede estar
dividido o en diferentes elementos <div1>, o en elementos
<div>, y cada uno de estos subdivididos a su vez como se ve
más abajo:
- <p>
- indica los párrafo en prosa.
- <div>
- contiene una subdivisión del front,
body o back del texto.
- <div1>
- contiene una subdivisión de primer nivel del
front, body o back de un texto (es la mayor si no se
usa el <div0>, si se usara sería la segunda mayor).
Cuando hay
subdivisiones estructurales más pequeñas que el
<div1>, la <div1> puede dividirse en elementos
<div2>, los elementos <div2> en elementos
<div3> menores, etc., hasta el nivel de la
<div7>. Si fueran necesarias más de siete nivel de
divisiones estructurales, se debe modificar el conjunto de etiquetas del TEI
para que acepte <div8>, etc., o para usar los elementos
<div> sin numerar: un <div> puede subdividirse en
<div> más pequeños sin ningún límite
de anidamiento.
Todos
estos elementos de división tienen los mismos tres
atributos:
- type
- Indica el nombre convencional para esta
categoría de división textual. Su valor será normalmente
"Book", "Chapter", "Poem", etc. Otros posibles valores son "Group" para grupos
de poemas, etc., tratados como unidades sencillas sería "Sonnet",
"Speech" y "Song". Los valores insertados en el atributo type del
primer <div>, <div1>, <div2>,
etc., en un texto se supone que es aplicable a los siguientes
<div>, <div1>s, etc., dentro del mismo
<body>. Esto supone que sólo se debe indicar el valor en
el primer elemento de división de cada tipo, o donde este cambie.
- id
- Especifica un identificador único para la
división, que puede usarse para hacer referencias cruzadas o enlaces,
como se verá más adelante en la sección
8 Referencias cruzadas y enlaces . A menudo
es útil insertar un atributo id en las unidades estructurales
de nivel superior de un texto y obtener los valores ID de algún modo
automático, por ejemplo añadiendo un número de
sección a un pequeño código usado para el título de
la obra en cuestión, como se verá en los ejemplos de abajo.
- n
- El atributo n especifica un corto nombre o
número mnemotécnico para la división, que puede usarse
para identificarla en lugar del ID. Si existe un modo convencional de
referencia o abreviatura para las partes de una obra (como el modelo
'libro/capítulo/versículo' para las citas bíblicas), el
atributo n es el lugar para indicarlo.
Los
atributos id y n, de hecho, son tan útiles que
están en cualquier elemento de cualquier TEI DTD: son los llamados
atributos globales. Otros atributos globales definidor por el TEI Lite
se verán en la sección 8.3
Atributos de enlace.
El valor
de cada atributo id debe ser único dentro del documento. Un
modo sencillo de asegurarnos de que es así es hacer que refleje la
estructura jerárquica del documento. Por ejemplo, el libro Los
bandos de Castilla o El caballero del cisne: novela original
española de Ramón López Soler fue publicado en tres
tomos, cada uno divido en capítulos, mientras que algunos
capítulos están divididos en partes. Podríamos definir
valores para el id así:
<div1 id=BC1 n='I' type='tomo'>
<div2 id=BC101 n='I.1' type='capítulo'>
... </div2>
<div2 id=BC102 n='I.2' type='capítulo'>
... </div2>
...
<div2 id=BC110 n='I.10' type='capítulo'>
... </div2>
...
</div1>
<div1 id=BC2 n='II' type='tomo'>
...
</div1>
...
Se deben
usar esquemas de nomenclatura diferentes para los atributos id y
n: esto es útil cuando se usa un esquema de referencia
canónica que no tiene en cuenta la estructura de la obra. Por ejemplo,
en una novela divida en libros y cada uno de estos en capítulos, donde
los capítulos están numerados consecutivamente a lo largo de toda
la obra, en lugar de por libros, podríamos usar un esquema como
este:
<div1 id=TS01 n='1' type='Volumen'>
<div2 id=TS011 n='1' type='Capítulo'>
...
<div2 id=TS012 n='2'>
...
</div1>
<div1 id=TS02 n='2' type='Volumen'>
<div2 id=TS021 n='3'type='Capítulo'>
...
<div2 id=TS022 n='4'>
...
</div1>
En este
caso la obra tiene dos volúmenes y cada uno de estos tiene dos
capítulos. Los capítulos se numeran convencionalmente del 1 al 4,
pero los valores de los id especificados permite además
referirnos a ellos como si estuvieran numerados: 1.1, 1.2, 2.1, 2.2.
4.2 Encabezados
y cierres
Cada
<div>, <div1>, <div2>, etc., puede
tener un título o encabezado al principio, y (no tan comúnmente)
un cierre como "Fin del Capítulo I". Se emplean estos elementos para
transcribirlos:
- <head>
- contiene cualquier encabezado, por ejemplo, el
título de una sección o el encabezado de una lista o
glosario.
- <trailer>
- contiene un título o pie de cierre que
aparece al final de una división de un texto.
Otros
elementos que pueden ser necesarios al principio o final de las divisiones
textuales se verán más abajo en la sección
19.1.2 Materia preliminar.
Es tarea
del transcriptor decidir si los encabezados y pies deben ser incluidos en la
transcripción. En el caso en que un encabezado es totalmente regular
(por ejemplo, "Capítulo 1") o se le ha dado (el título) como
valores en los atributos (p. ej., <div1 type='Capítulo'
n=1>), se puede omitir; en los casos en que tiene otro texto
irrecuperable, este se debe incluir. Por ejemplo, el comienzo de El
ante-Cristo de Francisco Navarro Villoslada se podría etiquetar
así:
<div1 id=AC1 type='Parte' n='1'>
<head>Favores que matan</head>
<div2 id=AC11 n='1' type='Capítulo'>
<head>La más hermosa</head>
<p>Era una de esas apacibles y sosegadas tardes de otoño,...
4.3 Prosa, Verso
y Teatro
Como se ha
indicado anteriormente, los párrafos que indican una división
textual deben etiquetarse con la etiqueta <p>. Por ejemplo:
<body>
<p>En un lugar de la Mancha, de cuyo nombre no quiero acordarme,
no ha mucho tiempo que vivía un hidalgo de los de lanza en
astillero, adarga antigua, rocín flaco y galgo corredor. Una
olla de algo más vaca que carnero, salpicón las más noches,
duelos y quebrantos los sábados, lantejas los viernes, algún
palomino de añadidura los domingos, consumían las tres partes
de su hacienda. El resto della concluían sayo de velarte, calzas
de velludo para las fiestas, con sus pantuflos de lo mesmo, y los
días de entresemana se honraba con su vellorí de lo más fino.
[...]
</p>
</body>
Existe un
gran número de etiquetas para etiquetar los diferentes componentes de
los textos poéticos y dramáticos (teatro, películas,
etc.):
- <l>
- contiene un único verso, aunque pueda estar
incompleto. Tiene los siguientes atributos:
- part
- indica si el verso está métricamente
completo o no. Los valores válidos son:
F para la parte final de un verso incompleto, Y si el verso está métricamente incompleto, N si el verso está completo o si no se hace referencia a esto, I para la parte inicial de un verso incompleto, M para la parte media de un verso incompleto.
- <lg>
- contiene un grupo de versos que funcionan como una
unidad formal, p. ej., una estrofa, refrán, etc.
- <sp>
- contiene un parlamento en un texto dramático o
en un pasaje presentado como tal, ya esté en prosa o en verso. Tiene los
siguientes atributos:
- who
- identifica al hablante insertando un ID.
- <speaker>
- contiene un tipo especial de encabezado o
rótulo, en el que se da el nombre de uno o más hablantes de un
texto o fragmento dramático.
- <stage>
- contiene cualquier tipo de acotación en un
texto o fragmento dramático. Tiene los siguientes atributos:
- type
- indica el tipo de acotación. Se sugieren los
siguientes valores
entrance, exit, setting, delivery, etc.
Por
ejemplo, este es el comienzo de un texto poético en el que los versos y
estrófas están etiquetadas:
<lg n=I>
<l>Altazor ¿por qué perdiste tu primera serenidad?</l>
<l>¿Qué ángel malo se paró en la puerta de tu sonrisa</l>
<l>Con la espada en la mano?</l>
<l>¿Quién sembró la angustia en las llanuras de tus ojos como el adorno
de un dios?</l>
<l>¿Por qué un día de repente sentiste el terror de ser?</l>
<l>Y esa voz que te gritó vives y no te ves vivir</l>
<l>¿Quién hizo converger tus pensamientos al cruce de todos los vientos
del dolor?</l>
<l>Se rompió el diamante de tus sueños en un mar de estupor</l>
<l>Estás perdido Altazor</l>
<l>Solo en medio del universo</l>
<l>Solo como una nota que florece en las alturas del vacío</l>
<l>No hay bien no hay mal ni verdad ni orden ni belleza</l>
<l>¿En dónde estás Altazor?</l>
</lg>
Las
etiquetas <l> indican versos, no líneas
tipográficas: las líneas originales de algunos versos de arriba
no se han explicitado con esta codificación y se ha perdido. El elemento
<lb> descrito en la sección
5 Numeración de página y
línea se puede usar para marcar las líneas
tipográficas si se deseara.
A veces,
especialmente en los textos dramáticos, las líneas de verso se
dividen entre personajes. La forma más sencilla de etiquetar esto es
usar el atributo part para indicar que las líneas partidas
están incompletas, con se muestra en este ejemplo:
<div1 type ='Acto' n='II'><head>Acto segundo
[...]
<stage rend=italic>Dentro ruido de pastores, y sale Bato.</stage>
[...]
<sp><speaker>CUPIDO</speaker><l part=I>¿Cantáis vos?</l>
<sp><speaker>BATO</speaker><l part=M>Muy mal.</l>
<sp><speaker>CUPIDO</speaker><l part=F>¿Saltáis?</l>
<sp><speaker>BATO</speaker><l part=I>Mucho peor.</l>
<sp><speaker>CUPIDO</speaker><l part=F>¿Hacéis versos?</l>
<sp><speaker>BATO</speaker><l>Sí, señor; mas son perversos.</l>
El mismo
sistema se puede aplicar a las estrófas divididas entre dos
hablantes:
<sp><speaker>ELISA</speaker>
<lg type=estrofa part=I>
<l>Bien te supieras quedar</l>
<l>si me tuvieras amor.</l>
</lg>
<sp><speaker>FABIO</speaker>
<lg part=F>
<l>No hay amor donde hay señor,</l>
<l>ni quedar donde hay mandar.</l>
</lg>
Este
ejemplo muestra cómo se puede etiquetar un diálogo en prosa en un
texto dramático. También muestra el uso del atributo who
para indicar un código que identifique al hablante de ese fragmento de
diálogo:
<sp who="MAT">
<speaker>MATILDE</speaker>
<p>Pero, querida tía, ¿es algún delito acaso interesarse
en la suerte de Federico? Es tan bueno, tan amable, tan
desgraciado... Un joven huérfano, aislado, que nunca ha
conocido a sus padres... ¿Usted misma no le recogió en su
casa desde su más tierna infancia? ¿No le ha dado usted
una educación nada común?...</p>
</sp>
<sp who="ISA">
<speaker>ISABEL</speaker>
<p>Eres muy niña todavía, Matilde. Es verdad que no es un
delito querer a Federico; que lo merece, ¡ah! sin duda; pero
una joven de tus años debe ocultar sus sentimientos, y...</p>
</sp>
<sp who="MAT">
<speaker>MATILDE</speaker>
<p>Señora...</p>
</sp>
5
Numeración de página y línea
Los
finales de página y línea pueden marcarse con los siguientes
elementos vacíos.
- <pb>
- marca el límite entre una página y la
siguiente según un sistema de referencia estándar.
- <lb>
- marca el inicio de una nueva línea
(tipográfica) según alguna edición o versión del
texto.
Estos
elementos indican un punto exacto del texto, no un fragmento de este. El
atributo global n debe emplearse para indicar el número de la
página o línea que empieza en la etiqueta. Además, estos
dos elementos comparten el siguiente atributo:
- ed
- indica la edición o versión en la que
se da el final de página en ese punto.
Cuando se
trabaja con un texto original paginado, suele ser útil indicar esta
paginación, aunque sea para simplificar más tarde la
corrección. Indicar los finales de línea puede ser útil
por el mismo motivo; el tratamiento de los guiones al final de línea en
las fuentes impresas requerirá más atención.
Si se
marca la paginación, etc., de más de una edición, se debe
especificar cada edición en el atributo ed, e insertar tantas
etiquetas como sean necesarias. Por ejemplo, en el siguiente pasaje indicamos
dónde están los fines de página en dos ediciones
diferentes (ED1 y ED2)
<p>Pero otra vez, sin quererlo, me aparto de mi objeto,
y no ha de ser así, sino que vuelvo atrás para deciros
que el señor conde de Rumblar, luego que esparcía su
ánimo en aquello del esqueleto, y hablaba por los codos
durante una hora, iba en busca de entretenimientos más
agradables, y aquí es donde viene como anillo en el dedo
la ocasión de nombrar <pb ed=ED2 n='15'> a la Zaina,
porque a eso de las once era cuando penetraba en sus
salones el joven de que me ocupo, no acompañado sólo
por el citado Mañara, sino también por D. Luis de
Santorcaz, que <pb ed=ED1 n='10'> siempre se le unía en
la Rosa-Cruz para seguir juntos hasta la madrugada.</p>
Los
elementos <pb> y <lb> son casos especiales de la
clase general de elementos milestone que marcan puntos de referencia
dentro de un texto. El TEI Lite también tiene un elemento
genérico <milestone>, que no está limitado a casos
especiales sino que puede marcar cualquier tipo de punto de referencia: por
ejemplo, un final de columna, el inicio de una nueva sección que no se
marca de otro modo, etc. Este elemento tiene la siguiente descripción t
atributos:
- <milestone>
- marca el límite entre secciones de un texto,
tal y como se indica en los cambios de un sistema de referencia
estándar. Tiene los siguientes atributos:
- ed
- indica la edición o versión a la que
hace referencia el milestone.
- unit
- indica que tipo de sección cambia en ese
milestone.
Los
nombres usados para los tipos de unidad (atributo unit) y para las
ediciones a las que hace referencia (atributo ed) pueden elegirse
libremente, pero se deben indicar en el encabezado (teiHeader).
El
elemento <milestone> puede usarse en lugar de otros, o los otros
pueden emplearse como un conjunto; pero no deben mezclarse arbitrariamente.
6 Marcar frases
enfatizadas
6.1 Cambios de
tipografía, etc.
Las
palabras o frases enfatizadas son aquellas que visiblemente son diferentes del
resto del texto, normalmente por un cambio en la fuente, en el tipo de letra o
en el color, con el fin de llamar la atención del lector.
El
atributo global rend puede utilizarse en cualquier cualquier elemento
cuanodo sea necesario para indicar cómo debe ser ese enfasis. Por
ejemplo, un encabezado que deba ir en negrita podría etiquetarse como
head rend='Bold', y uno en cursiva como head
rend='Italic'.
No siempre
es posible o deseable interpretar las razones de dichos cambios en el formato
del texto. En tales casos el elemento <hi> puede usarse para
marcar un fragmento de texto enfatizado sin indicar su estatus o
posición.
- <hi>
- marca una palabra o frase gráficamente
distinta del texto que le rodea por razones que no se especifican.
En el
siguiente ejemplo se recoge aunque no se interpreta el uso de una
tipografía distinta para el subtítulo y para el nombre incluido:
<hi rend=gothic>El ama y la sobrina</hi>
El lector tendrá la bondad de trasladarse con nosotros
a una hermosa quinta del reino de Granada, donde vivía
habrá como veinte años una familia acomodada y virtuosa.
<hi rend=italic>Don Alberto Ludueña</hi> se había
enriquecido en el comercio: y todo su conato, desde que
perdió a una esposa querida...
Por otro
lado, en los casos en que se sepa con certeza la causa del enfasis podemos usar
otros elementos más específicos.
- <emph>
- marca palabras o frases que son enfatizadas por un
efecto lingüístico o retórico.
- <foreign>
- identifica una palabra o frase que está en un
idioma diferente del del texto de alrededor.
- <mentioned>
- marca palabras o frases mencionadas o citadas, no
usadas.
- <term>
- contiene una palabra o expresión que se
considera un término técnico.
- <title>
- contiene el título de una obra, ya sea un
artículo, libro, periódico, etc., y los subtítulos. Tiene
los siguientes atributos:
- level
- indica si es el título de un artículo,
libro, periódico, serie o material inédito. Los valores
válidos son:
m para un título monográfico (libro, colección u
otro objeto publicado como un objeto independiente, incluyendo cada uno de los
volúmenes de las obras con varios); s (título de una serie o secuencia); j (título de un periódico); u para los títulos de material inédito (se incluyen las
tesis y conferencias, excepto en el caso de que estén publicadas por
alguna editorial); a para los títulos analíticos (artículos, poemas u
otros objetos publicados como parte de una publicación mayor).
- type
- clasifica el título de acuerdo con alguna
tipología. Algunos valores recomendados son:
abbreviated, main, subordinate (para los subtítulos y los títulos de partes) y parallel (para los títulos alternativos, a menudo en otro idioma, por los
que también se conoce la obra).
Algunos
rasgos (especialmente citas o glosas) se pueden encontrar en un texto o marcado
con algún enfasis o con comillas. En estos casos, se deben emplear los
elementos <q> y <gloss> (como se verá en
la siguiente sección). Si se debiese mantener el formato,
usaríamos el atributo global rend.
He
aquí un ejemplo de los elementos definidos:
Dafnis y Cloe, más bien que
de novela bucólica, puede calificarse de novela campesina, de novela
idílica o de idilio en prosa; y en este sentido, lejos de pasar de moda,
da la moda y sirve de modelo aún, mutatis mutandi, no
sólo a Pablo y Virginia, sino a muchas preciosas novelas de Jorge Sand,
y hasta a una que compuso en español, pocos años ha, cierto amigo
mío, con el título de Pepita
Jiménez.
Si
interpretamos la función del texto enfatizado, la frase quedaría
así:
<title>Dafnis y Cloe</title>, más bien que de
novela bucólica, puede calificarse de novela campesina,
de novela idílica o de idilio en prosa; y en este
sentido, lejos de pasar de moda, da la moda y sirve de
modelo aún, <foreign>mutatis mutandi</foreign>, no sólo
a Pablo y Virginia, sino a muchas preciosas novelas de
Jorge Sand, y hasta a una que compuso en español, pocos
años ha, cierto amigo mío, con el título de <title>Pepita
Jiménez</title>.
Si
sólo reproducimos el formato del original, quedaría entonces
así:
<hi rend=italic>Dafnis y Cloe</hi>, más bien que
de novela bucólica, puede calificarse de novela campesina,
de novela idílica o de idilio en prosa; y en este sentido,
lejos de pasar de moda, da la moda y sirve de modelo aún,
<hi rend=italic>mutatis mutandi</hi>, no sólo a Pablo y
Virginia, sino a muchas preciosas novelas de Jorge Sand,
y hasta a una que compuso en español, pocos años ha,
cierto amigo mío, con el título de <hi rend=italic>Pepita
Jiménez</hi>.
6.2 Citas y
características similares
Del mismo
modo que los cambios en la tipografía, las comillas se usan
convencionalmente para indicar varios rasgos dentro de un texto, entre los que
destacan las citas. En la medida de lo posible, recomendamos que el rasgo
subyacente sea etiquetado con los siguientes elementos, en lugar de simplemente
reproducir las comillas del texto:
- <q>
- contiene aparentemente una cita -una
representación de habla o pensamiento marcado como si fuera citado por
otra persona (esté realmente citado o no); en prosa, suele ser el caso
de los parlamentos de un personaje; en los diccionarios, el elemento
<q> se puede usar para marcar ejemplos de uso reales o
inventados. Tiene los siguientes atributos:
- type
- puede usarse para indicar si el texto citado es
hablado o pensado, o para describirlo de modo más exacto. Posibles
valores recomendados son:
spoken (para la representación de estilo directo, normalmente marcado
con comillas o raya) y thought (para la representación del pensamiento, p. ej., un
monólogo interno).
- who
- aquí se identifica al hablante de dicho texto
en estilo directo.
- <mentioned>
- marca palabras o frases mencionadas o citadas, no
usadas.
- <soCalled>
- contiene una palabra o frase en la que el autor o
narrador niega su responsabilidad, por ejemplo mediante el uso de comillas o
cursiva.
- <gloss>
- marca una palabra o frase que constituye una glosa o
definición de alguna otra palabra o frase. Tiene los siguientes
atributos:
- target
- identifica la palabra o frase asociada.
He
aquí un sencillo ejemplo de cita:
Con esa profundización en las más íntimas
realidades humanas hay que relacionar la
permanencia de uno de los elementos trágicos
fundamentales, la catarsis, que Buero entiende
como <q>interior perfeccionamiento.</q>
Para
indicar cómo fue impresa una cita (por ejemplo, in-line o
resaltada como display o block quotation), se debe usar el
atributo rend. También puede emplearse para indicar cualquier
tipo de marca de citación.
El estilo
directo interrumpido por un narrador puede representarse simplemente cerrando
la etiqueta de cita y abriéndola de nuevo tras la interrupción,
como en este ejemplo:
<p><q>Extraño es</q> —dijo fray Domingo—
<q>que afirme todo eso vuestra reverencia por meras
conjeturas.</q></p>
Si es
importante transmitir la idea de que los dos elementos <q>
juntos reproducen un único parlamento, podemos usar los atributos de
unión next y prev, tal y como se describe en la
sección 8.3 Atributos de enlace.
Las citas
pueden ir acompañadas por una referencia a la fuente o hablante,
utilizando el atributo who, según se indique o no en el texto
dicha fuente. Por ejemplo:
<q who=Wilson>Spaulding, he came down into the office just this
day eight weeks with this very paper in his hand, and he
says:—<q who=Spaulding>I wish to the Lord, Mr. Wilson, that
I was a red-headed man.</q></q>
<q who=Quijote>Gracias doy al cielo por la merced
que me hace, pues tan presto me pone ocasiones
delante donde yo pueda cumplir con lo que debo a mi
profesión, y donde pueda coger el fruto de mis buenos
deseos. Estas voces, sin duda, son de algún menesteroso
o menesterosa que ha menester mi favor y ayuda.</q>
Este
ejemplo también muestra cómo puebe haber citas incluidas dentro
de otras citas: un personaje (Wilson) cita a otro personaje (Spaulding).
El creador
del texto electrónico debe decidir si las marcas de cita (comillas,
guiones,...) son reemplazadas por las etiquetas o si las etiquetas son
añadidas y se mantienen las marcas de cita (comillas, guiones,...). Si
las marcas de citas son suprimidas del texto, se debe usar el atributo
rend para indicar cómo venían dichas citas en el texto
original.
Como con
el resaltado, no siempre es posible ni deseable interpretar de este modo la
función de las marcas de cita de un texto. En tales casos, podemos usar
la etiqueta <hi rend=quoted> para marcar un texto citado sin
indicar su estado o situación.
6.3 Palabras y
expresiones en otros idiomas
Las
palabras o frases que están en un idioma distinto al principal del texto
pueden etiquetarse de dos modos. Si la palabra o frase ya está
etiquetado por alguna razón, se puede rellenar el atributo lang
de dicho elemento con un valor que indique el idioma. En los casos en que no
hay un elemento, se debe usar el elemento <foreign>, usando
también en este caso el atributo lang. Por ejemplo:
John has real <foreign lang=fra>savoir-faire</foreign>.
Have you read <title lang=deu>Die Dreigroschenoper</title>?
<mentioned lang=fra>Savoir-faire</mentioned> is French for know-how.
The court issued a writ of <term lang=lat>mandamus</term>.
Como
muestran estos ejemplos, el elemento <foreign> no debe usarse
para etiquetar palabras en otro idioma si se usa otro elemento más
específico como <title>, <mentioned>, o
<term>. El atributo global lang se puede usar en
cualquier elemento para mostrar que se está usando un idioma diferente
del general del texto.
7 Notas
Todas las
notas deben marcarse utilizando el mismo elemento, ya estén impresas
como notas al pie, al final de capítulo, marginales o de otro modo:
- <note>
- contiene una nota o anotación. Tiene los
siguientes atributos:
- type
- describe el tipo de nota.
- resp
- indica quién es el responsable de dicha
anotación: autor, editor, traductor, etc. El valor puede ser
author, editor, etc., o las iniciales del quien ha hecho la anotación.
- place
- indica dónde aparece la nota en el texto
fuente. Tiene los siguientes valores válidos:
inline, interlinear, left, right, foot, y end, para aquellas notas que aparecen como párrafos en el cuerpo del
texto, entre líneas, al margen izquierdo o derecho, a pie de
página o al final de capítulo o volumen, respectivamente.
- target
- indica el punto de enlace a una nota o el principio
del fragmento al que la nota está referida.
- targetEnd
- apunta al final del fragmento al que la nota hace
referencia, si la nota no está incluida en el texto en ese punto.
- anchored
- indica si el texto copia muestra el lugar exacto de
referencia de la nota.
En la
medida de lo posible, el texto de la nota debe insertarse en el texto en el
punto donde su identificador o marca aparece en el texto fuente. Esto puede no
ser posible por ejemplo con las notas marginales, que no pueden ser insertadas
en un lugar exacto. Para simplificarlo, lo adecuado puede ser colocar las notas
marginales antes del párrafo. Las notas también pueden ser
colocadas en una división independiente del texto (como notas al final
de capítulo, en los libros impresos) y hacer enlaces al lugar donde
hacen referencia por medio del atributo target.
El
atributo n puede usarse para indicar el número o identificador
de una nota si es necesario. El atributo resp debe usarse
consistentemente para distinguir entre las notas del autor y las del editor, si
la obra tiene de los dos tipos; de otro modo, el TEI header debe
indicar de qué tipo son.
Ejemplos:
<p>Cuál encomiaba la defensa de Zaragoza
<note place=foot n=1>El primer sitio de
Zaragoza.</note>; cuál ponía la defensa
de Valencia contra Moncey por cima de
todos los hechos de armas antiguos y
modernos; quién decía que nada podía
igualarse a lo del Bruch;...</p>
<lg>
<l>En tiempo del Estoraque
<note place=margin>El año 1833 el general
Rosas en su mensaje a la Sala dijo que, en
su campaña al Colorado, había encontrado
por junto la papilla y el estoraque.</note></l>
<l>que encontró don Juan Manuel,</l>
<l>largaba cierto papel,</l>
<l>titulao el Bristi-Pake,</l>
<l>un Inglés de mal empaque...</l>
</lg>
8 Referencias
cruzadas y enlaces
Las
referencias cruzadas o enlaces de un punto a otro dentro del mismo documento
SGML se pueden etiquetar usando los elementos descritos en la sección
8.1 Referencias cruzadas sencillas. Las
referencias o enlaces a elementos de otro documento SGML o a partes de
documentos que no estén en SGML pueden marcarse utilizando los
punteros extendidos del TEI (TEI extended pointers) descritos
en la sección 8.2 Punteros
extendidos. Los enlaces implícitos (como la asociación entre
dos textos paralelos o entre un texto y su interpretación) puede
codificarse usando los atributos de enlace a los que hace referencia en la
sección 8.3 Atributos de
enlace.
8.1 Referencias
cruzadas sencillas
Una
referencia cruzada de un punto a otro de un documento puede etiquetarse con los
siguientes elementos:
- <ref>
- una referencia a otro sitio del documento, en
función de uno o más elementos identificables, posiblemente
modificados por un texto o comentario adicional.
- <ptr>
- un puntero a otro sitio del documento en
función de uno o más elementos identificables.
Estos
elementos comparten los siguientes atributos:
- target
- especifica el destino del puntero como uno o
más identificadores SGML.
- type
- categoriza el puntero de algún modo, usando un
conjunto conveniente de categorías.
- targType
- especifica el tipo (o tipos) de elemento al que
apunta este puntero.
- crDate
- especifica cuando se creó este puntero.
- resp
- especifica el creador del puntero.
La
diferencia entre estos dos elementos es que <ptr> es un elemento
vacío, que únicamente indica un punto desde el que se hace un
enlace, mientras que <ref> puede contener texto -normalmente el
texto de la propia referencia cruzada. El elemento <ptr> se usa
para las referencias cruzadas que nos indicadas por algún símbolo
o icono o por un botón en un texto electrónico. También es
útil en los sistemas de producción de documentos en los que el
maquetador puede general la forma verbal correcta de una referencia
cruzada.
Las
siguientes dos forma, por ejemplo, son lógicamente equivalentes (dando
por hecho que hemos documentado la forma verbal exacta de las referencias
cruzadas representadas con los elementos <ptr>):
Para más información ver el <ref target=ART4>artículo IV</ref>.
Para más información ver <ptr target=ART4>.
El valor
del atributo target debe ser un identificador SGML del documento SGML.
Esto implica que el fragmento o frase al que se apunta debe tener un
identificador y por lo tanto debe estar etiquetado con algún elemento.
En el siguiente ejemplo, la referencia es a un elemento
<div1>:
...
para más información ver <ptr target=ART4>.
...
<div1 id=ART4><head>Del género de los nombres</head>
...
Dado que
el atributo id es global, cualquier elemento de un documento puede ser
enlazado de este modo. En el siguiente ejemplo, se le ha dado un identificador
a un párrafo para que pueda ser enlazado:
...
esto está explicado en <ref target=pspec>el párrafo sobre los enlaces</ref>
...
<p id=pspec>Se pueden hacer enlaces a cualquier elemento
...
El
atributo targType se puede usar para indicar que el elemento referido
debe ser de un tipo específico, como en el siguiente ejemplo:
...
esto está explicado en <ref target=dspec targType='div1 div2'>
la sección sobre los enlaces</ref>
Esta
referencia puede fallar si el elemento con el identificador dspec no
es un <div1> o un <div2>. Sin embargo, esto no
puede revisarse únicamente por medio de un programa SGML, ya que el
programa SGML sólo puede comprobar que el elemento dspec
existe.
El
atributo type puede usarse para clasificar, de algún modo, el
tipo de enlace representado por el puntero. Los atributos resp y
crDate también pueden usarse para representar al responsable y
la fecha de creación del enlace, respectivamente. Por ejemplo:
...
esto está explicado en
<ref type=xref resp=auto crdate=950521 target=dspec targtype='div1 div2'>
la sección sobre los enlaces</ref>
Lo
más probable es que estos atributos se usen en sistemas de hipertexto
que contengan muchos punteros usados con diferentes propósitos y creados
por una variedad de medios.
A veces el
destino de una referencia cruzada no corresponde a ningún rasgo
particular del texto, y por lo tanto no puede etiquetarse como un elemento. Si
el destino deseado es simplemente un punto del documento, el modo más
fácil de marcarlo es introducir un elemento <anchor> en
el sitio apropiado. Si el destino es una serie de palabras sin etiquetar
específicamente, se puede introducir el elemento <seg>
para marcarlas. Estos dos elementos tienen la siguiente descripción:
- <anchor>
- especifica un sitio o punto dentro de un documento al
que hacer la referencia.
- <seg>
- identifica un fragmento de texto dentro de un
documento para que pueda enlazarse. Tiene los siguientes atributos:
- type
- indica el tipo de segmento.
En este
ejemplo (ficticio), los elementos <ref> se han empleado para
representar puntos en este texto que deben ser enlazados de algún modo a
otras partes de este; en el primer caso a un punto, y en el segundo a una serie
de palabras:
Volviendo al <ref target=ABCD>punto donde me
quedé dormido</ref>, me di cuenta que hay
<ref target=EFGH>tres palabras</ref> que han
sido marcadas en rojo por el lector anterior
Este
etiquetado requiere que los elementos con identificadores específicos
(ABCD y EFGH en este ejemplo) aparezcan en algún sitio
del documento. Si tenemos en cuenta que no exista ningún elemento con
estos identificadores podemos utilizar los elementos <anchor> y
<seg>:
.... <anchor type=bookmark id='ABCD'> ....
....<seg type=target id='EFGH'> ... </seg> ...
El
atributo type debe usarse (como arriba) para distinguir los diferentes
propósitos por los que se usan estos elementos en el texto. Otros usos
son los que se verán más abajo en la sección
8.3 Atributos de enlace.
8.2 Punteros
extendidos
Los
elementos <ptr> y <ref> sólo pueden usarse
para referencias cruzadas o enlaces cuyos destinos están en el mismo
documento SGML. Sólo pueden hacer referenica a elementos SGML. Los
elementos explicados en esta sección no están restringidos.
- <xptr>
- define un puntero a otra posición en el mismo
documento o a otro documento externo.
- <xref>
- define un puntero a otra posición en el mismo
documento o a otro documento externo, posiblemente modificado por un texto o
comentario adicional.
Además de los atributos de
los punteros que hemos visto en la sección
8.1 Referencias cruzadas sencillas, estos
elementos comparten también estos atributos, que se usan para indicar el
destino de la referencia cruzada o enlace en lugar del atributo
target:
- doc
- especifica el documento en el que se encuentra el
punto requerido; por defecto es el mismo documento.
- from
- especifica el comienzo del destino del puntero como
una expresión en la sintaxis del puntero extendido del TEI; por defecto
todo el documento indicado en el atributo doc.
- to
- especifica el fin del destino del puntero como una
expresión en la sintaxis del puntero extendido del TEI; sólo
puede indicarse si se ha rellenado el atributo from.
La
especificación completa del lenguaje usado para expresar el destino de
los punteros extendidos del TEI está fuera de lo previsto en este
documento; aquí señalamos únicamente algunos de los aspectos más útiles. Hay que consultar las Normas completas para estudiarlo en más detalle.
Un
<xptr> (o <xref>) puede apuntar a todo otro
documento simplemente insertando un nombre de entidad como valor del atributo
doc, como en este ejemplo:
ver <xref doc=P3>Las Normas del TEI</xref>
Este
ejemplo asume que algún sistema o entidad pública con el nombre
P3 ha sido declarada. Esta declaración puede colocarse dentro
del archivo de extensión litemods.ent o en cualquier otro modo
específico del software de SGML que se use (como veremos en la
sección 15 Imágenes y
Gráficos ).
El
atributo from se usa para especificar cualquier lugar dentro del
documento especificado en el atributo doc. El valor especificado
utiliza un lenguaje especial, llamado TEI extended pointer syntax
(sintaxis de los punteros extendidos del TEI); de la que sólo
se dan algunos detalles aquí. En este lenguaje, los lugares se definen
como una serie de steps (pasos), y cada uno identifica una
parte del documento, a menudo en función de los lugares identificados en
los pasos anteriores. Por ejemplo, es posible apuntar a la tercera
oración del segundo párrafo del capítulo dos seleccionando
el capítulo dos en el primer paso, el segundo párrafo en el
segundo paso y la tercera oración en el último paso. Un paso
puede estar definido en función de conceptos de SGML (como parent, descendent, preceding, etc.) o, más líbremente, en función de patrones
de texto, de posición palabras o de carácter. También se
puede usar una notación que no sea de SGML o especificar un lugar dentro
de un gráfico en función de un sistema de coordenadas.
Los
atributos from y to emplean la misma notación. Cada
uno apunta a una parte del documento de destino; el puntero extendido en
conjunto apunta al fragmento que comienza en el inicio del from y
continúa hasta el final del to.
El primer
paso en una ruta de situación debe especificar el identificador de
algún elemento dentro del documento de destino, como en este
ejemplo:
<xptr doc=P3 from='id (SA)'>
Esto
selecciona todo el elemento que lleve el identificador SA dentro de la
entidad P3. Si se necesita un destino más concreto debemos
seguir otros pasos. Los siguientes términos están disponibles
para seleccionar otros elementos en función de su relación con
este:
- child
- elementos contenidos por este.
- ancestor
- elementos que contienen a este, directa o
indirectamente.
- previous
- elementos con el mismo padre que este pero anteriores
en el documento.
- next
- elementos con el mismo padre que este pero
posteriores en el documento.
- preceding
- elementos del documento que empiezan antes de este,
independientemente de sus padres.
- following
- elementos del documento que empiezan después
de este, independientemente de sus padres.
Cada uno
de estos términos implica un conjunto particular de elementos (el
conjunto de hijos, el conjunto de ancestros, el conjunto de hermanos, etc.);
para especificar a qué elemento del conjunto estamos apuntado el
término puede, opcionalmente, ir seguido por una lista entre
paréntesis que contenga:
- un número positivo o negativo, que indique
cuál de los muchos elementos posibles es el deseado (+1 indica el primer
elemento encontrado, empezando desde la posición actual y -1 indica el
último), o el término
all, que indica que se apunta a todos los elementos del conjunto;
- un identificador genérico, que indica el tipo
de elemento requerido o un asterisco que indica cualquier tipo de
elemento;
- un conjunto de nombres y valores de elementos, que
indiquen que el elemento selecionado debe tener atributos con los nombres y
valores especificados, si hay alguno.
Siguiendo
con el ejemplo anterior, la siguiente referencia seleccionará el tercer
elemento <p> directamente contenido por cualquier elemento que
tenga el identificador SA:
<xptr doc=P3 from='id (SA) child (3 p)'>
Del mismo
modo, dado que la entidad P3 es de hecho una referencia a la forma
SGML de las Normas del TEI, entonces la siguiente referencia
seleccionará la sección 14.2.2 de aquella publicación en
la que (como sucede) la sintaxis del puntero extendido está formalmente
definida:
Para más detalles, ver
<ref doc=P3 from='id (SA) child (2 div2) child (2 div3)'>
La definición de la sintaxis de los punteros extendidos del TEI
</ref>
Comúnmente, el objetivo de
una referencia cruzada estará definida adecuadamente en el atributo
from. En algunos documentos, sin embargo, puede ser más
conveniente definir tanto el punto de partida como el de fin. Como se ha dicho
arriba, el atributo to se proporciona por este motivo. Por
ejemplo,
<xptr doc=P1 from='id (xyz)' to='id (abc)'>
es un
puntero extendido cuyo destino es el fragmento que comienza al principio de
cualquier elemento del documento P1 que tenga el identificador
XYZ y que acaba al final de cualquier elemento del mismo documento que
tenga el identificador ABC. Todos los elementos que haya en medio
también están incluidos, independientemente de la estructura; el
puntero es incorrecto si el final del ABC está antes del
comienzo de XYZ.
Utilizando
esta sintaxis es muy fácil construir especificaciones muy complejas. Por
ejemplo, la siguiente referencia seleccionará el elemento
<head> más reciente que lleve un atributo lang
con el valor LAT y que aparezca antes del comienzo del elemento con el identificador
SA:
<xptr doc=P3 from='id (SA) preceding (1 head lang lat)'>
Si no se
da un valor al atributo doc, se presume el dicho documento. Por tanto,
las siguientes referencias son semánticamente equivalentes. Las dos
indican el elemento con el identificador X1 de dicho documento:
<ptr target=X1>
<xptr from='id (X1)'>
8.3 Atributos de
enlace
Los
siguientes atributos de enlace están definidos en todos los
elementos de la DTD del TEI Lite:
- ana
- enlaza un elemento con su interpretación.
- corresp
- enlaza un elemento con uno o más elementos
parecidos.
- next
- enlaza un elemento al siguiente en un conjunto.
- prev
- enlaza un elemento al anterior en un conjunto.
El
atributo ana (análisis) está pensado para aquellos casos
en que se ha definido un conjunto de análisis o interpretaciones
abstractas en algún lugar del documento, como se verá en la
sección 16 Interpretación y
análisis . Por ejemplo, un análisis lingüístico
de la frase "Juan bebe agua" podría etiquetarse así:
<seg type=sentence ana=SVO>
<seg type=lex ana=NP1>Juan</seg>
<seg type=lex ana=VVT>bebe</seg>
<seg type=lex ana=NP1>agua</seg>
</seg>
Este
etiquetado implica la existencia en el documento de elementos con
identificadores SVO, NP1 y VVT donde se explique el
significado de estos códigos. Fíjese en el uso del elemento
<seg> par marcar los componentes del análisis,
distinguiéndolos por medio del atributo type.
El
atributo corresp (correspondiente) proporciona un modo sencillo de
representar algún tipo de correspondencia entre dos elementos del texto.
Por ejemplo, en un texto multilingüe, se puede utilizar para enlazar el
original y la traducción, como en este ejemplo:
<seg lang=FRA id=ES1 corresp=EN1>Juan bebe agua</seg>
<seg lang=ENG id=EN1 corresp=ES1>John drinks water</seg>
El mismo
mecanismo puede usarse para varios fines. En el siguiente ejemplo (ficticio),
se ha usado para representar correspondencias anafóricas entre "the
show" y "Shirley", y entre "NBC" y "the network":
<p>La obra <title id=quijote>Don Quijote</title>, que se
estrenó el pasado sábado, no fue anunciada en la
<name id=ser>Cadena SER</name>, aunque
<seg id=net |