defines the range of attribute values used to identify a particular combination of human language and writing system. 인간의 언어와 문자 체계의 특별한 조합을 식별하는 속성 값 범위를 정의한다. 定義的屬性值範圍標明人類語言與寫作系統的特殊結合自然言語と表記体系の組合せを示す表現を値域とする属性値を定義する。 définit la gamme des valeurs d'attributs exprimant une combinaison particulière du langage humain avec un système d'écriture. define la gama de valores de atributos usados para identificar una combinación determinada de lenguaje y escritura humanos. definisce la gamma di valori di attributi usati per identificare una determinata combinazione di linguaggio e sistema di scrittura umani

The values for this attribute are language tags as defined in BCP 47. Currently BCP 47 comprises RFC 5646 and RFC 4647; over time, other IETF documents may succeed these as the best current practice.

A language tag, per BCP 47, is assembled from a sequence of components or subtags separated by the hyphen character (-, U+002D). The tag is made of the following subtags, in the following order. Every subtag except the first is optional. If present, each occurs only once, except the fourth and fifth components (variant and extension), which are repeatable. language The IANA-registered code for the language. This is almost always the same as the ISO 639 2-letter language code if there is one. The list of available registered language subtags can be found at . It is recommended that this code be written in lower case. script The ISO 15924 code for the script. These codes consist of 4 letters, and it is recommended they be written with an initial capital, the other three letters in lower case. The canonical list of codes is maintained by the Unicode Consortium, and is available at . The IETF recommends this code be omitted unless it is necessary to make a distinction you need. region Either an ISO 3166 country code or a UN M.49 region code that is registered with IANA (not all such codes are registered, e.g. UN codes for economic groupings or codes for countries for which there is already an ISO 3166 2-letter code are not registered). The former consist of 2 letters, and it is recommended they be written in upper case; the list of codes can be searched or browsed at . The latter consist of 3 digits; the list of codes can be found at . variant An IANA-registered variation. These codes are used to indicate additional, well-recognized variations that define a language or its dialects that are not covered by other available subtags. extension An extension has the format of a single letter followed by a hyphen followed by additional subtags. There are currently only two extensions in use. Extension T indicates that the content was transformed. For example en-t-it could be used for content in English that was translated from Italian. Extension T is described in the informational RFC 6497. Extension U can be used to embed a variety of locale attributes. It is described in the informational RFC 6067. private use An extension that uses the initial subtag of the single letter x (i.e., starts with x-) has no meaning except as negotiated among the parties involved. These should be used with great care, since they interfere with the interoperability that use of RFC 4646 is intended to promote. In order for a document that makes use of these subtags to be TEI-conformant, a corresponding language element must be present in the TEI header.

There are two exceptions to the above format. First, there are language tags in the IANA registry that do not match the above syntax, but are present because they have been grandfathered from previous specifications.

Second, an entire language tag can consist of only a private use subtag. These tags start with x-, and do not need to follow any further rules established by the IETF and endorsed by these Guidelines. Like all language tags that make use of private use subtags, the language in question must be documented in a corresponding language element in the TEI header.

Examples include sn Shona zh-TW Taiwanese zh-Hant-HK Chinese written in traditional script as used in Hong Kong en-SL English as spoken in Sierra Leone pl Polish es-MX Spanish as spoken in Mexico es-419 Spanish as spoken in Latin America

The W3C Internationalization Activity has published a useful introduction to BCP 47, Language tags in HTML and XML.

当該属性値は、BCP 47で定義されている言語タグである。 BCP 47は、RFC 5646とRFC 4647からなる。将来的に、その他のIETF文書が現状における最良の慣行としての地位を受け継ぐかもしれない。

BCP 47における言語タグとは、ハイフン (-, U+002D)で区切られた一連の下位タグと呼ばれる構成要素からなっている。下位タグは、以下の順番に並べられる。下位タグは、初めの1つ以外は必須でない。もし存在するときは、それぞれの下位タグは、繰返し可能な4番目と5番目の構成要素（変種と拡張）をのぞき、1度までしか用いられない。言語IANAに登録された、言語に対するコード。これは、当該言語が既にISO 639の2文字言語コードにあれば、ほとんどのばあい、それと同一である。利用可能な言語下位タグのリストはにある。言語コードは、小文字で書くことが推奨されている。用字系ISO 15924による用字系を示すコード。 4文字から構成され、先頭の文字は大文字で、残りの3文字は小文字で書くことが推奨されている。公式なコードのリストは、ユニコードコンソーシアムが管理しており、から入手することができる。 IETFでは、不要であれば当該コードを省略することを推奨している。地域IANAに登録されたISO 3166の国名コードまたはUN M.49による地域コード (但し全てが〔IANAに〕登録されてはいない。例えば、UNコードのうち、経済圏やISO 3166の2文字コードが存在するものは含まれない)。このうち前者は、2文字から構成され、大文字で書かれることが推奨されている。このコードのリストは、にあり、確認できる。後者は、数字3桁から構成されている。このコードは、にある。変種IANAに登録された変種。このコードは、他の下位タグでは対応できない、その他のよく知られている言語や方言として定義される変種を示すために使用される。拡張拡張は、英字1文字、ハイフン、後続する（1つ以上の）下位タグの形式からなる。これは、BCP 47が将来拡張された時のためにある。執筆時点ではそのような拡張はない。〔2024年時点ではuとtの2つの拡張が存在する。〕私用拡張の先頭の下位タグがx1文字である (すなわち、x-で始まる) ものは、関係者間で取り決めがある場合のみ意味を持つ。このコードは十分に注意して使用しなければならない。これは、RFC 4646を使用する目的である相互運用性を損なうからである。〔現在ではRFC 4646は廃止され、RFC 5646を使用すべきである。〕文書内で私用タグを使う場合、TEIに準拠するためにはlanguage要素をTEIヘッダー中に記述しなければならない。

上記記述形式には、2つの例外がある。ひとつは、IANAレジストリにある言語タグには、上述の形式に違反しているが有効なものがある。これはIANAでは以前の形式では許容されていた歴史的例外だからである。

ふたつめは、言語タグ全体を私用タグにすることができる。 x-で始まるタグの内容は、IETFにある他の規定にも当該TEIガイドラインにある規定にも従う必要はない。私用タグを含む言語タグと同様に、その言語をTEIヘッダーにあるlanguage要素に記述しなければならない。

言語コードには、以下のようなものがある。 snショナ語 zh-TW中国語（台湾） zh-Hant-HK繁体字中国語（香港） en-SL英語（シエラレオネ） plポーランド語 es-MXスペイン語（メキシコ） es-419スペイン語（ラテンアメリカ）

W3Cの国際化活動では、BCP 47の解説「HTMLとXMLで使用される言語タグ」を以下に用意している。

Les valeurs pour cet attribut sont les étiquettes de langue définies dans la norme BCP 47. Actuellement, la norme BCP 47 intègre les normes RFC 4646 et RFC 4647 ; à l'avenir, d'autres documents de l'IETF pourront leur succéder en tant que meilleure pratique.

Une étiquette de langue, pour la norme BCP 47, est formée par l'assemblage d'une suite de composants ou de sous-étiquettes reliés par un trait d'union (-, U+002D). L'étiquette est composée des sous-étiquettes suivantes, dans l'ordre indiqué. Chaque sous-étiquette est facultative, à l'exception de la première. Chacune ne peut avoir qu'une occurrence, sauf les quatrième et cinquième (variante et extension), qui sont répétables. langue Code de langue enregistré par l'IANA. Il est presque toujours identique au code de langue alphabétique ISO 639-2, s'il y en a un. La liste des sous-étiquettes de langue enregistrées est disponible à : . Il est recommandé d'écrire ce code en minuscules. écriture Code ISO 15924 pour l'écriture. Ces codes sont constitués de 4 lettres, et il est recommandé d'écrire la première lettre en majuscule, les trois autres en minuscules. La liste canonique des codes est maintenue par le Consortium Unicode, et elle est disponible à : . L'IETF recommande d'omettre ce code, sauf s'il est nécessaire pour établir une distinction. région Soit un code de pays ISO 3166, soit un code de région UN M.49 enregistré par l'IANA (tous les codes de ce type ne sont pas enregistrés : par exemple, ne sont pas enregistrés les codes UN pour des regroupements économiques ou les codes de pays pour lesquels il existe déjà un code de pays alphabétique ISO 3166-2). Le premier est constitué de 2 lettres, et il est recommandé de l'écrire en majuscules. La liste des codes est disponible à : . Le second est constitué de 3 chiffres ; la liste des codes est disponible à : . variante Variante enregistrée par l'IANA. Ces codes sont utilisés pour indiquer des variantes additionnelles et bien établies, qui définissent une langue ou ses dialectes et qui ne sont pas couverts par d'autres sous-étiquettes existantes. extension Une extension a la forme d'une lettre unique, suivie d'un trait d'union, lui-même suivi de sous-étiquettes additionnelles. Ces dernières existent pour tenir compte d'une future extension de la norme BCP 47, mais à l'heure actuelle de telles extensions ne sont pas utilisées. usage privé Une extension utilisant la sous-étiquette initiale de la lettre x (i.e., commençant par x-) n'a pas d'autre signification que celle négociée entre les parties impliquées. Ces sous-étiquettes doivent être utilisées avec beaucoup de prudence, car elles interfèrent avec l'interopérabilité que l'utilisation de la norme RFC 4646 vise à promouvoir. Pour qu'un document qui utilise ces sous-étiquettes soit conforme à la TEI, un élément language correspondant doit être présent dans l'en-tête TEI.

Il y a deux exceptions au format ci-dessus. Premièrement, il y a des codes de langue dans le registre de l'IANA qui ne correspondent pas à la syntaxe ci-dessus, mais qui sont présents car ils ont été hérités de spécifications antérieures.

En second lieu, une étiquette complète de langue peut consister seulement en une sous-étiquette d'usage privé. Ces étiquettes commencent par x- ; il n'est pas nécessaire qu'elles suivent les autres règles établies par l'IETF et acceptées par les présents Principes directeurs. Comme toutes les étiquettes de langue qui utilisent des sous-étiquettes d'usage privé, la langue en question doit être documentée dans un élément correspondant language dans l'en-tête TEI.

Les exemples incluent : sn Shona zh-TW Taïwanais zh-Hant-HK Chinois de Hong Kong écrit dans l'écriture traditionnelle en-SL Anglais parlé au Sierra Leone pl Polonais es-MX Espagnol parlé au Mexique es-419 Espagnol parlé en Amérique latine

La W3C Internationalization Activity a publié une introduction à la norme BCP 47 dont la lecture peut être utile : Language tags in HTML and XML.