TEI全称为Text Encoding Initiative,即文本编码倡议,是人文研究领域专门用于文本数字化的XML编码标准。它诞生于20世纪80年代,由多个学术机构联合推动,目的是解决人文领域不同学科、不同项目之间的文本编码规范不统一的问题,让数字化后的文本可以在不同系统、不同研究场景下实现共享和复用。

TEI的核心特点
TEI和其他通用XML标准相比,有非常鲜明的领域适配性,核心特点主要体现在以下几个方面:
- 领域针对性强:TEI的标签体系完全围绕人文研究的需求设计,覆盖了文学作品、历史档案、语言学材料、手稿等多种文本类型的编码需求,比如可以标记诗歌的韵脚、古籍的批注、文献的不同版本差异等。
- 可扩展性强:TEI本身提供了一套基础的核心标签集,同时允许研究者根据具体的项目需求自定义标签,不用受固定规则的限制,适配各类个性化的研究场景。
- 语义明确:每个TEI标签都有明确的定义和使用规范,编码后的文本不仅包含文本内容,还包含丰富的语义信息,方便后续的文本挖掘、统计分析等自动化处理。
TEI的基础结构示例
一个标准的TEI文档遵循XML的基本语法规则,整体结构分为头部和正文两部分,头部用来记录文本的元数据信息,正文用来存放编码后的文本内容。下面是一段简单的TEI编码示例,用来编码一首短诗:
<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
<fileDesc>
<titleStmt>
<title>静夜思</title>
<author>李白</author>
</titleStmt>
<publicationStmt>
<p>数字化来源:ipipp.com古籍数据库</p>
</publicationStmt>
<sourceDesc>
<p>底本:清代刊本《全唐诗》</p>
</sourceDesc>
</fileDesc>
</teiHeader>
<text>
<body>
<lg type="poem">
<l>床前明月光,</l>
<l>疑是地上霜。</l>
<l>举头望明月,</l>
<l>低头思故乡。</l>
</lg>
</body>
</text>
</TEI>
上面的示例中,<teiHeader>部分包含了诗歌的标题、作者、来源等元数据,<text>部分用<lg>标签标记诗歌整体,用<l>标签标记每一句诗,结构清晰,语义明确。
TEI在人文研究中的常见应用场景
目前TEI已经被广泛应用于各类人文研究项目中,常见的应用场景包括:
- 古籍数字化:对古籍的文本内容、版式、批注、异文等信息进行编码,方便学者做版本比对和校勘工作。
- 文学文本分析:标记文学作品的人物、情节、意象等元素,支持后续的文本挖掘和量化分析,比如统计某部小说中特定意象的出现频率。
- 历史档案整理:对历史信件、公文、日记等档案材料进行编码,记录时间、地点、人物、事件等关键信息,方便历史研究者做专题检索和分析。
- 语言学语料库建设:标记语言的语音、语法、语义等信息,构建规范的语言学语料库,支持语言演变、方言对比等研究。
TEI的学习建议
如果是初次接触TEI,建议先从官方提供的入门指南开始学习,先掌握基础的XML语法规则,再熟悉TEI的核心标签集。实际编码时可以参考同领域的已有TEI项目案例,根据自己项目的具体需求选择合适的标签,不用追求覆盖所有TEI标签。如果遇到复杂的编码需求,也可以参考TEI的官方定制指南,对标签集进行个性化调整,适配自己的研究场景。