17370845950

新闻动态

什么是TEI(文本编码规范) 学术XML标准

TEI是一套面向人文学科的国际通行学术XML编码规范，以结构化语义标签整合文本与元数据，强制包含四大元数据区块，采用模块化设计并由P5 Schema严格约束，根元素为，分和两大部分，广泛应用于古籍整理、版本比对与数字出版。

TEI（Text Encoding Initiative，文本编码倡议）不是一种工具或软件，而是一套面向人文学科的、国际通行的学术XML编码规范。它用结构化、语义明确的XML标签，把文本内容和元数据（如作者、年代、语言、版本、手稿状态等）一起打包保存，让古籍、信札、诗歌、词典等复杂文本既能被人读懂，也能被机器识别、检索、分析和长期存档。

它为什么是“学术XML标准”

因为TEI不是通用XML，而是专为学术研究定制的XML框架：

所有标签都有明确定义的人文语义，比如表示手稿中无法辨认的文字，旧写法校正后记录校勘过程；
强制包含四大元数据区块：fileDesc（文献描述）、encodingDesc（编码说明）、profileDesc（内容特征）、revisionDesc（修订日志），确保每份数字文本可溯源、可复现；
采用模块化设计，支持按需组合——研究简牍可用“手稿描述模块”，编纂词典则启用“词典编码模块”，不强求全功能；
所有标签定义由TEI联盟通过XML Schema（P5版）严格约束，任何TEI文件都可通过验证工具（如Trafilatura、Oxygen）自动校验是否合规。

它的基本结构长什么样

一个合法TEI文档必须以为根元素，内部严格分为两大部分：

：存放全部元数据，包括标题、作者、创建时间、语言标识（xml:lang）、关键词、编码依据等；
：承载正文内容，通常再细分为（前言/目录）、（主体）、（附录/索引），层级清晰，便于分段处理与多模态关联（如图文对照）。

例如，一段带异体字标注的古文可能这样编码：

其字作峠岭，见于青木川叙事

它在真实学术场景中怎么用

TEI不是纸上标准，而是驱动实际项目的底层协议：

哈佛《中国历代人物传记资料库》（CBDB）用TEI管理数万条人物生平与文献出处；
牛津莎士比亚项目将早期四开本、对开本扫描件+校勘注释统一转为TEI，支撑版本比对与文本挖掘；
秦汉简牍整理团队用、等标签标记残缺与补字，实现考古信息与文本逻辑同步存档；
学者用XSLT将TEI批量转成HTML供在线阅览，或转成LaTeX生成出版级PDF，全程无需人工重排版。

它和普通XML有什么不同

关键不在语法，而在意图和约束力：

普通XML允许任意自定义标签，但缺乏语义共识，可能指人名、地名或书名；TEI中、、各司其职；
普通XML不强制元数据，TEI要求teiHeader完整且结构化，否则无法通过验证；
普通XML没有领域知识嵌入，TEI内置200+种文本类型模板（戏剧、日记、法律文书等），直接复用即可避免重复造轮子。

17370845950

它为什么是“学术XML标准”

它的基本结构长什么样

它在真实学术场景中怎么用

它和普通XML有什么不同

关于我们

服务项目

广告推广

案例欣赏