什么是TMX翻译记忆库交换格式 TMX XML详解

来源:APP编程网作者:厦门程序员头衔:程序员
导读:本期聚焦于小伙伴创作的《什么是TMX翻译记忆库交换格式 TMX XML详解》,敬请观看详情,探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《什么是TMX翻译记忆库交换格式 TMX XML详解》有用,将其分享出去将是对创作者最好的鼓励。

TMX全称为Translation Memory eXchange,是本地化行业标准组织制定的一套基于XML的翻译记忆库交换规范,目的是解决不同翻译辅助工具之间翻译记忆数据不兼容的问题,让翻译人员可以在多个工具间无缝迁移已有的翻译资产。

什么是TMX翻译记忆库交换格式 TMX XML详解

TMX格式的核心设计目标

翻译记忆库是存储原文和对应译文片段的数据库,不同厂商的翻译工具往往采用私有格式存储这些数据,导致用户更换工具时无法复用之前的翻译成果。TMX格式的出现就是为了解决这个问题,它具有以下核心特点:

  • 基于通用的XML标准,任何支持XML解析的工具都可以读取TMX文件
  • 支持多语言对的存储,同一个文件可以包含多种语言之间的翻译对应关系
  • 保留翻译的上下文信息、创建时间、译者信息等元数据
  • 版本迭代稳定,主流翻译工具都提供了TMX格式的导入导出支持

TMX文件的基本结构

一个标准的TMX文件遵循XML的语法规则,整体结构分为文件头<header>和正文<body>两部分,下面是结构说明:

文件头部分

<header>标签用于定义TMX文件的全局属性,比如创建工具、源语言、目标语言、创建时间等信息,常见的属性说明如下:

属性名说明
creationtool创建该TMX文件的工具名称
srclang源语言代码,比如en表示英语,zh-CN表示简体中文
datatype数据类型,比如plaintext表示纯文本,xml表示XML格式内容
segtype分段类型,比如sentence表示按句子分段,paragraph表示按段落分段

正文部分

<body>标签内部包含多个<tu>标签,每个<tu>代表一条翻译单元,也就是一组对应的原文和译文。每个<tu>内部包含多个<tuv>标签,每个<tuv>对应一种语言的翻译版本,通过xml:lang属性区分语言。

标准TMX文件示例

下面是一个符合TMX 1.4版本规范的XML文件示例,包含英语到简体中文的翻译记忆条目:

<?xml version="1.0" encoding="UTF-8"?>
<tmx version="1.4">
  <header 
    creationtool="CustomTool" 
    creationtoolversion="1.0" 
    datatype="plaintext" 
    segtype="sentence" 
    adminlang="en" 
    srclang="en" 
    creationdate="20240501T120000Z">
  </header>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>Hello, welcome to our platform.</seg>
      </tuv>
      <tuv xml:lang="zh-CN">
        <seg>你好,欢迎来到我们的平台。</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Please submit your feedback via the form.</seg>
      </tuv>
      <tuv xml:lang="zh-CN">
        <seg>请通过表单提交你的反馈。</seg>
      </tuv>
    </tu>
  </body>
</tmx>

TMX版本的差异说明

TMX目前主要有1.1、1.4、1.5等版本,主流工具都支持1.4版本,不同版本的核心差异如下:

  • 1.1版本是最早的公开版本,功能相对基础,不支持部分元数据属性
  • 1.4版本是目前使用最广泛的版本,完善了多语言支持和属性定义,兼容性最好
  • 1.5版本增加了对格式化的支持,允许在<seg>标签内部添加样式标记,适合富文本翻译场景

TMX的实际应用场景

在实际的本地化和翻译工作中,TMX格式主要用于以下场景:

  • 翻译工具之间的记忆数据迁移,比如从OmegaT导出TMX文件导入到Trados中使用
  • 翻译团队共享翻译记忆,统一团队的翻译术语和风格
  • 翻译项目的归档存储,将项目翻译记忆保存为通用格式便于后续复用
  • 机器翻译系统的训练数据准备,提取TMX中的平行语料用于模型训练

TMX文件的解析注意事项

在编写程序解析TMX文件时,需要注意以下几点:

  • 严格遵循XML语法规则,处理特殊字符的转义,比如&需要转义为&amp;
  • 注意语言代码的规范,优先使用BCP 47标准的语言标签,比如zh-CNen-US
  • 处理<seg>标签内部的可能存在的嵌套标记,尤其是高版本TMX中的格式化内容
  • 兼容不同版本的TMX文件,对缺失的可选属性做默认处理,避免解析报错

TMX翻译记忆库XML本地化修改时间:2026-06-19 17:54:20

免责声明:​ 已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰,观点力求客观中立。本站旨在免费分享,内容仅供个人学习、研究或参考使用。若引用了第三方作品,版权归原作者所有。如内容涉及您的权益,请联系我们处理。
内容垂直聚焦
专注技术核心技术栏目,确保每篇文章深度聚焦于实用技能。从代码技巧到架构设计,为用户提供无干扰的纯技术知识沉淀,精准满足专业提升需求。
知识结构清晰
覆盖从开发到部署的全链路。AI、前端、编程、数据库、服务器、建站、系统层层递进,构建清晰学习路径,帮助用户系统化掌握开发与运维所需的核心技术。
深度技术解析
拒绝泛泛而谈,深入技术细节与实践难点。无论是数据库优化还是服务器配置,均结合真实场景与代码示例进行剖析,致力于提供可直接应用于工作的解决方案。
专业领域覆盖
精准对应开发生命周期。从前端界面到后端编程,从数据库操作到服务器运维,形成完整闭环,一站式满足全栈工程师和运维人员的技术需求。
即学即用高效
内容强调实操性,步骤清晰、代码完整。用户可根据教程直接复现和应用于自身项目,显著缩短从学习到实践的距离,快速解决开发中的具体问题。
持续更新保障
专注既定技术方向进行长期、稳定的内容输出。确保各栏目技术文章持续更新迭代,紧跟主流技术发展趋势,为用户提供经久不衰的学习价值。