XML的编码格式是什么，如何正确处理UTF-8和GBK等编码问题？

来源：网站建设作者：深圳GEO公司头衔：草根站长

导读：本期聚焦于小伙伴创作的《XML的编码格式是什么，如何正确处理UTF-8和GBK等编码问题？》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《XML的编码格式是什么，如何正确处理UTF-8和GBK等编码问题？》有用，将其分享出去将是对创作者最好的鼓励。

XML的编码格式指的是XML文档中字符的存储和解析规则，不同的编码格式对应不同的字符映射方式，直接影响文档内容的正确读取。XML标准本身没有限定必须使用某一种编码，而是支持几乎所有常见的字符编码，开发者可以根据实际需求选择合适的编码格式。

XML编码格式的基础说明

XML文档的编码信息通常通过文档开头的XML声明来指定，声明中的encoding属性就是用来标注当前文档使用的编码格式。如果没有显式声明编码，XML解析器会默认按照UTF-8编码来解析文档，这也是为什么很多未声明编码的XML文档出现乱码的常见原因。

常见的XML编码格式包括以下几种：

UTF-8：是一种可变长度的Unicode编码，兼容ASCII码，支持全球所有语言的字符，是XML文档推荐使用的标准编码，绝大多数跨平台、跨语言的数据交换场景都优先选择UTF-8。
GBK：是中国制定的汉字编码标准，向下兼容GB2312，主要支持中文、英文等字符，在仅涉及中文环境的内部系统中使用较多。
UTF-16：也是Unicode编码的一种，采用固定或可变长度的2字节编码，使用场景相对较少。
ISO-8859-1：是单字节编码，仅支持西欧语言字符，现在基本已经被UTF-8替代。

XML声明中编码属性的正确写法

XML声明必须放在文档的第一行，格式如下，其中encoding属性的值就是当前文档的编码格式，需要和文档实际保存的编码完全一致：

<?xml version="1.0" encoding="UTF-8"?>

如果文档实际保存为GBK编码，那么声明就应该写成：

<?xml version="1.0" encoding="GBK"?>

需要注意，XML声明的编码值不区分大小写，比如utf-8和UTF-8是等效的，但建议统一使用大写形式，符合行业通用规范。

处理UTF-8和GBK编码问题的常见场景

场景1：XML文档保存编码和声明编码不一致导致乱码

这是最常见的问题，比如文档实际用GBK编码保存，但是XML声明写的是encoding="UTF-8"，解析器会按照UTF-8规则读取GBK编码的字节，就会出现乱码。解决方法就是保证两者一致：要么把文档保存编码改成UTF-8，同时声明保持UTF-8；要么把声明改成GBK，文档保存编码保持GBK。

以Java为例，写入XML时指定编码的示例：

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import org.w3c.dom.Document;
import org.w3c.dom.Element;

public class XmlEncodeDemo {
    public static void main(String[] args) throws Exception {
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
        DocumentBuilder builder = factory.newDocumentBuilder();
        Document document = builder.newDocument();
        // 创建根元素
        Element root = document.createElement("user");
        document.appendChild(root);
        Element name = document.createElement("name");
        name.setTextContent("张三");
        root.appendChild(name);
        // 输出XML，指定编码为UTF-8
        TransformerFactory transformerFactory = TransformerFactory.newInstance();
        Transformer transformer = transformerFactory.newTransformer();
        transformer.setOutputProperty("encoding", "UTF-8");
        DOMSource source = new DOMSource(document);
        StreamResult result = new StreamResult("user.xml");
        transformer.transform(source, result);
    }
}

场景2：不同编码的XML数据交互时的转换

如果接收方要求XML必须是UTF-8编码，而发送方提供的是GBK编码的XML，就需要先做编码转换。以Python为例，读取GBK编码的XML并转换为UTF-8编码保存的示例：

# 读取GBK编码的XML文件
with open("input.xml", "r", encoding="gbk") as f:
    content = f.read()

# 修改XML声明的编码为UTF-8
content = content.replace('encoding="GBK"', 'encoding="UTF-8"')

# 以UTF-8编码保存文件
with open("output.xml", "w", encoding="utf-8") as f:
    f.write(content)

场景3：解析XML时指定正确的编码

有些解析器在解析XML时如果未正确识别编码，也会出现问题。比如在PHP中解析GBK编码的XML时，需要显式指定编码：

<?php
// 读取GBK编码的XML内容
$xmlContent = file_get_contents("test.xml");
// 将内容转换为UTF-8编码，再解析
$utf8Content = mb_convert_encoding($xmlContent, "UTF-8", "GBK");
$xml = simplexml_load_string($utf8Content);
// 输出内容验证是否正确
echo $xml->name;
?>

编码处理的注意事项

优先使用UTF-8编码作为XML的默认编码，减少跨环境交互的编码问题。
修改XML文档的编码时，不仅要修改encoding属性，还要真正把文档的保存编码转换成对应格式，否则只是修改声明没有实际作用。
如果XML中包含特殊字符，比如<、>、&等，需要使用对应的实体转义，避免和XML标签符号冲突，这和编码格式无关，但也会影响文档的正确解析。
在网络传输XML数据时，建议同时指定HTTP头部的Content-Type为application/xml; charset=UTF-8，明确告知接收方数据的编码格式，进一步降低乱码概率。

XML编码处理的核心原则是：文档实际保存的编码、XML声明中的encoding属性值、解析器使用的编码三者保持一致，就可以避免绝大多数编码相关的问题。

XML UTF-8 GBK 编码处理修改时间：2026-06-19 08:33:27

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。