在使用DOM4J操作XML时,很多开发者都会遇到生成XML文件后中文显示为乱码的情况,这个问题通常不是DOM4J本身的缺陷,而是编码设置环节出现了不匹配。下面我们就从原因到解决方案一步步梳理。

乱码出现的常见原因
DOM4J写入XML出现中文乱码,核心原因是编码不一致,常见的有以下几种情况:
- XML文档声明的编码和实际写入文件的编码不匹配
- 输出流没有指定和XML编码一致的字符集
- 使用了默认的OutputFormat却没有手动设置编码参数
解决方案一:设置文档编码+指定输出流编码
这种方式是最基础的解决思路,先给XML文档设置编码,再让输出流使用相同的编码写入文件。
import org.dom4j.Document;
import org.dom4j.DocumentHelper;
import org.dom4j.Element;
import org.dom4j.io.OutputFormat;
import org.dom4j.io.XMLWriter;
import java.io.FileOutputStream;
import java.io.OutputStreamWriter;
public class Dom4jXmlDemo {
public static void main(String[] args) throws Exception {
// 创建XML文档
Document document = DocumentHelper.createDocument();
// 设置文档编码为UTF-8
document.setXMLEncoding("UTF-8");
// 添加根节点
Element root = document.addElement("user");
// 添加中文内容节点
Element name = root.addElement("name");
name.setText("张三");
Element age = root.addElement("age");
age.setText("25");
// 创建输出流,指定UTF-8编码
FileOutputStream fos = new FileOutputStream("user.xml");
OutputStreamWriter osw = new OutputStreamWriter(fos, "UTF-8");
// 创建XMLWriter写入文件
XMLWriter writer = new XMLWriter(osw);
writer.write(document);
writer.close();
System.out.println("XML文件生成完成");
}
}
解决方案二:使用OutputFormat统一编码设置
DOM4J的OutputFormat可以统一设置输出的编码格式,避免手动处理输出流编码的遗漏,这种方式更推荐在实际项目中使用。
import org.dom4j.Document;
import org.dom4j.DocumentHelper;
import org.dom4j.Element;
import org.dom4j.io.OutputFormat;
import org.dom4j.io.XMLWriter;
import java.io.FileOutputStream;
public class Dom4jXmlDemo2 {
public static void main(String[] args) throws Exception {
// 创建XML文档
Document document = DocumentHelper.createDocument();
Element root = document.addElement("product");
Element productName = root.addElement("productName");
productName.setText("笔记本电脑");
Element price = root.addElement("price");
price.setText("4999");
// 创建输出格式,指定编码为UTF-8
OutputFormat format = OutputFormat.createPrettyPrint();
format.setEncoding("UTF-8");
// 使用FileOutputStream直接创建XMLWriter,OutputFormat会自动处理编码
XMLWriter writer = new XMLWriter(new FileOutputStream("product.xml"), format);
writer.write(document);
writer.close();
System.out.println("XML文件生成完成");
}
}
注意事项
使用上述方案时需要注意几个细节:
- 如果项目运行环境默认编码不是UTF-8,建议显式指定所有编码为UTF-8,避免环境差异导致乱码
- 读取生成的XML文件时,编辑器也需要使用UTF-8编码打开,否则可能误以为是写入时的问题
- 不要在设置编码后中途修改输出流的字符集,否则还是会出现编码不匹配
按照上述方法设置后,DOM4J生成的XML文件中文就可以正常显示,不会再出现乱码问题。