XML外部实体注入(XXE)是一种发生在XML解析环节的安全漏洞,当应用接收用户输入的XML数据并进行解析时,如果没有对外部实体引用做限制,攻击者就可以构造包含恶意外部实体的XML内容,触发非预期的操作。这类漏洞在支持XML数据交互的Web应用、接口服务中较为常见,一旦被利用可能造成敏感信息泄露、内网探测等严重后果。

XXE漏洞的产生原理
XML规范中支持定义外部实体,允许在XML文档中引用外部的URI资源,语法格式为<!ENTITY 实体名 SYSTEM "URI">。正常的XML解析器会对实体进行替换,当解析包含恶意外部实体的XML时,就会按照攻击者指定的URI去读取内容或者发起请求。
比如下面是一段正常的XML文档示例,定义了一个内部实体:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE note [
<!ENTITY author "张三">
]>
<note>
<to>李四</to>
<from>&author;</from>
<content>测试内容</content>
</note>
而攻击者可以构造如下的恶意XML,尝试读取服务器的/etc/passwd文件:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE foo [
<!ENTITY xxe SYSTEM "file:///etc/passwd">
]>
<foo>&xxe;</foo>
如果解析器没有禁用外部实体,就会把/etc/passwd的内容替换到<foo>标签中,攻击者就能获取到服务器的用户信息。
XXE漏洞的常见危害
- 敏感文件读取:攻击者可以读取服务器本地的配置文件、日志文件、用户数据等敏感内容,比如读取Web应用的数据库配置、SSH密钥等。
- 内网服务探测:通过构造指向内网地址的外部实体,攻击者可以探测内网中开放的服务,比如访问192.168.0.1的80端口,判断内网服务是否存活。
- 拒绝服务攻击:利用递归实体构造的Billion Laughs攻击,会大量消耗服务器的内存和CPU资源,导致服务不可用。
- 远程代码执行:在部分场景下,结合其他漏洞或者特定的解析器特性,攻击者甚至可以在服务器上执行任意代码。
XXE漏洞的防范方案
1. 禁用XML外部实体解析
这是最根本的防范方式,不同编程语言的XML解析库都有对应的配置选项:
Java场景
Java中常用的XML解析器如DOM、SAX、StAX都可以通过配置禁用外部实体,示例代码如下:
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.DocumentBuilder;
import org.w3c.dom.Document;
public class XXEUtil {
public static Document parseXML(String xmlContent) throws Exception {
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
// 禁用外部实体
dbf.setFeature("http://xml.org/sax/features/external-general-entities", false);
dbf.setFeature("http://xml.org/sax/features/external-parameter-entities", false);
dbf.setXIncludeAware(false);
dbf.setExpandEntityReferences(false);
DocumentBuilder db = dbf.newDocumentBuilder();
return db.parse(new org.xml.sax.InputSource(new java.io.StringReader(xmlContent)));
}
}
PHP场景
PHP的libxml库可以全局或者局部禁用外部实体加载:
<?php // 禁用外部实体加载 libxml_disable_entity_loader(true); $xml = simplexml_load_string($inputXml); // 后续处理XML内容 ?>
Python场景
Python的xml.etree.ElementTree模块默认不会解析外部实体,但如果使用lxml库需要手动配置:
from lxml import etree
def parse_xml(xml_content):
parser = etree.XMLParser(resolve_entities=False, no_network=True)
return etree.fromstring(xml_content.encode('utf-8'), parser=parser)
?>
2. 输入校验与过滤
对接收的XML输入做严格的格式校验,过滤掉包含<!DOCTYPE>、<!ENTITY>等关键字的内容,同时限制XML的解析深度和大小,避免恶意构造的大尺寸XML文档消耗服务器资源。如果业务不需要支持DOCTYPE声明,可以直接拒绝所有包含DOCTYPE的XML输入。
3. 升级解析库版本
及时更新XML解析库到最新稳定版本,很多旧版本的解析库存在已知的XXE漏洞,新版本通常会修复这些安全隐患,同时提供默认的安全配置。比如旧版本的PHP libxml库默认开启外部实体解析,新版本已经调整了默认策略。
4. 最小权限原则
运行XML解析进程的系统用户应该只拥有必要的最小权限,避免赋予过高的文件系统访问权限,即使出现XXE漏洞,也能限制攻击者能够读取的文件范围,降低危害程度。
XXE漏洞的检测方法
开发者可以通过构造包含外部实体的测试XML发送到接口,观察返回结果是否包含预期的内容来判断是否存在漏洞。也可以使用专业的安全扫描工具,对支持XML交互的接口进行自动化检测。在测试环节,可以模拟攻击者构造多种恶意XML payload,验证防护措施是否有效。
需要注意的是,XXE漏洞的防范需要覆盖所有XML解析的场景,包括文件上传中解析XML格式文件、接口接收XML格式的请求参数等,不能只关注单一的业务场景。