XML文字节点是XML文档对象模型(DOM)中的一种节点类型,节点类型为3,对应的值是TEXT_NODE,主要用来存储XML元素标签内部的文本内容,不包含标签本身和其他节点结构。在XML文档中,元素标签之间的纯文本、换行符、制表符等空白字符,都会被解析为文字节点,比如<name>张三</name>中,张三就是一个文字节点,依附于name元素节点存在。

XML文字节点的特点
XML文字节点有以下几个核心特点,了解这些特点能帮助开发者更清晰地处理XML内容:
- 文字节点是元素节点的子节点,没有子节点,是DOM树中的叶子节点类型之一
- 如果元素内部同时包含文本和其他子元素,那么文本内容会被拆分为多个文字节点和元素节点,按顺序排列
- 空白字符在XML解析时默认会被保留,因此获取文字节点内容时可能会包含无意义的空格、换行
- 文字节点的nodeValue属性或者data属性存储了实际的文本内容
不同场景下获取XML元素文本内容的方法
1. 原生JavaScript解析XML字符串
在浏览器端或者支持DOMParser的环境里,可以通过DOMParser把XML字符串转为XML文档对象,再通过属性获取文本内容。
// 定义XML字符串
const xmlStr = `<user>
<name>李四</name>
<age>25</age>
<desc>普通用户</desc>
</user>`;
// 创建DOMParser实例解析XML
const parser = new DOMParser();
const xmlDoc = parser.parseFromString(xmlStr, 'text/xml');
// 获取name元素的文本内容,textContent会获取所有子文字节点的内容拼接
const nameText = xmlDoc.getElementsByTagName('name')[0].textContent;
console.log(nameText); // 输出:李四
// 获取文字节点本身的内容,先拿到第一个子节点(文字节点)
const nameNode = xmlDoc.getElementsByTagName('name')[0].childNodes[0];
console.log(nameNode.nodeValue); // 输出:李四
// 如果元素包含混合内容,比如<p>文本<em>强调</em>结尾</p>
const mixedXml = '<p>文本<em>强调</em>结尾</p>';
const mixedDoc = parser.parseFromString(mixedXml, 'text/xml');
const pText = mixedDoc.getElementsByTagName('p')[0].textContent;
console.log(pText); // 输出:文本强调结尾
2. Python使用xml.etree.ElementTree解析
Python标准库的xml.etree.ElementTree是常用的XML解析工具,它的元素对象提供了直接获取文本内容的方法。
import xml.etree.ElementTree as ET
# 定义XML字符串
xml_str = """<user>
<name>王五</name>
<age>30</age>
</user>"""
# 解析XML字符串得到根元素
root = ET.fromstring(xml_str)
# 直接通过text属性获取元素的文本内容,仅获取第一个文字节点的内容
name_text = root.find('name').text
print(name_text) # 输出:王五
# 如果元素内部有混合内容,text只会返回第一个文字节点的内容,后续文字节点需要通过tail属性获取
mixed_xml = """<p>前面文本<sub>子元素</sub>后面文本</p>"""
mixed_root = ET.fromstring(mixed_xml)
p_element = mixed_root
print(p_element.text) # 输出:前面文本
print(p_element.find('sub').tail) # 输出:后面文本
3. PHP使用DOMDocument解析XML
PHP的DOMDocument扩展可以处理XML文档,通过节点属性获取文字节点的内容。
<?php
// 定义XML字符串
$xmlStr = '<user><name>赵六</name><age>28</age></user>';
// 创建DOMDocument实例
$dom = new DOMDocument();
// 加载XML字符串
$dom->loadXML($xmlStr);
// 获取name元素
$nameElement = $dom->getElementsByTagName('name')->item(0);
// 通过nodeValue获取文字节点内容
$nameText = $nameElement->nodeValue;
echo $nameText; // 输出:赵六
// 也可以通过textContent获取所有子文字节点拼接的内容
$nameText2 = $nameElement->textContent;
echo $nameText2; // 输出:赵六
?>
获取文本内容时的注意事项
- 如果元素内部只有纯文本,那么
textContent、nodeValue、text属性获取的结果一致,但如果有子元素,textContent会拼接所有子节点的文本内容,而其他属性只获取第一个文字节点的内容 - XML中的空白字符会被保留,获取文本内容后如果需要清理无意义的空格、换行,可以使用对应的字符串修剪方法,比如JavaScript的
trim(),Python的strip() - 解析XML时如果遇到命名空间,需要先处理命名空间才能正确获取对应元素的文本内容,避免获取不到目标元素
注意区分XML文字节点和HTML的文字节点,二者本质都是DOM的文字节点,但XML对格式要求更严格,解析时不会因为标签未闭合等问题自动修正,出现格式错误会直接解析失败。
XML文字节点get_texttextContentinnerHTML修改时间:2026-06-14 06:03:37