SAX(Simple API for XML)是Java中处理XML文件的流式解析方式,它不会将整个XML文档加载到内存中,而是逐行读取并触发对应的事件回调,因此内存占用极低,非常适合处理体积较大的XML文件。其核心逻辑是开发者通过继承DefaultHandler类,重写对应的事件处理方法,在解析过程中获取需要的节点数据。

SAX解析的核心类与回调方法
使用SAX解析XML主要依赖以下几个核心类:
SAXParserFactory:用于创建SAX解析器工厂实例SAXParser:SAX解析器实例,负责执行解析操作DefaultHandler:事件处理器基类,开发者需要继承该类并重写对应方法
DefaultHandler中常用的回调方法包括:
startDocument():文档开始解析时触发endDocument():文档解析结束时触发startElement(String uri, String localName, String qName, Attributes attributes):遇到开始标签时触发,qName为标签名,attributes为标签属性endElement(String uri, String localName, String qName):遇到结束标签时触发characters(char[] ch, int start, int length):读取标签内文本内容时触发
完整代码实例
首先准备一个待解析的XML文件,命名为test.xml,内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<users>
<user id="1">
<name>张三</name>
<age>25</age>
<email>zhangsan@ipipp.com</email>
</user>
<user id="2">
<name>李四</name>
<age>28</age>
<email>lisi@ipipp.com</email>
</user>
</users>
接下来编写SAX解析的处理器类,继承DefaultHandler:
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
import java.util.ArrayList;
import java.util.List;
public class UserHandler extends DefaultHandler {
// 存储解析得到的用户列表
private List<User> userList = new ArrayList<>();
// 当前解析的用户对象
private User currentUser;
// 记录当前解析的标签名
private String currentTag;
// 获取解析后的用户列表
public List<User> getUserList() {
return userList;
}
@Override
public void startDocument() throws SAXException {
System.out.println("开始解析XML文档");
}
@Override
public void endDocument() throws SAXException {
System.out.println("XML文档解析结束");
}
@Override
public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
currentTag = qName;
// 遇到user开始标签时,创建新的User对象
if ("user".equals(qName)) {
currentUser = new User();
// 获取id属性
String id = attributes.getValue("id");
currentUser.setId(Integer.parseInt(id));
}
}
@Override
public void endElement(String uri, String localName, String qName) throws SAXException {
// 遇到user结束标签时,将当前用户加入列表
if ("user".equals(qName)) {
userList.add(currentUser);
currentUser = null;
}
currentTag = null;
}
@Override
public void characters(char[] ch, int start, int length) throws SAXException {
if (currentTag == null || currentUser == null) {
return;
}
String content = new String(ch, start, length).trim();
if (content.length() == 0) {
return;
}
// 根据当前标签名赋值对应属性
switch (currentTag) {
case "name":
currentUser.setName(content);
break;
case "age":
currentUser.setAge(Integer.parseInt(content));
break;
case "email":
currentUser.setEmail(content);
break;
default:
break;
}
}
}
对应的User实体类代码如下:
public class User {
private int id;
private String name;
private int age;
private String email;
// getter和setter方法
public int getId() {
return id;
}
public void setId(int id) {
this.id = id;
}
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public int getAge() {
return age;
}
public void setAge(int age) {
this.age = age;
}
public String getEmail() {
return email;
}
public void setEmail(String email) {
this.email = email;
}
@Override
public String toString() {
return "User{id=" + id + ", name='" + name + "', age=" + age + ", email='" + email + "'}";
}
}
最后编写主程序执行解析操作:
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import java.io.File;
import java.util.List;
public class SAXParseDemo {
public static void main(String[] args) {
try {
// 创建SAX解析器工厂
SAXParserFactory factory = SAXParserFactory.newInstance();
// 获取SAX解析器实例
SAXParser parser = factory.newSAXParser();
// 创建自定义处理器
UserHandler handler = new UserHandler();
// 执行解析,传入XML文件和处理器
parser.parse(new File("test.xml"), handler);
// 获取解析结果并输出
List<User> userList = handler.getUserList();
for (User user : userList) {
System.out.println(user);
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
注意事项
在实际使用SAX解析时需要注意几个问题:
- characters方法可能会被多次调用,比如标签内文本包含换行或空格时,因此需要在方法内做空字符串判断,避免重复赋值
- 如果XML文件包含命名空间,需要通过localName参数获取标签名,而不是qName
- 解析大文件时不需要额外做内存优化,SAX本身的流式特性已经保证了低内存占用
- 如果需要处理解析过程中的异常,可以在回调方法中抛出SAXException,或者在主程序捕获对应异常
以上代码可以直接复制到本地运行,只需要将test.xml文件放在项目根目录即可,运行后会输出两个用户的完整信息,证明SAX解析逻辑正确。