怎么用Apache Spark的spark-xml包读取XML数据

来源：Vuejs社区作者：USDT程序员头衔：程序员

导读：本期聚焦于小伙伴创作的《怎么用Apache Spark的spark-xml包读取XML数据》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《怎么用Apache Spark的spark-xml包读取XML数据》有用，将其分享出去将是对创作者最好的鼓励。

在大数据处理场景中，XML格式数据依然广泛存在于日志存储、接口数据交互等场景，Apache Spark默认没有提供完善的XML读取能力，需要借助spark-xml扩展包实现相关功能。该包能够自动解析XML的层级结构，将嵌套内容映射为Spark的DataFrame结构，大幅降低XML数据处理的复杂度。

spark-xml包引入方式

在使用spark-xml之前，需要先将其依赖添加到Spark项目中，不同构建工具的引入方式有所区别。

Maven项目引入

在项目的pom.xml文件中添加以下依赖配置，版本可以根据实际需要选择适配Spark版本的对应版本：

<dependency>
    <groupId>com.databricks</groupId>
    <artifactId>spark-xml_2.12</artifactId>
    <version>0.16.0</version>
</dependency>

SBT项目引入

如果是Scala的SBT项目，在build.sbt文件中添加如下配置：

libraryDependencies += "com.databricks" %% "spark-xml" % "0.16.0"

Spark Shell临时引入

如果是在spark-shell中临时测试，启动时通过--packages参数指定依赖包即可：

spark-shell --packages com.databricks:spark-xml_2.12:0.16.0

核心参数说明

使用spark-xml读取XML数据时，需要配置一些核心参数来控制解析行为，常用参数如下：

参数名	说明	默认值
path	XML文件的存储路径，支持本地路径、HDFS路径等	无
rowTag	指定XML中作为每一行数据的根标签，对应DataFrame的一行	ROW
charset	XML文件的字符编码格式	UTF-8
inferSchema	是否自动推断字段的数据类型，设为true时自动识别类型，否则统一为字符串	true

Scala语言读取示例

假设我们有一个存储用户信息的XML文件users.xml，内容如下：

<users>
    <user>
        <id>1</id>
        <name>张三</name>
        <age>25</age>
    </user>
    <user>
        <id>2</id>
        <name>李四</name>
        <age>28</age>
    </user>
</users>

使用Scala读取该文件的代码如下：

import org.apache.spark.sql.SparkSession

object ReadXmlDemo {
  def main(args: Array[String]): Unit = {
    // 创建SparkSession实例
    val spark = SparkSession.builder()
      .appName("SparkXmlReadDemo")
      .master("local[*]")
      .getOrCreate()

    // 读取XML数据，指定rowTag为user，即每个user标签对应一行数据
    val xmlDF = spark.read
      .format("com.databricks.spark.xml")
      .option("rowTag", "user")
      .load("users.xml")

    // 打印DataFrame的结构和前20行数据
    xmlDF.printSchema()
    xmlDF.show()

    // 停止SparkSession
    spark.stop()
  }
}

运行上述代码后，会输出DataFrame的字段结构，包含id、name、age三个字段，同时展示两行用户数据，自动将XML中的标签映射为DataFrame的列。

Python语言读取示例

如果使用PySpark开发，同样可以借助spark-xml包读取XML数据，示例代码如下：

from pyspark.sql import SparkSession

# 创建SparkSession实例
spark = SparkSession.builder 
    .appName("PySparkXmlReadDemo") 
    .master("local[*]") 
    .getOrCreate()

# 读取XML数据，配置rowTag参数
xml_df = spark.read 
    .format("com.databricks.spark.xml") 
    .option("rowTag", "user") 
    .load("users.xml")

# 打印数据结构和内容
xml_df.printSchema()
xml_df.show()

# 停止SparkSession
spark.stop()

Python代码的读取逻辑和Scala一致，只是语法层面有所区别，最终得到的DataFrame结构和内容完全相同。

常见问题排查

如果读取时提示找不到spark-xml相关的类，需要检查依赖是否成功引入，版本是否和Spark的Scala版本匹配。
如果解析出来的数据为空或者字段不匹配，需要检查rowTag参数是否设置正确，需要和XML中实际的数据行根标签一致。
如果XML文件存在嵌套结构，spark-xml会自动将其解析为StructType类型的字段，可以通过select方法提取嵌套字段的内容。

注意：spark-xml包解析超大XML文件时，建议将文件拆分为多个小文件后再读取，避免单个大文件解析时占用过多内存导致任务失败。

Apache_Spark spark-xml XML数据读取 Scala修改时间：2026-07-05 11:24:30

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。