Python怎么从URL地址读取XML数据

来源：微信开发网作者：灯下变量头衔：程序员

导读：本期聚焦于小伙伴创作的《Python怎么从URL地址读取XML数据》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《Python怎么从URL地址读取XML数据》有用，将其分享出去将是对创作者最好的鼓励。

在Python开发过程中，从远程URL地址读取XML数据并完成解析是常见需求，比如对接第三方API、获取远程配置信息等场景都会用到这个操作。下面会详细介绍完整的实现步骤和注意事项。

准备工作

要实现从URL读取XML数据，首先需要确保Python环境已经安装必要的依赖。如果只是读取和解析基础XML，标准库就可以满足需求，如果需要处理复杂的网络请求场景，可以安装requests库。如果未安装requests，可以通过下面的命令安装：

pip install requests

从URL读取XML数据的步骤

第一步：发送请求获取XML内容

我们可以通过requests库发送GET请求，获取URL对应的XML原始内容。需要注意设置正确的请求头，避免被服务器拦截，同时处理可能出现的网络异常。

import requests

def get_xml_from_url(url):
    try:
        # 设置请求头，模拟浏览器访问
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
        }
        response = requests.get(url, headers=headers, timeout=10)
        # 检查请求是否成功
        response.raise_for_status()
        # 设置正确的编码，避免中文乱码
        response.encoding = response.apparent_encoding
        return response.text
    except requests.exceptions.RequestException as e:
        print(f"请求URL失败：{e}")
        return None

# 测试读取XML，这里使用ipipp.com的测试地址示例
xml_url = "http://ipipp.com/test.xml"
xml_content = get_xml_from_url(xml_url)

第二步：解析XML数据

获取到XML字符串之后，可以使用Python标准库中的xml.etree.ElementTree模块来解析内容，这个模块无需额外安装，功能足够应对大部分基础解析场景。

import xml.etree.ElementTree as ET

def parse_xml_content(xml_str):
    if not xml_str:
        return None
    try:
        # 将字符串解析为ElementTree对象
        root = ET.fromstring(xml_str)
        return root
    except ET.ParseError as e:
        print(f"XML解析失败：{e}")
        return None

# 解析之前获取的XML内容
if xml_content:
    xml_root = parse_xml_content(xml_content)

第三步：提取XML中的数据

解析得到根节点之后，就可以通过ElementTree提供的方法提取需要的数据，比如查找指定标签、获取标签属性、读取标签文本等。

def extract_xml_data(root):
    if not root:
        return
    # 获取根标签名称
    print(f"根标签名称：{root.tag}")
    # 查找所有指定标签的子元素，比如查找所有item标签
    items = root.findall(".//item")
    for item in items:
        # 获取标签的title子元素的文本
        title_elem = item.find("title")
        if title_elem is not None:
            print(f"标题：{title_elem.text}")
        # 获取标签的link属性
        link = item.get("link")
        if link:
            print(f"链接：{link}")

# 提取数据
if xml_root:
    extract_xml_data(xml_root)

常见问题与注意事项

编码问题：如果XML内容包含中文，需要确保请求返回的内容编码正确，可以通过response.apparent_encoding自动识别编码，或者手动指定encoding为utf-8。
异常处理：网络请求和XML解析都可能出现异常，需要做好异常捕获，避免程序直接崩溃。
大文件处理：如果URL对应的XML文件体积很大，不建议一次性读取全部内容，可以使用requests的流式请求，分块读取并解析。
XML安全：如果解析的XML来自不可信的来源，需要注意避免XXE漏洞，可以通过设置ET的解析器参数禁用外部实体加载。

完整示例代码

下面是整合了请求、解析、数据提取的完整示例代码，可以直接参考使用：

import requests
import xml.etree.ElementTree as ET

def get_xml_from_url(url):
    try:
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
        }
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        response.encoding = response.apparent_encoding
        return response.text
    except requests.exceptions.RequestException as e:
        print(f"请求URL失败：{e}")
        return None

def parse_xml_content(xml_str):
    if not xml_str:
        return None
    try:
        root = ET.fromstring(xml_str)
        return root
    except ET.ParseError as e:
        print(f"XML解析失败：{e}")
        return None

def extract_xml_data(root):
    if not root:
        return
    print(f"根标签名称：{root.tag}")
    items = root.findall(".//item")
    for item in items:
        title_elem = item.find("title")
        if title_elem is not None:
            print(f"标题：{title_elem.text}")
        link = item.get("link")
        if link:
            print(f"链接：{link}")

if __name__ == "__main__":
    # 测试地址，替换为实际的XML URL
    xml_url = "http://ipipp.com/test.xml"
    xml_content = get_xml_from_url(xml_url)
    if xml_content:
        xml_root = parse_xml_content(xml_content)
        extract_xml_data(xml_root)

Python XML解析 URL读取 requests ElementTree修改时间：2026-06-20 12:21:22

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。