Python如何计算数据的滚动分位数?

来源:微信开发网作者:澳门程序员头衔:程序员
导读:本期聚焦于小伙伴创作的《Python如何计算数据的滚动分位数?》,敬请观看详情,探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《Python如何计算数据的滚动分位数?》有用,将其分享出去将是对创作者最好的鼓励。

在数据分析工作中,滚动分位数是衡量数据在滑动窗口内分布特征的重要指标,常用于金融数据波动分析、传感器数据异常检测等场景。Python作为主流的数据分析工具,提供了多种实现滚动分位数计算的方式,其中pandas库的方案最为常用。

核心实现方法:使用pandas的rolling结合quantile

pandas的rolling方法可以创建滑动窗口对象,再调用quantile方法即可直接计算窗口内的分位数,这是最简洁的实现方式。

首先准备测试数据:

import pandas as pd
import numpy as np

# 生成测试数据,共10个数值
data = pd.Series([12, 15, 18, 22, 20, 25, 28, 30, 27, 32])
print("原始数据:")
print(data)

接下来计算窗口大小为3的滚动50%分位数(即中位数):

# 窗口大小为3,计算50%分位数,min_periods设置为1表示窗口至少有1个数据就计算
rolling_median = data.rolling(window=3, min_periods=1).quantile(0.5)
print("n窗口大小为3的滚动50%分位数结果:")
print(rolling_median)

上述代码中,window=3表示每次滑动窗口包含3个连续数据,min_periods=1表示当窗口内数据不足3个时(比如前两个位置),只要有1个数据就进行计算,避免出现过多NaN值。quantile(0.5)中的参数表示要计算的分位数,取值范围为0到1之间,0.5对应中位数,0.25对应下四分位数,0.75对应上四分位数。

自定义分位数计算逻辑

如果需要更复杂的分位数计算逻辑,比如排除异常值后再计算分位数,可以在滚动窗口后使用apply方法传入自定义函数。

def custom_quantile(window, q):
    # 自定义函数:排除大于25的值后计算分位数
    filtered_window = window[window <= 25]
    if len(filtered_window) == 0:
        return np.nan
    return filtered_window.quantile(q)

# 应用自定义函数计算滚动25%分位数
rolling_custom = data.rolling(window=3, min_periods=1).apply(custom_quantile, args=(0.25,), raw=False)
print("n自定义逻辑后的滚动25%分位数结果:")
print(rolling_custom)

这里的apply方法会将每个滑动窗口的数据传入custom_quantile函数,args用来传递额外的参数给自定义函数。raw=False表示传入函数的是pandas的Series对象,方便进行数据筛选操作。

不同场景的参数调整

窗口大小的选择

窗口大小决定了计算的平滑程度,窗口越大,结果越平滑,但滞后性越强;窗口越小,结果越贴近原始数据,但波动越大。可以根据数据的时间周期选择合适的窗口,比如日度数据计算周度波动可以用窗口7, hourly数据计算日度波动可以用窗口24。

min_periods参数的作用

min_periods设置为小于window的值时,前几个位置的窗口数据不足也会进行计算,适合不需要严格窗口大小要求的场景;如果设置为等于window的值,那么只有窗口填满后才会输出结果,前window-1个位置的结果都是NaN。

结果验证

我们可以通过手动计算第一个完整窗口的结果来验证代码的正确性。比如窗口大小为3时,前三个数据是12、15、18,排序后是12、15、18,50%分位数是15,和代码输出的第一个完整窗口结果一致。

位置窗口数据排序后数据50%分位数
0[12][12]12
1[12,15][12,15]13.5
2[12,15,18][12,15,18]15
3[15,18,22][15,18,22]18

通过表格可以清晰看到每个窗口的计算过程,和代码输出的结果完全匹配,说明我们的实现是正确的。

Python滚动分位数pandasnumpyrolling修改时间:2026-06-25 22:51:36

免责声明:​ 已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰,观点力求客观中立。本站旨在免费分享,内容仅供个人学习、研究或参考使用。若引用了第三方作品,版权归原作者所有。如内容涉及您的权益,请联系我们处理。
内容垂直聚焦
专注技术核心技术栏目,确保每篇文章深度聚焦于实用技能。从代码技巧到架构设计,为用户提供无干扰的纯技术知识沉淀,精准满足专业提升需求。
知识结构清晰
覆盖从开发到部署的全链路。AI、前端、编程、数据库、服务器、建站、系统层层递进,构建清晰学习路径,帮助用户系统化掌握开发与运维所需的核心技术。
深度技术解析
拒绝泛泛而谈,深入技术细节与实践难点。无论是数据库优化还是服务器配置,均结合真实场景与代码示例进行剖析,致力于提供可直接应用于工作的解决方案。
专业领域覆盖
精准对应开发生命周期。从前端界面到后端编程,从数据库操作到服务器运维,形成完整闭环,一站式满足全栈工程师和运维人员的技术需求。
即学即用高效
内容强调实操性,步骤清晰、代码完整。用户可根据教程直接复现和应用于自身项目,显著缩短从学习到实践的距离,快速解决开发中的具体问题。
持续更新保障
专注既定技术方向进行长期、稳定的内容输出。确保各栏目技术文章持续更新迭代,紧跟主流技术发展趋势,为用户提供经久不衰的学习价值。