在数据分析工作中,滚动分位数是衡量数据在滑动窗口内分布特征的重要指标,常用于金融数据波动分析、传感器数据异常检测等场景。Python作为主流的数据分析工具,提供了多种实现滚动分位数计算的方式,其中pandas库的方案最为常用。
核心实现方法:使用pandas的rolling结合quantile
pandas的rolling方法可以创建滑动窗口对象,再调用quantile方法即可直接计算窗口内的分位数,这是最简洁的实现方式。
首先准备测试数据:
import pandas as pd
import numpy as np
# 生成测试数据,共10个数值
data = pd.Series([12, 15, 18, 22, 20, 25, 28, 30, 27, 32])
print("原始数据:")
print(data)
接下来计算窗口大小为3的滚动50%分位数(即中位数):
# 窗口大小为3,计算50%分位数,min_periods设置为1表示窗口至少有1个数据就计算
rolling_median = data.rolling(window=3, min_periods=1).quantile(0.5)
print("n窗口大小为3的滚动50%分位数结果:")
print(rolling_median)
上述代码中,window=3表示每次滑动窗口包含3个连续数据,min_periods=1表示当窗口内数据不足3个时(比如前两个位置),只要有1个数据就进行计算,避免出现过多NaN值。quantile(0.5)中的参数表示要计算的分位数,取值范围为0到1之间,0.5对应中位数,0.25对应下四分位数,0.75对应上四分位数。
自定义分位数计算逻辑
如果需要更复杂的分位数计算逻辑,比如排除异常值后再计算分位数,可以在滚动窗口后使用apply方法传入自定义函数。
def custom_quantile(window, q):
# 自定义函数:排除大于25的值后计算分位数
filtered_window = window[window <= 25]
if len(filtered_window) == 0:
return np.nan
return filtered_window.quantile(q)
# 应用自定义函数计算滚动25%分位数
rolling_custom = data.rolling(window=3, min_periods=1).apply(custom_quantile, args=(0.25,), raw=False)
print("n自定义逻辑后的滚动25%分位数结果:")
print(rolling_custom)
这里的apply方法会将每个滑动窗口的数据传入custom_quantile函数,args用来传递额外的参数给自定义函数。raw=False表示传入函数的是pandas的Series对象,方便进行数据筛选操作。
不同场景的参数调整
窗口大小的选择
窗口大小决定了计算的平滑程度,窗口越大,结果越平滑,但滞后性越强;窗口越小,结果越贴近原始数据,但波动越大。可以根据数据的时间周期选择合适的窗口,比如日度数据计算周度波动可以用窗口7, hourly数据计算日度波动可以用窗口24。
min_periods参数的作用
当min_periods设置为小于window的值时,前几个位置的窗口数据不足也会进行计算,适合不需要严格窗口大小要求的场景;如果设置为等于window的值,那么只有窗口填满后才会输出结果,前window-1个位置的结果都是NaN。
结果验证
我们可以通过手动计算第一个完整窗口的结果来验证代码的正确性。比如窗口大小为3时,前三个数据是12、15、18,排序后是12、15、18,50%分位数是15,和代码输出的第一个完整窗口结果一致。
| 位置 | 窗口数据 | 排序后数据 | 50%分位数 |
|---|---|---|---|
| 0 | [12] | [12] | 12 |
| 1 | [12,15] | [12,15] | 13.5 |
| 2 | [12,15,18] | [12,15,18] | 15 |
| 3 | [15,18,22] | [15,18,22] | 18 |
通过表格可以清晰看到每个窗口的计算过程,和代码输出的结果完全匹配,说明我们的实现是正确的。