导读:本期聚焦于小伙伴创作的《Pandas数据怎么标准化?对列执行减去均值除以标准差运算的方法有哪些》,敬请观看详情,探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《Pandas数据怎么标准化?对列执行减去均值除以标准差运算的方法有哪些》有用,将其分享出去将是对创作者最好的鼓励。

Pandas对列执行减去均值除以标准差的标准化实现方法

Pandas数据怎么标准化?对列执行减去均值除以标准差运算的方法有哪些

数据标准化是数据预处理的核心步骤之一,减去均值除以标准差的标准化方式可以让数据服从均值为0、标准差为1的标准正态分布,消除不同特征量纲差异带来的影响。在Pandas中处理结构化数据时,我们可以通过多种灵活的方式实现该操作。

方法一:直接使用Pandas内置的mean和std方法

Pandas的DataFrame和Series对象都内置了mean()std()方法,我们可以直接基于这两个方法完成标准化计算,这种方式不需要额外引入其他库,适合轻量级的预处理场景。

示例代码如下:

import pandas as pd

# 构造示例数据
data = {
    'score': [85, 90, 78, 92, 88],
    'age': [20, 22, 19, 21, 23],
    'height': [170, 175, 168, 172, 174]
}
df = pd.DataFrame(data)
print("原始数据:")
print(df)

# 对指定列执行标准化
cols_to_normalize = ['score', 'age', 'height']
for col in cols_to_normalize:
    mean_val = df[col].mean()
    std_val = df[col].std()
    df[f'{col}_normalized'] = (df[col] - mean_val) / std_val

print("n标准化后的数据:")
print(df)

方法二:结合numpy实现向量化计算

numpy的向量化计算效率更高,当处理大规模数据时,可以结合numpy的meanstd函数完成标准化,减少循环带来的性能损耗。

示例代码如下:

import pandas as pd
import numpy as np

# 构造示例数据
data = {
    'price': [100, 150, 120, 180, 130],
    'quantity': [5, 8, 6, 9, 7]
}
df = pd.DataFrame(data)

# 提取需要标准化的列
cols = ['price', 'quantity']
# 计算均值和标准差
means = np.mean(df[cols], axis=0)
stds = np.std(df[cols], axis=0)
# 执行标准化
df[cols] = (df[cols] - means) / stds

print("标准化后的数据:")
print(df)

方法三:使用sklearn的StandardScaler模块

如果项目已经引入了sklearn库,使用StandardScaler是更规范的选择,它会自动对每列执行减去均值除以标准差的操作,还支持后续对新数据的统一标准化处理。

示例代码如下:

import pandas as pd
from sklearn.preprocessing import StandardScaler

# 构造示例数据
data = {
    'math': [90, 85, 88, 92, 87],
    'english': [80, 82, 79, 85, 81]
}
df = pd.DataFrame(data)

# 初始化标准化器
scaler = StandardScaler()
# 拟合并转换数据
normalized_data = scaler.fit_transform(df)
# 转回DataFrame
df_normalized = pd.DataFrame(normalized_data, columns=df.columns)

print("标准化后的数据:")
print(df_normalized)
print("n每列均值:", scaler.mean_)
print("每列标准差:", scaler.scale_)

不同方法的适用场景对比

我们可以通过下表快速了解三种方法的差异,方便根据实际需求选择:

实现方法优势适用场景
Pandas内置方法无需额外依赖,逻辑直观小规模数据、轻量级预处理
numpy向量化计算计算效率高,适合批量处理大规模数据、对性能要求高的场景
sklearn StandardScaler支持持久化参数,适配机器学习流程机器学习项目、需要统一预处理规则的场景

注意事项

  • 执行标准化前需要确认列的数据类型为数值型,非数值列需要先做转换或者排除
  • 如果某列的标准差为0,除法运算会出现报错,需要提前处理全为相同值的列
  • 使用sklearn的StandardScaler时,如果后续有新数据需要标准化,直接调用transform方法即可,不需要重新拟合

Pandas数据标准化减去均值除以标准差sklearnnumpy修改时间:2026-07-04 23:15:11

免责声明:​ 已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰,观点力求客观中立。本站旨在免费分享,内容仅供个人学习、研究或参考使用。若引用了第三方作品,版权归原作者所有。如内容涉及您的权益,请联系我们处理。
内容垂直聚焦
专注技术核心技术栏目,确保每篇文章深度聚焦于实用技能。从代码技巧到架构设计,为用户提供无干扰的纯技术知识沉淀,精准满足专业提升需求。
知识结构清晰
覆盖从开发到部署的全链路。AI、前端、编程、数据库、服务器、建站、系统层层递进,构建清晰学习路径,帮助用户系统化掌握开发与运维所需的核心技术。
深度技术解析
拒绝泛泛而谈,深入技术细节与实践难点。无论是数据库优化还是服务器配置,均结合真实场景与代码示例进行剖析,致力于提供可直接应用于工作的解决方案。
专业领域覆盖
精准对应开发生命周期。从前端界面到后端编程,从数据库操作到服务器运维,形成完整闭环,一站式满足全栈工程师和运维人员的技术需求。
即学即用高效
内容强调实操性,步骤清晰、代码完整。用户可根据教程直接复现和应用于自身项目,显著缩短从学习到实践的距离,快速解决开发中的具体问题。
持续更新保障
专注既定技术方向进行长期、稳定的内容输出。确保各栏目技术文章持续更新迭代,紧跟主流技术发展趋势,为用户提供经久不衰的学习价值。