Python中如何进行特征工程？Featuretools怎么用

来源：网站主作者：重启一下头衔：草根站长

导读：本期聚焦于小伙伴创作的《Python中如何进行特征工程？Featuretools怎么用》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《Python中如何进行特征工程？Featuretools怎么用》有用，将其分享出去将是对创作者最好的鼓励。

特征工程是机器学习项目中极为重要的一环，优质的特征能够显著提升模型的预测效果。手动进行特征构建需要耗费大量的时间和精力，而Featuretools作为Python中自动化的特征工程工具，可以帮助我们快速从原始数据中衍生出大量有效特征，大幅降低特征工程的成本。

Featuretools核心概念

在使用Featuretools之前，需要先了解几个核心概念，这些是使用该工具的基础。

实体集（EntitySet）

实体集是Featuretools中存储所有数据表和表之间关系的数据结构，所有特征衍生的操作都基于实体集展开。我们可以将原始的多张数据表添加到实体集里，并定义表之间的关联关系。

深度特征合成（Deep Feature Synthesis, DFS）

DFS是Featuretools的核心算法，它会根据实体集中表的关系，通过堆叠基础特征和操作来生成新的特征。合成的深度可以通过参数控制，深度越高生成的特征越复杂。

特征原语（Feature Primitives）

特征原语是生成特征的基础操作，分为聚合原语和转换原语两类。聚合原语用于对不同分组的数据进行聚合计算，比如求和、计数、平均值等；转换原语用于对单个或多个特征进行转换，比如取对数、计算差值、时间特征提取等。

环境安装

Featuretools可以通过pip快速安装，执行以下命令即可完成安装：

# 安装Featuretools
pip install featuretools

完整使用流程示例

下面通过一个零售场景的示例，演示Featuretools的完整使用流程。假设我们有两张原始表，一张是客户表，一张是订单表，我们需要基于这两张表生成客户相关的特征。

1. 准备原始数据

首先构造示例数据，实际使用中可以直接读取自己的业务数据：

import pandas as pd
import featuretools as ft

# 构造客户表
customers_df = pd.DataFrame({
    "customer_id": [1, 2, 3],
    "join_date": pd.to_datetime(["2023-01-01", "2023-01-02", "2023-01-03"]),
    "region": ["north", "south", "north"]
})

# 构造订单表
orders_df = pd.DataFrame({
    "order_id": [101, 102, 103, 104, 105],
    "customer_id": [1, 1, 2, 2, 3],
    "order_date": pd.to_datetime(["2023-02-01", "2023-03-01", "2023-02-15", "2023-04-01", "2023-03-10"]),
    "order_amount": [100, 200, 150, 300, 250]
})

2. 创建实体集并添加数据表

接下来创建实体集，将两张表添加到实体集中，并指定主键：

# 创建实体集
es = ft.EntitySet(id="retail_data")

# 添加客户表，指定customer_id为主键
es = es.add_dataframe(
    dataframe_name="customers",
    dataframe=customers_df,
    index="customer_id",
    time_index="join_date"
)

# 添加订单表，指定order_id为主键，customer_id为外键关联到客户表
es = es.add_dataframe(
    dataframe_name="orders",
    dataframe=orders_df,
    index="order_id",
    time_index="order_date"
)

# 添加表之间的关联关系
es = es.add_relationship("customers", "customer_id", "orders", "customer_id")

3. 运行深度特征合成生成特征

配置好实体集后，就可以调用dfs函数生成特征，我们可以指定最大合成深度、使用哪些特征原语等参数：

# 运行深度特征合成
feature_matrix, feature_defs = ft.dfs(
    entityset=es,
    target_dataframe_name="customers",  # 目标表，生成的每个特征对应目标表的一行
    max_depth=2,  # 最大特征合成深度
    verbose=True  # 打印生成过程信息
)

# 查看生成的特征矩阵
print(feature_matrix.head())
print("生成的特征数量：", len(feature_defs))

4. 特征结果说明

上述代码运行后，Featuretools会自动生成类似以下的特征：

每个客户的订单总数（COUNT(orders.order_id)）
每个客户的订单总金额（SUM(orders.order_amount)）
每个客户的订单平均金额（MEAN(orders.order_amount)）
每个客户最近一次下单时间（MAX(orders.order_date)）
客户加入日期和最近下单日期的时间差等

这些特征都是基于我们定义的表关系自动生成的，不需要手动编写计算逻辑。

进阶使用技巧

自定义特征原语

如果内置的特征原语无法满足需求，我们可以自定义特征原语。比如我们需要计算每个客户订单金额的标准差，可以自定义聚合原语：

from featuretools.primitives import AggregationPrimitive
import numpy as np

# 自定义标准差聚合原语
class StdAggregation(AggregationPrimitive):
    name = "std_aggregation"
    input_types = [ft.variable_types.Numeric]
    return_type = ft.variable_types.Numeric
    stack_on_self = False

    def get_function(self):
        return np.std

# 使用自定义原语生成特征
feature_matrix, feature_defs = ft.dfs(
    entityset=es,
    target_dataframe_name="customers",
    agg_primitives=["std_aggregation", "sum", "count"],
    max_depth=2
)

特征筛选

自动生成的特征可能会包含很多冗余或无意义的特征，我们可以通过特征的重要性或者相关性进行筛选，保留对模型有用的特征：

# 简单筛选非空值比例高于0.5的特征
valid_features = [col for col in feature_matrix.columns if feature_matrix[col].notna().mean() > 0.5]
filtered_feature_matrix = feature_matrix[valid_features]
print("筛选后的特征数量：", len(filtered_feature_matrix.columns))

注意事项

生成的特征数量会随着合成深度和原始表数量的增加而快速增长，需要合理控制max_depth参数，避免生成过多无用特征。
对于时间相关的数据，需要正确指定表的time_index，这样生成的特征会符合时间顺序，避免数据泄露。
生成的很多特征可能存在多重共线性，在后续建模时需要注意处理，避免影响模型效果。

Python Featuretools 特征工程特征衍生修改时间：2026-06-23 20:00:24

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。