怎么用Python,一分钟干出3000个因子,
不是“瞎编的因子”,是真·能喂给模型、能配对策略、能拿去回测的那种!
要是你能跟着我整完,
下次就轮到你对别人说:“这不是因子的问题,是你不会提。”
啥是交易因子? 简单点说,它就像股票市场里的“隐藏秘籍”。别人看K线、看均线、看MACD,你看交易因子——直接抢跑三步。
那么问题来了:怎么才能快速、批量地生成交易因子?
我试过很多招,最后发现了一个宝藏库,堪称“因子工厂”,它的名字是——tsfresh。
tsfresh:一台会炼金的因子生成器
tsfresh 是一个专注于时间序列特征提取的 Python 库,全称是 Time Series Feature extraction based on scalable hypothesis tests。它的核心功能,就是从一段或多段时间序列中,自动提取出大量可用于机器学习建模的统计特征。
这些特征,也就是我们常说的因子(在金融量化语境下)。
更具体一点,tsfresh 内置了上百种特征计算方法,涵盖常见的统计量(如最大值、最小值、平均值、方差、偏度、峰度)、频域特征、小波变换、傅里叶变换、复杂度指标、变化率指标等,甚至还有一些你连听都没听过的“奇葩特征”——什么change_quantiles、agg_autocorrelation、linear_trend_timewise,只要能用数学刻画时序,它都能榨出来。
你甚至都不用自己去定义特征函数,它会把能提的都给你提一遍,一口气喂你几千个。
它的设计初衷其实是面向工业 IoT 领域,比如设备预测维护之类的,但它天生适合金融时间序列。尤其是我们搞量化、做选股、因子挖掘这类场景,数据形态几乎一模一样。
说白了,tsfresh 就是