基于特征工程与转换方法的LightGBM资产预测研究

“Assets Forecasting with Feature Engineering and Transformation Methods for LightGBM”

论文地址:https://arxiv.org/pdf/2501.07580

摘要

股票市场的波动对经济和消费市场影响重大,精准预测显得尤为重要。研究指出,尽管深度学习与机器学习的混合模型在预测上表现出色,但其对计算资源的要求高,普通计算机难以满足。本文通过优化LightGBM来提升性能同时减少计算需求,并采用新的特征工程技术,例如指标-价格斜率及14期EMA的开收盘价差异,以增强预测的准确性。研究测试了七种特征和目标变量转换策略,结果显示对数收益、简单收益以及EMA差异比率最为有效。虽然EMA比率在方向预测上的准确度较低,且标准化目标变量转换增加了训练时间,但新引入的特征在所有目标变量转换方法中均显示出了较高的重要性。本研究提供了一种既可访问又计算高效的股票市场预测解决方案。

简介

股票市场的表现对个人及社会的财务健康有着重要影响,涉及到消费价格、经济政策以及通货膨胀等多个方面。时间序列预测作为一种基于历史数据推测未来值的方法,在股票市场中应用广泛,为决策制定和经济规划提供了有力支持。随着技术的发展,机器学习(ML)和深度学习(DL)开始应用于金融时间序列分析,但由于其高计算需求,限制了普通投资者的应用。

本研究关注LightGBM模型,鉴于其高效的计算性能和强大的扩展性,适合更广泛的应用场景。通过引入新的特征工程技术,并优化特征与目标变量转换方法,旨在进一步提高LightGBM在时间序列预测中的效果。

该研究致力于提升LightGBM的性能,降低对高性能硬件的依赖。系统地评估了七种目标变量变换方式,训练了不同的特征集合,并加入了如价格指标斜率差和开收盘价差等新交叉特征以增强预测准确性。目标是使更多人能够利用机器学习进行金融预测,促进金融领域的创新与普及。

01相关工作

统计模型

ARIMA模型常用于金融时间序列的预测,基于线性关系,适用于像能源和酒店价格这样的预测。然而,在处理股市等非线性异方差时间序列时,ARIMA模型显示出其局限性。为解决这一问题,GARCH模型被提出,能够专注于波动性的直接建模。尽管如此,当使用混合GARCH-ARIMA模型预测S&P 500指数时,其准确性依然有限(R平方=0.023910)。

机器学习模型

自21世纪初以来,随着技术的进步,机器学习模型开始在股市预测中发挥重要作用。这些模型能够有效处理多变量数据集中的复杂关系,并适应股市的非线性特质。主要的机器学习方法包括支持向量机、随机森林及梯度提升机,后者在LightGBM、XGBoost、CatBoost和AdaBoost等实现中表现出更高的效率。据Ma shangchen等人的研究,在2016至2018年间,LightGBM与GBDT模型的回报率超过了标准普尔500指数,其中LightGBM实现了高达394%的总回报率。

深度学习模型

深度学习(DL)模型在时间序列分析中擅长识别时间依赖关系和特征提取,但由于其对训练资源的高要求,推广速度较慢。这些要求包括大规模数据集、足够的内存以及高性能处理器(如GPU和TPU)。结合机器学习(ML)和深度学习(DL)的混合模型在时间序列预测方面表现出色,能够整合两者的优点。Yuankai Guo等人提出的LSTM-LightGBM混合模型,首先利用LSTM处理特征(例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值