本文是LLM系列文章,针对《Learning to Generate Explainable Stock Predictions using
Self Reflective Large Language Models》的翻译。
摘要
对于传统的非生成深度学习模型来说,解释股票预测通常是一项困难的任务,因为解释仅限于可视化重要文本的注意力权重。如今,大型语言模型(LLM)为这个问题提供了一种解决方案,因为它们具有为决策过程生成人类可读解释的已知能力。然而,股票预测的任务对LLM来说仍然具有挑战性,因为它需要能够权衡混乱的社会文本对股价的不同影响。随着解释部分的引入,这个问题变得越来越困难,这需要LLM口头解释为什么某些因素比其他因素更重要。另一方面,为了为这样的任务微调LLM,需要对训练集中的每个股票运动进行专家注释的解释样本,这是昂贵的,而且难以扩展。
为了解决这些问题,我们提出了我们的总结-解释-预测(SEP)框架,该框架利用了言语自我反思代理和近端策略优化(PPO),使LLM能够自学如何以完全自主的方式生成可解释的股票预测。反思代理通过自我推理过程学习如何解释过去的股票走势,而PPO训练师则训练模型在测试时根据输入文本生成最有可能的解释。PPO训练器的训练样本也是在反思过程中生成的响应,这消除了对人工注释器的需