文章主要内容
- 研究背景:在表格数据的机器学习任务中,特征工程至关重要,但需要大量人力和专业知识。虽然大语言模型在特征工程领域有所应用,但现有方法存在依赖云托管大语言模型(如GPT)、仅适用于分类任务、难以处理大规模数据和安全问题等局限性。
- 相关工作:介绍了其他基于语言模型的特征工程研究(如CAAFE、FeatLLM),对比了它们与FeRG - LLM的能力差异;同时阐述了思维链(Chain - of - Thought,CoT)和直接偏好优化(Direct Preference Optimization,DPO)的相关理论,为FeRG - LLM框架提供理论基础。
- 方法:构建两阶段对话数据集,利用GPT - 4omini API提取信息,通过重新格式化信息激发8B规模语言模型的CoT推理能力,第一阶段生成新特征的关键思路,第二阶段生成Python代码实现特征创建,并利用LoRA进行监督微调;使用DPO对生成特征的合理性进行