FinStat2SQL:用于财务报表分析的Text2SQL工作流,精度达到61.33%,优于GPT-4o-mini

FinStat2SQL: A Text2SQL Pipeline for Financial Statement Analysis

text2sql在金融数据库系统中的应用广泛,能提高数据访问和查询效率,适用于财务报告自动化、客户支持聊天机器人等。生成准确的SQL从自然语言问题(text2sql)是一个长期挑战,尤其在数据库系统和用户查询日益复杂的情况下。

本文提出了FinStat2SQL,一个轻量级的text2sql工作流,支持对财务报表进行自然语言查询。它针对evas等本地标准进行了定制,在多代理设置中结合了大型和小型语言模型,用于实体抽取、SQL生成和自我纠正。

实验结果表示,经过微调的7B型号在消费级硬件上的响应时间低于4秒,达到61.33%的精度,优于GPT-4o-mini。

图片

摘要

尽管大型语言模型取得了进步,但text2sql仍然面临许多挑战。在金融领域,不同的金融实体和国家之间的数据库设计和财务报告布局差异很大,这使得text2sql更具挑战性。本文提出了FinStat2SQL,一个轻量级的text2sql工作流,支持对财务报表进行自然语言查询。它针对evas等本地标准进行了定制,在多代理设置中结合了大型和小型语言模型,用于实体抽取、SQL生成和自我纠正。我们建立了一个特定领域的数据库,并在一个合成的QA数据集上评估模型。经过微调的7B型号在消费级硬件上的响应时间低于4秒,达到61.33%的精度,优于GPT-4o-mini。FinStat2SQL为财务分析提供了一个可扩展的、经济高效的解决方案,使越南企业能够访问人工智能查询。

简介

生成准确的SQL从自然语言问题(text2sql)是一个长期挑战,尤其在数据库系统和用户查询日益复杂的情况下。近年来,深度神经网络和生成语言模型等方法被引入,尽管结果令人鼓舞,但在特定领域任务中仍面临挑战。

text2sql在金融数据库系统中的应用广泛,能提高数据访问和查询效率,适用于财务报告自动化、客户支持聊天机器人等。财务报告对公司财务健康的沟通至关重要,但手动分析效率低且易出错。各国会计标准的差异增加了跨地区财务指标查询的复杂性,text2sql技术被视为自动化财务分析的有前景的解决方案。

本研究设计了一个从财务统计生成SQL命令的流程,评估不同语言模型在越南公司财务报表系统中的SQL查询生成能力。研究比较了小型语言模型的监督微调训练策略,以确定最佳性能的方法,并探讨了这些模型在财务分析系统中的实际应用。

图片

相关工作

金融标准趋同问题

财务报表对各类用户(如会计、董事会、政府官员、股东)至关重要,全球大多数会计系统遵循IFRS编制财务报表。IFRS设定了财务要素的确认、计量和披露原则,具体包括:IFRS 15(收入确认)、IFRS 16(租赁会计)、IFRS 9(金融工具)。De George等(2016)指出,IFRS采纳带来透明度提升、资本成本降低、跨境投资增加、财务可比性改善和外部分析师覆盖率提高等好处。

然而,一些国家(如越南)未完全应用IFRS,越南采用的国家标准VAS与IFRS存在差异,VAS为规则导向,IFRS为原则导向。Phan等(2014、2018)讨论了越南与IFRS趋同的意图,Nguyen和Gong(2014)指出VAS与IFRS仅实现中等趋同,导致财务报告系统记录不一致,查询困难。针对这一问题,研究者们致力于利用语言模型进行自动查询训练,类似的情况在其他国家也存在。

Text2SQL

近年来,多个数据集被引入以支持text2sql系统的发展。Spider数据集涵盖138个领域,挑战跨领域泛化能力。WikiSQL提供超过24,000个来自维基百科的表格。Squall和KaggleDBQA探索模型在未见模式上的泛化能力。一些领域特定数据集(如Yelp、IMDB、SEDE)用于更集中评估,注重精确度。这些领域特定数据集未能完全满足行业对复杂性的需求。

Text2SQL方法在LLM出现前依赖于微调的编码-解码模型,使用图关系神经网络(如LGESQL和RATSQL)来捕捉查询令牌、表和列之间的结构关系。大型语言模型(如T5和LLaMA)的崛起显著提升了Text2SQL在Spider基准上的表现,RESDSQL是当前的最优微调方法。MAC-SQL和E-SQL通过将查询分解为子步骤来改善SQL生成,但增加了处理时间。

在金融领域,Text2SQL的研究较少,FinSQL是针对金融分析的模型无关LLM框架,解决了宽表和有限领域数据集的问题。FinSQL在BULL基准上表现优异,提升了36.64%的少样本跨数据库性能。BookSQL是一个大型文本到SQL数据集,专注于会计和金融领域,包含10万对NL-SQL,强调当前模型在该领域面临的挑战。

准备工作

数据集构建

构建了一个涵盖2016至2024年第三季度的金融数据库,包含200家主要越南上市公司,数据来源于FiinPro网站,存储在结构化SQL数据库中。数据库架构包括公司详情、财务报表、财务比率和实体匹配的向量数据库,采用通用映射表解决越南三种财务报表格式的不一致性。创建了两个数据库检查点:一个包含102家公司用于训练,另一个包含200家公司用于全面测试,以评估模型在不同约束下的性能。采用STAR模式数据库设计,中心事实表与描述性维度(如公司、行业)相连,支持快速灵活的历史数据查询,提升性能并确保可扩展性和一致性。

合成QA数据集

为了有效训练语言模型进行财务分析,创建了一个大规模合成问答数据集,专注于财务报表的探索、解释和分析。数据集通过自动化流程生成,涵盖基本、技术和比较财务分析任务。使用Gemini 2.0 Flash Thinking Experimental 01-21和GPT-4o mini作为主要生成器。采用LLM-as-a-Judge框架进行严格的质量筛选,确保保留高质量、相关性强的问答对。最终合成数据集的示例在表1中展示。

图片

评估数据集

评估FinStat2SQL管道的真实场景,创建了约300个金融分析问题的数据集,来源于股票交易所、经纪公司和投资分析师的实际财报。问题涵盖公司表现、市场行业和行业趋势,原本以图表形式呈现,现已转化为SQL任务。数据集还增加了多项选择题(MCQs),每个金融任务配有1至5个MCQs,以评估模型的推理、上下文理解和检索准确性。

方法

Text2SQL工作流

实体提取:使用LLM识别用户查询中的关键元素(行业、公司名、财务报表账户、财务比率),通过提示方法减少歧义,确保准确解析,并推断相关指标。

图片

行选择:从向量数据库中检索匹配候选项,使用选择机制缩小相关结果,特别是在实体模糊时,最终将选定候选项传递给代码生成LLM。

相似性搜索:利用向量数据库进行语义匹配,克服全文本搜索在财务报表领域的局限性,确保不同表述的准确对齐。

图片

少样本学习:提供设计良好的少样本示例,帮助LLM生成更准确、优化的SQL查询。

自我纠错:在查询生成过程中,使用自我调试机制修复语法和逻辑错误,确保输出的查询可执行且符合用户意图。

分解与多步生成:通过将查询分解为独立子查询,提升SQL生成质量,但增加处理时间。

评估指标

文本到SQL系统的评估指标分为两类:内容匹配指标(如组件匹配CM和精确匹配EM)和执行基础指标(如执行准确性EX和有效效率评分VES)。内容匹配指标忽视查询结果的正确性,执行基础指标未考虑输出内容的差异。

针对金融领域的需求,提出一种混合评估方法,结合结构准确性、上下文正确性和效率。使用大型语言模型(LLM)作为评估者,通过生成与原始查询相关的多项选择题来评估生成结果的质量。

实验

实验设置

评估处理越南财务报表的管道有效性,测试了商业大型语言模型(LLM)和小型语言模型(SLM)。

图片

Deep Seek V3有671B参数,Qwen 2.5有3B和7B两个版本;商业LLM为闭源模型,通过API访问,资源需求高;SLM为开源模型,易于部署,经过微调可实现竞争性能。

图片

实验中使用DPO和KTO对SLM进行对齐,利用GPT-4o-mini的错误输出和Gemini的改进响应作为训练对,旨在提升text2sql管道的推理能力。finstat2sql是Qwen 2.5 Coder的微调版本,集成了提出的管道以增强性能。

结果

Gemini家族模型在text2sql评估中表现优异,"thinking"变体准确率达72.03%,优于其他模型,显示其架构或训练数据更适合此任务。DeepSeek-V3在开源模型中表现竞争力,得益于其高效的MoE架构(37B活跃参数)。Dense模型如Qwen2.5 32B Coder和LLaMA 3.3 70B Instruct表现相似,约66%,显示出性能可能在此规模上趋于平稳。

图片

图片

图片

任务特定的微调显著提升小型语言模型(SLMs)在text2sql任务中的表现,finstat2sql模型在准确率上超越更大模型。对齐方法(如DPO)导致小型模型在私有测试集上准确率大幅下降,KTO虽略有改善但在主评估集上表现不佳,显示出过拟合问题。

图片

FinStat2SQL可集成至问答聊天机器人系统,用户查询后可返回预期表格,便于进一步分析。

总结

FinStat2SQL 使非专家能够用自然语言查询复杂金融数据,降低了使用门槛。该系统在准确性和效率之间取得了良好平衡,简单架构往往优于复杂架构。Gemini-2.0-FlashThinking 模型准确率最高(72.03%),但开源和微调模型(如 DeepSeek V3 和 Qwen2.5-Coder)表现竞争力强。7B finstat2sql 模型的表现与更大模型相当,显示出微调 SLM 的性价比。在许多情况下,模型对齐技术被认为不必要。系统已作为金融聊天机器人部署,查询成功率近70%,响应时间低于4秒,填补了越南金融自动化的空白。

限制和未来工作

研究局限性:

  • 数据集仅限于VN30和HNX30上市公司,缺乏对越南中小企业(SMEs)的覆盖,影响结果的普遍性。

  • 系统对越南金融术语的变异识别能力不足,可能导致实体识别不准确,且偏向国际标准(如IFRS)而非越南会计标准(VAS)。

  • FinStat2SQL仅在越南环境下测试,可能不适用于全球框架(如US GAAP)。

  • 高性能闭源模型(如GPT-4o-mini)需要大量计算资源,限制了其可及性和实时应用。

未来工作方向:

  • 扩展数据集,纳入中小企业、未上市公司及更多金融数据源,以增强覆盖面。

  • 适应国际标准,支持跨国应用,并整合预测分析用于趋势预测和风险评估。

  • 在预算限制下,优化训练方法,研究对齐技术表现不佳的原因,尝试数据增强和改进微调策略,以提升FinStat2SQL的稳健性、实用性和可扩展性。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

(👆👆👆安全链接,放心点击)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值