“SMP金融大模型挑战赛孵化了FinGLM项目,这是一个专注于深度解析上市公司年报的对话交互智能系统。FinGLM旨在利用大型语言模型(LLM)来实现专家级别的金融分析,处理金融文本中的专业术语和隐含信息。FinGLM项目的数据准备和模型微调是构建问答系统的重要步骤,它们包括将PDF数据转换为可处理的文本格式、数据切分和处理、以及对模型进行微调以适应金融领域的需求。”
01
—
人工智能大模型LLM在文本生成方面已经取得了明显的进展,但在更为复杂和具有挑战性的金融场景中的应用中,仍然需要进一步提升。
今天给朋友推荐一个由金融大模型挑战赛开源出来的大模型FinGLM。
开源地址:
https://github.com/MetaGLM/FinGLM
项目介绍:
FinGLM 是一个旨在深度解析上市公司年报的对话交互智能系统。面对金融文本中的专业术语与暗含信息,致力于用大模型LLM实现专家级别的金融分析。
产生背景:
项目产生于SMP金融大模型挑战赛,SMP 2023 ChatGLM金融大模型挑战赛(The Evaluation of Large Model of Finance Technology,SMP2023-ELMFT)由中国中文信息学会社会媒体处理专委会(SMP)主办,智谱 AI、安硕信息、阿里云、魔搭社区、北京交通大学联合承办,天池平台为指定赛事平台。
挑战赛地址:
https://tianchi.aliyun.com/competition/entrance/532126
挑战赛目的:
能否在现有开源小模型的基础上进行能力增强,通过微调大模型、大小模型协同、向量数据库等先进方法,提升 AI 模型在金融方面分析的性能。
具体来说,能否根据上市公司的年报数据,训练出一个可以回答相关的投资方面的大模型。
开源数据集:
涵盖2019-2021年期间部分上市公司的年度报告。该数据集共包含 11588 个详尽的 PDF 文件,合计大小:69GB 。
问答演示:
{"id": 0, "question": "2021年其他流动资产第12高的是哪家上市公司?", "answer": "2021年其他流动资产第12高的公司是苏美达股份有限公司。"}
{"id": 1, "question": "注册地址在重庆的上市公司中,2021年营业收入大于5亿的有多少家?", "answer": "2021年注册在重庆,营业收入大于5亿的公司一共有4家。"}
{"id": 2, "question": "广东华特气体股份有限公司2021年的职工总人数为?", "answer": "2021年广东华特气体股份有限公司职工总人数是1044人。"}
{"id": 3, "question": "在保留两位小数的情况下,请计算出金钼股份2019年的流动负债比率", "answer": "2019金钼股份流动负债比率是61.10%。其中流动负债是1068418275.97元;总负债是1748627619.69元;"}
{"id": 4, "question": "2019年负债总金额最高的上市公司为?", "answer": "2019年负债合计最高的是上海汽车集团股份有限公司。"}
{"id": 5, "question": "2019年总资产最高的前五家上市公司是哪些家?", "answer": "2019年资产总计最高前五家是上海汽车集团股份有限公司、中远海运控股股份有限公司、国投电力控股股份有限公司、华域汽车系统股份有限公司、广州汽车集团股份有限公司。"}
{"id": 6, "question": "2020年营业收入最高的3家并且曾经在宁波注册的上市公司是?金额是?", "answer": "注册在宁波,2020年营业收入最高的3家是宁波均胜电子股份有限公司营业收入47889837616.15元;宁波建工股份有限公司营业收入19796854240.57元;宁波继峰汽车零部件股份有限公司营业收入15732749552.37元。"}
{"id": 7, "question": "注册地址在苏州的上市公司中,2020年利润总额大于5亿的有多少家?", "answer": "2020年注册在苏州,利润总额大于5亿的公司一共有2家。"}
{"id": 8, "question": "浙江运达风电股份有限公司在2019年的时候应收款项融资是多少元?", "answer": "2019年浙江运达风电股份有限公司应收款项融资是51086824.07元。"}
{"id": 9, "question": "神驰机电股份有限公司2020年的注册地址为?", "answer": "2020年神驰机电股份有限公司注册地址是重庆市北碚区童家溪镇同兴北路200号。"}
{"id": 10, "question": "2019年山东惠发食品股份有限公司营业外支出和营业外收入分别是多少元?", "answer": "2019年山东惠发食品股份有限公司营业外收入是1018122.97元;营业外支出是2513885.46元。"}
{"id": 11, "question": "福建广生堂药业股份有限公司2020年年报中提及的财务费用增长率具体是什么?", "answer": "2020福建广生堂药业股份有限公司财务费用增长率是34.33%。其中,财务费用是7766850.48元;上年财务费用是5781839.51元。"}
{"id": 12, "question": "华灿光电股份有限公司2021年的法定代表人与上年相比相同吗?", "answer": "不相同,华灿光电股份有限公司2020年法定代表人是俞信华,2021年法定代表人是郭瑾。"}
{"id": 13, "question": "请具体描述一下2020年仲景食品控股股东是否发生变更。", "answer": "2020年,仲景食品控股股东没有发生变更。"}
{"id": 14, "question": "什么是其他债权投资?", "answer": "其他债权投资是指企业或机构投资者通过购买债券、贷款、定期存款等金融产品获得的固定收益。这些金融产品通常由政府、公司或其他机构发行,具有一定的信用等级和风险。\n\n其他债权投资是企业或机构投资组合中的一部分,通常用于稳定收益和分散风险。与股票投资相比,其他债权投资的风险较低,但收益也相对较低。\n\n其他债权投资的管理和投资策略与其他资产类别类似,包括分散投资、风险控制、收益最大化等。然而,由于其他债权投资的种类繁多,其投资和管理也存在一定的特殊性。"}
贡献者:
最后进入决赛阶段的馒头科技、南哪都队、结婚买房代代韭菜、nsddd、Chatglm反卷总局、小打小闹、东北大土豆、安硕硕眼探企等团队,将最后成型的项目方案、代码和模型完全开源为此次的FinGLM。
02
—
流程
从年报PDF文档到金融分析智能问答系统的构建,需要经历数据准备和模型微调等多个步骤,最终将通过问答功能将金融分析系统呈现给最终用户使用。
1. 数据准备阶段
-
PDF 转 TXT:
-
-
转换为 TXT 格式。
保留表格并合并单元格。
-
-
数据切分:
-
-
基础信息:例如公司名称等。
财务数据:例如资产负债表等。
综合信息:例如财务指标等。
-
-
数据处理:
-
-
计算基础公式:如营业成本率等。
计算增长率。
计算行业均值和排名。
-
-
存入数据库:
-
存入 SQL、Mongo 和 ES 中。
包括建表及存储。
2. 模型微调阶段
-
数据分类:如 SQL 数据、ES 数据等。
选择微调策略:例如 ptuningv2、lora等。
执行微调:根据选定策略。
3. 问答流程
-
输入问题:用户输入问题。
Prompt 准备:根据问题生成 prompt。
生成查询语句:基于 GPU 使用率选择生成方法。
查询数据库:并返回结果。
答案生成:结合问题和查询结果生成答案。
03
—
开源协议
FinGLM 项目数据/方案/代码/模型开源,相关资源仅供研究、交流使用,一般不建议用于商业用途;如用于商业用途,由此所带来的法律风险,请自行承担。
如涉及到模型商业使用问题,请遵循ChatGLM模型的使用协议。
参考资料:
https://github.com/MetaGLM/FinGLM
https://mp.weixin.qq.com/s/FML3mx7McW735Qt0pgy6TQ
阅读推荐:
逆转诅咒|大模型的最大BUG!A=B 训练的大模型LLM无法学会 B=A?国内模型说可以
AI 产品榜 · 国内 100 强和出海 20 强(2023年08月)
大模型应用发展的方向|代理 Agent 的兴起及其未来(下)
大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
国外报告90%的AI类产品公司已经实现盈利,而国内大模型和AIGC的访谈说太卷了
拥抱未来,学习 AI 技能!关注我,免费领取 AI 学习资源。