>检索授权的发电(RAG):革新财务数据分析
>本文探讨了金融公司中检索增强发电(RAG)的普及,重点介绍了它如何简化知识访问并应对LLM驱动的解决方案中的关键挑战。 RAG将猎犬(位置相关文档)与大语言模型(LLM)(合成响应)结合在一起,证明对客户支持,研究和内部知识管理等任务非常宝贵。
有效的LLM评估至关重要。 受测试驱动的开发启发,一种评估驱动的方法使用可测量的基准来验证和完善AI工作流程。 对于抹布,这涉及创建代表性输入输出对(例如,用于聊天机器人或源文档和预期摘要的问答对)。 传统上,该数据集创建在很大程度上依赖于主题专家(SME),从而导致了耗时,不一致和昂贵的过程。 此外,LLMS在文档(表格,图表)中处理视觉元素的局限性阻碍了准确性,而标准的OCR工具通常会掉落。
>
克服多模式能力
>多模式基础模型的出现提供了解决方案。 这些模型同时处理文本和视觉内容,消除了单独的文本提取的需求。 他们可以摄入整个页面,识别布局结构,图表和表格,从而提高准确性,可扩展性和减少手动努力。
>
案例研究:财富管理研究报告分析
>本研究使用2023 Cerulli报告(结合文本和复杂视觉效果的典型财富管理文件)来演示自动化的问答生成。 目的是产生包含视觉元素的问题并产生可靠的答案。 该过程采用了人类的Claude Sonnet 3.5,该过程在内部处理PDF到图像转换,简化了工作流程并降低了代码复杂性。>
提示指示该模型分析特定页面,标识页面标题,创建引用视觉或文本内容的问题,并为每个问题生成两个不同的答案。 实施了一种比较学习方法,提供了两个答案,以评估和选择优越的响应。这反映了人类决策,其中比较替代方案简化了过程。 这与“我们从LLM的一年中学到的知识”中强调了最佳实践,强调了对LLM评估的成对比较的稳定性。
>
优化工作流程:缓存,批处理和页面选择>
实施了几个优化:>
- 缓存:>缓存大大降低了成本。 处理报告而无需缓存的报告费用为9美元;通过缓存,价格为3美元(节省3倍)。 节省成本的规模更加戏剧性。>
- >批处理处理:使用Anthropic的批次API减半成本,证明比单独处理更具成本效益。>
>页面选择:- 以10页批量处理文档可以在精度和效率之间达到最佳平衡。 使用清晰的页面标题作为锚,证明比仅依靠页码链接Q&A对与其来源更可靠。
>
示例输出和福利
>
>一个示例显示了LLM如何准确地从报告中的表中合成信息,以回答有关AUM分布的问题。 总体好处包括:
通过缓存和批处理处理, >大幅降低
。
-
减少了中小企业的时间和精力,使他们可以专注于更高价值的任务。
这种方法展示了一种可扩展且具有成本效益的解决方案,用于为破布系统创建评估数据集,从而利用多模式LLM的功能提高财务数据分析的准确性和效率。 原始文本中的图像如下:-
以上是LLMS合成数据生成的详细内容。更多信息请关注PHP中文网其他相关文章!