在许多现实世界应用中,数据并不纯粹是文本的,其中可能包括图像,表和图表,这些图表和图表有助于加强叙述。多模式报告生成器允许您将文本和图像同时合并到最终输出中,从而使您的报告更具动态性和视觉上的丰富。
本文概述了如何使用以下方式构建这样的管道
- > llamaindex
- 用于编排文档解析和查询引擎, openai
- 文本分析的语言模型, llamaparse
- 从pdf文档中提取文本和图像, >使用 a arize phoenix的可观察性设置(通过llamaTrace)
- 进行记录和调试。 最终结果是可以处理整个PDF幻灯片甲板(包括文本和视觉效果)的管道,并生成包含文本和图像的结构化报告。
学习目标
了解如何使用多模式管道整合有效的财务报告生成文本和视觉效果。
- 学习利用Llamaindex和Llamaparse来增强结构化产出的财务报告。 探索llamaparse,以有效地从PDF文档中提取文本和图像。
- >使用Arize Phoenix(通过LlamaTrace)来设置可观察性,以记录和调试复杂管道。
- 创建一个结构化查询引擎,以生成与视觉元素相互交织的报告。
- >本文是
> > data Science Blogathon的一部分。 目录的>>
概述该过程的概述
- >
- >逐步实现
-
- 步骤1:安装和导入依赖关系
- 步骤2:设置可观察性> 步骤3:加载数据 - 加载您的slide can
- 进行解析,步骤6:关联文本和图像
- > >步骤7:构建摘要索引索引
- 步骤8:定义结构化的输出架构
设置🎜 5:用Llamaparse - 构建多模式报告生成器涉及创建一条管道,该管道无缝地集成了来自PDF等复杂文档的文本和视觉元素。该过程始于安装必要的库,例如用于文档解析和查询编排的LlamainDex,以及用于提取文本和图像的Llamaparse。使用Arize Phoenix(通过Llamatrace)来监视和调试管道。
>设置完成后,管道将处理PDF文档,将其内容解析到结构化文本中,并渲染诸如表和图表之类的视觉元素。然后关联了这些解析的元素,创建一个统一的数据集。构建了一个摘要,以启用高级见解,并开发了结构化的查询引擎,以生成将文本分析与相关视觉效果融合的报告。结果是一个动态和交互式报告生成器,该生成器将静态文档转换为用于用户查询的丰富的多模式输出。
>>逐步实现
>按照本详细指南构建多模式报告生成器,从设置依赖项到使用集成的文本和图像生成结构化输出。每个步骤都确保Llamaindex,Llamaparse和Arize Phoenix的无缝整合,以进行有效而动态的管道。
步骤1:安装和导入依赖项
>您需要在Python 3.9.9上运行的以下库:
> - llama-index
- llama-parse (用于文本图像解析)>
- llama-index-callbacks-arize-phoenix(用于可观察性/登录)
- > nest_asyncio(处理笔记本中的异步事件循环)
!pip install -U llama-index-callbacks-arize-phoenix import nest_asyncio nest_asyncio.apply()
>步骤2:设置可观察性步骤3:加载数据 - 获取幻灯片甲板
PHOENIX_API_KEY = "<phoenix_api_key>" os.environ["OTEL_EXPORTER_OTLP_HEADERS"] = f"api_key={PHOENIX_API_KEY}" llama_index.core.set_global_handler( "arize_phoenix", endpoint="https://llamatrace.com/v1/traces" )</phoenix_api_key>
进行示范,我们使用Conocophillips的2023年投资者会议幻灯片。我们下载了PDF:>检查PDF幻灯片是否在数据文件夹中,如果不将其放在数据文件夹中并按照您的要求命名。
import os import requests # Create the directories (ignore errors if they already exist) os.makedirs("data", exist_ok=True) os.makedirs("data_images", exist_ok=True) # URL of the PDF url = "https://static.conocophillips.com/files/2023-conocophillips-aim-presentation.pdf" # Download and save to data/conocophillips.pdf response = requests.get(url) with open("data/conocophillips.pdf", "wb") as f: f.write(response.content) print("PDF downloaded to data/conocophillips.pdf")
>步骤4:设置模型接下来,您将其注册为LlamainDex的默认值:
> from llama_index.llms.openai import OpenAI from llama_index.embeddings.openai import OpenAIEmbedding embed_model = OpenAIEmbedding(model="text-embedding-3-large") llm = OpenAI(model="gpt-4o")
步骤5:用llamaparse解析文件 Llamaparse可以提取文本和图像(通过多模式大型模型)提取文本和图像。对于每个PDF页面,它返回:
from llama_index.core import Settings Settings.embed_model = embed_model Settings.llm = llm
markdown Text(带表,标题,子弹点等)
- 渲染图像
- (本地保存)>
print(f"Parsing slide deck...") md_json_objs = parser.get_json_result("data/conocophillips.pdf") md_json_list = md_json_objs[0]["pages"]
print(md_json_list[10]["md"])
!pip install -U llama-index-callbacks-arize-phoenix import nest_asyncio nest_asyncio.apply()
>步骤6:关联文本和图像
>我们为每个页面创建一个>> textnode
PHOENIX_API_KEY = "<phoenix_api_key>" os.environ["OTEL_EXPORTER_OTLP_HEADERS"] = f"api_key={PHOENIX_API_KEY}" llama_index.core.set_global_handler( "arize_phoenix", endpoint="https://llamatrace.com/v1/traces" )</phoenix_api_key>
import os import requests # Create the directories (ignore errors if they already exist) os.makedirs("data", exist_ok=True) os.makedirs("data_images", exist_ok=True) # URL of the PDF url = "https://static.conocophillips.com/files/2023-conocophillips-aim-presentation.pdf" # Download and save to data/conocophillips.pdf response = requests.get(url) with open("data/conocophillips.pdf", "wb") as f: f.write(response.content) print("PDF downloaded to data/conocophillips.pdf")
>步骤8:定义结构化输出模式和> imageBlock - 和一个父母模型 关键点:
reportOutputfrom llama_index.llms.openai import OpenAI from llama_index.embeddings.openai import OpenAIEmbedding embed_model = OpenAIEmbedding(model="text-embedding-3-large") llm = OpenAI(model="gpt-4o") 需要至少一个图像块,确保最终答案是多模式的。
> >步骤9:创建一个结构化查询引擎 LlamainDex llamaindex允许您使用“结构化的LLM”(即,将输出自动解析为特定模式的LLM)。以下是: from llama_index.core import Settings Settings.embed_model = embed_model Settings.llm = llm
print(f"Parsing slide deck...") md_json_objs = parser.get_json_result("data/conocophillips.pdf") md_json_list = md_json_objs[0]["pages"]
print(md_json_list[10]["md"])
结论
>可以随意将此管道适应您自己的文档,为大型档案添加检索步骤,或集成特定领域的模型以分析基础图像。在这里铺设的基础,您可以创建动态,互动和视觉上丰富的报告,这些报告远远超出了简单的基于文本的查询。
非常感谢Llamaindex的Jerry Liu开发了这款惊人的管道。
钥匙要点
- >使用文本和视觉效果将PDF转换为结构化格式,同时使用Llamaparse和Llamaindex保留原始内容的完整性。 生成视觉丰富的报告,这些报告与文本摘要和图像相互交织,以更好地理解。
-
通过整合文本和视觉元素以获得更具洞察力和动态的输出,可以增强财务报告的生成。
> 利用Llamaindex和Llamaparse的利用,简化了财务报告的过程,确保了准确且结构化的结果。 在处理之前检索相关文档,以优化大型档案的报告生成。
- 改善视觉解析,结合特定图表的分析,并结合文本和图像处理的模型,以进行更深入的见解。
- 常见问题
- > Q1。什么是“多模式报告生成器”?多模式报告生成器是一个系统,该系统在一个有凝聚力的输出中生成包含多种类型的内容(主要文本和图像)的报告。在此管道中,您将PDF解析为文本和视觉元素,然后将它们组合成一个最终报告。为什么我需要安装Llama-index-callbacks-arize-phoenix并设置可观察性?诸如Arize Phoenix(通过Llamatrace)之类的可观察性工具可让您监视和调试模型行为,跟踪查询和响应,并实时确定问题。在处理大型或复杂文档和多个基于LLM的步骤时,这一点尤其有用。为什么要使用Llamaparse而不是标准的PDF文本提取器? 大多数PDF文本提取器仅处理原始文本,通常会丢失格式,图像和表格。 Llamaparse能够提取文本和图像(渲染的页面图像),这对于构建多模式管道至关重要,您需要在其中引用表,图表或其他视觉效果。使用summaryIndex的优点是什么? SummaryIndex是LlamainDex抽象,它组织您的内容(例如PDF的页面),因此它可以快速生成全面的摘要。它有助于从长文档中收集高级见解,而无需手动块或为每个数据运行检索查询。我如何确保最终报告至少包含一个图像块?
- a。在ReportOutput Pydantic模型中,强制执行块列表至少需要一个ImageBlock。这在您的系统提示和架构中说明了这一点。 LLM必须遵循这些规则,或者不会产生有效的结构化输出。
>本文所示的媒体不归Analytics Vidhya拥有,并由作者的酌情决定使用。
以上是使用LlamainDex的多模式财务报告生成的详细内容。更多信息请关注PHP中文网其他相关文章!
![无法使用chatgpt!解释可以立即测试的原因和解决方案[最新2025]](https://img.php.cn/upload/article/001/242/473/174717025174979.jpg?x-oss-process=image/resize,p_40)
ChatGPT无法访问?本文提供多种实用解决方案!许多用户在日常使用ChatGPT时,可能会遇到无法访问或响应缓慢等问题。本文将根据不同情况,逐步指导您解决这些问题。 ChatGPT无法访问的原因及初步排查 首先,我们需要确定问题是出在OpenAI服务器端,还是用户自身网络或设备问题。 请按照以下步骤进行排查: 步骤1:检查OpenAI官方状态 访问OpenAI Status页面 (status.openai.com),查看ChatGPT服务是否正常运行。如果显示红色或黄色警报,则表示Open

2025年5月10日,麻省理工学院物理学家Max Tegmark告诉《卫报》,AI实验室应在释放人工超级智能之前模仿Oppenheimer的三位一体测试演算。 “我的评估是'康普顿常数',这是一场比赛的可能性

AI音乐创作技术日新月异,本文将以ChatGPT等AI模型为例,详细讲解如何利用AI辅助音乐创作,并辅以实际案例进行说明。我们将分别介绍如何通过SunoAI、Hugging Face上的AI jukebox以及Python的Music21库进行音乐创作。 通过这些技术,每个人都能轻松创作原创音乐。但需注意,AI生成内容的版权问题不容忽视,使用时务必谨慎。 让我们一起探索AI在音乐领域的无限可能! OpenAI最新AI代理“OpenAI Deep Research”介绍: [ChatGPT]Ope

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显着提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

CHATGPT应用程序:与AI助手释放您的创造力!初学者指南 ChatGpt应用程序是一位创新的AI助手,可处理各种任务,包括写作,翻译和答案。它是一种具有无限可能性的工具,可用于创意活动和信息收集。 在本文中,我们将以一种易于理解的方式解释初学者,从如何安装chatgpt智能手机应用程序到语音输入功能和插件等应用程序所独有的功能,以及在使用该应用时要牢记的要点。我们还将仔细研究插件限制和设备对设备配置同步

ChatGPT中文版:解锁中文AI对话新体验 ChatGPT风靡全球,您知道它也提供中文版本吗?这款强大的AI工具不仅支持日常对话,还能处理专业内容,并兼容简体中文和繁体中文。无论是中国地区的使用者,还是正在学习中文的朋友,都能从中受益。 本文将详细介绍ChatGPT中文版的使用方法,包括账户设置、中文提示词输入、过滤器的使用、以及不同套餐的选择,并分析潜在风险及应对策略。此外,我们还将对比ChatGPT中文版和其他中文AI工具,帮助您更好地了解其优势和应用场景。 OpenAI最新发布的AI智能

这些可以将其视为生成AI领域的下一个飞跃,这为我们提供了Chatgpt和其他大型语言模型聊天机器人。他们可以代表我们采取行动,而不是简单地回答问题或产生信息

使用chatgpt有效的多个帐户管理技术|关于如何使用商业和私人生活的详尽解释! Chatgpt在各种情况下都使用,但是有些人可能担心管理多个帐户。本文将详细解释如何为ChatGpt创建多个帐户,使用时该怎么做以及如何安全有效地操作它。我们还介绍了重要的一点,例如业务和私人使用差异,并遵守OpenAI的使用条款,并提供指南,以帮助您安全地利用多个帐户。 Openai


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

禅工作室 13.0.1
功能强大的PHP集成开发环境

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),