搜索
首页科技周边人工智能使用LangChain和OpenAI API进行文档分析的方法

译者需要改写的内容是:|需要改写的内容是:布加迪

审校需要改写的内容是:|需要改写的内容是:重楼

从文档和数据中提取洞察力对于做出明智的决策至关重要。然而在处理敏感信息时,会出现隐私问题。结合使用LangChainOpenAI需要改写的内容是:API,您就可以分析本地文档,无需上传到网上。

它们通过将数据保存在本地、使用嵌入和向量化进行分析以及在您的环境中执行进程来做到这一点。OpenAI不使用客户通过其API提交的数据来训练模型或改进服务。

搭建环境

创建一个新的Python虚拟环境这将确保没有库版本冲突。然后运行以下终端命令来安装所需的库。

pip需要改写的内容是:install需要改写的内容是:langchain需要改写的内容是:openai需要改写的内容是:tiktoken需要改写的内容是:faiss-cpu需要改写的内容是:pypdf

下面详细说明您将如何使用每个库

  • LangChain您将用它来创建和管理用于文本处理和分析的语言链。它将提供用于文档加载、文本分割、嵌入和量存储的模块。
  • OpenAI您将用它来运行查询并从语言模型获取结果。
  • tiktoken您将用它来计算给定文本中token(文本单位的数量。这是为了在与基于您使用的token数量收费OpenAI需要改写的内容是:API交互时跟踪token计数。
  • FAISS您将用它来创建和管理向量存储,允许基于嵌入快速检索相似的向量。
  • PyPDF这个库从PDF提取文本。它有助于加载PDF文件并提取其文本供进一步处理。

安装完所有库之后,您的环境现已准备就绪

获得OpenAI需要改写的内容是:API密钥

当您向OpenAI需要改写的内容是:API发出请求时,需要添加API密钥作为请求的一部分。密钥允许API提供者验证请求是否来自合法来源,以及您是否拥有访问其功能所需的权限。

为了获得OpenAI需要改写的内容是:API密钥,进入到OpenAI平台

使用LangChain和OpenAI API进行文档分析的方法

然后在右上方的帐户个人资料下,点击“查看API密钥将出现API密钥页面。

使用LangChain和OpenAI API进行文档分析的方法

点击“创建新的密钥”按钮。为密钥命名,点击“创建新密钥OpenAI将生成API密钥,您应该复制并保存在安全的地方。出于安全原因,您将无法通过OpenAI帐户再次查看它。如果丢失了密钥,需要生成新的密钥。

导入所需的库

为了能够使用安装在虚拟环境中的库,您需要导入它们。

from需要改写的内容是:langchain.document_loaders需要改写的内容是:import需要改写的内容是:PyPDFLoader,需要改写的内容是:TextLoaderfrom需要改写的内容是:langchain.text_splitter需要改写的内容是:import需要改写的内容是:CharacterTextSplitterfrom需要改写的内容是:langchain.embeddings.openai需要改写的内容是:import需要改写的内容是:OpenAIEmbeddingsfrom需要改写的内容是:langchain.vectorstores需要改写的内容是:import需要改写的内容是:FAISSfrom需要改写的内容是:langchain.chains需要改写的内容是:import需要改写的内容是:RetrievalQAfrom需要改写的内容是:langchain.llms需要改写的内容是:import需要改写的内容是:OpenAI

注意,您从LangChain导入了依赖,这让您可以使用LangChain框架的特定功能

加载用于分析的文档

先创建一个含API密钥的变量。稍后,您将在代码中使用该变量用于身份验证。

#需要改写的内容是:Hardcoded需要改写的内容是:API需要改写的内容是:keyopenai_api_key需要改写的内容是:=需要改写的内容是:"Your需要改写的内容是:API需要改写的内容是:key"

如果您打算与第三方共享您的代码,不建议对API密钥进行硬编码。对于打算分发的生产级代码,则改而使用环境变量。

接下来,创建一个加载文档的函数。该函数应该加载PDF或文本文件。如果文档既不是PDF文件,也不是文本文件,该函数会抛出值错误

def需要改写的内容是:load_document(filename):if需要改写的内容是:filename.endswith(".pdf"):需要改写的内容是:loader需要改写的内容是:=需要改写的内容是:PyPDFLoader(filename)需要改写的内容是:documents需要改写的内容是:=需要改写的内容是:loader.load()需要改写的内容是:elif需要改写的内容是:filename.endswith(".txt"):需要改写的内容是:loader需要改写的内容是:=需要改写的内容是:TextLoader(filename)需要改写的内容是:documents需要改写的内容是:=需要改写的内容是:loader.load()需要改写的内容是:else:需要改写的内容是:raise需要改写的内容是:ValueError("Invalid需要改写的内容是:file需要改写的内容是:type")

加载文档后,创建一个CharacterTextSplitter。该分割器将基于字符将加载的文档分隔成更小的块。

需要改写的内容是:

text_splitter需要改写的内容是:=需要改写的内容是:CharacterTextSplitter(chunk_size=1000,需要改写的内容是:需要改写的内容是:chunk_overlap=30,需要改写的内容是:separator="\n")需要改写的内容是:return需要改写的内容是:text_splitter.split_documents(documents=documents)

分割文档可确保块的大小易于管理,仍与一些重叠的上下文相连接。这对于文本分析和信息检索之类的任务非常有用。

查询文档

您需要一种方法来查询上传的文档,以便从中获得洞察力。为此,创建一个以查询字符串和检索器作为输入的函数。然后,它使用检索器和OpenAI语言模型的实例创建一个RetrievalQA实例。

def需要改写的内容是:query_pdf(query,需要改写的内容是:retriever):qa需要改写的内容是:=需要改写的内容是:RetrievalQA.from_chain_type(llm=OpenAI(openai_api_key=openai_api_key),需要改写的内容是:chain_type="stuff",需要改写的内容是:retriever=retriever)result需要改写的内容是:=需要改写的内容是:qa.run(query)需要改写的内容是:print(result)

函数使用创建的QA实例来运行查询并输出结果。

创建函数

函数将控制整个程序流。它将接受用户输入的文档文件名并加载该文档。然后为文本嵌入创建OpenAIEmbeddings实例,并基于加载的文档和文本嵌入构造一个量存储。将该向量存储保存到本地文件。

接下来,从本地文件加载持久的量存储。然后输入一个循环,用户可以在其中输入查询。主函数将这些查询持久化向量存储的检索器一起传递给query_pdf函数。循环将继续,直到用户输入exit

def需要改写的内容是:main():需要改写的内容是:filename需要改写的内容是:=需要改写的内容是:input("Enter需要改写的内容是:the需要改写的内容是:name需要改写的内容是:of需要改写的内容是:the需要改写的内容是:document需要改写的内容是:(.pdf需要改写的内容是:or需要改写的内容是:.txt):\n")docs需要改写的内容是:=需要改写的内容是:load_document(filename)embeddings需要改写的内容是:=需要改写的内容是:OpenAIEmbeddings(openai_api_key=openai_api_key)vectorstore需要改写的内容是:=需要改写的内容是:FAISS.from_documents(docs,需要改写的内容是:embeddings)需要改写的内容是:vectorstore.save_local("faiss_index_constitution")persisted_vectorstore需要改写的内容是:=需要改写的内容是:FAISS.load_local("faiss_index_constitution",需要改写的内容是:embeddings)query需要改写的内容是:=需要改写的内容是:input("Type需要改写的内容是:in需要改写的内容是:your需要改写的内容是:query需要改写的内容是:(type需要改写的内容是:'exit'需要改写的内容是:to需要改写的内容是:quit):\n")while需要改写的内容是:query需要改写的内容是:!=需要改写的内容是:"exit":query_pdf(query,需要改写的内容是:persisted_vectorstore.as_retriever())query需要改写的内容是:=需要改写的内容是:input("Type需要改写的内容是:in需要改写的内容是:your需要改写的内容是:query需要改写的内容是:(type需要改写的内容是:'exit'需要改写的内容是:to需要改写的内容是:quit):\n")

嵌入捕获词之间的语义关系。向量是一种可以表示一段文本的形式。

这段代码使用OpenAIEmbeddings生成的嵌入将文档中的文本数据转换向量。然后使用FAISS对这些向量进行索引,以便效地检索和比较相似的向量。这便于对上传的文档进行分析。

最后,如果用户独立运行程序,使用__name__需要改写的内容是:==需要改写的内容是:"__main__"构造函数来调用函数

if需要改写的内容是:__name__需要改写的内容是:==需要改写的内容是:"__main__":需要改写的内容是:main()

这个应用程序是一个命令行应用程序。作为一个扩展,可以使用Streamlit为该应用程序添加Web界面。

执行文件分析

要执行文档分析,将所要分析的文档存储在项目所在的同一个文件夹中,然后运行该程序。它将询问要分析的文档的名称。输入全名,然后输入查询,以便程序分析

以下截图展示了对PDF进行分析的结果

使用LangChain和OpenAI API进行文档分析的方法

下面的输出显示了分析含源代码的文本文件的结果。

使用LangChain和OpenAI API进行文档分析的方法

确保所要分析的文件是PDF或文本格式。如果您的文档采用其他格式,可以使用在线工具将它们转换成PDF格式

可以在GitHub代码库中获取完整的源代码:https://github.com/makeuseofcode/Document-analysis-using-LangChain-and-OpenAI

原文标题:How需要改写的内容是:to需要改写的内容是:Analyze需要改写的内容是:Documents需要改写的内容是:With需要改写的内容是:LangChain需要改写的内容是:and需要改写的内容是:the需要改写的内容是:OpenAI需要改写的内容是:API,作者:Denis需要改写的内容是:Kuria

需要改写的内容是:

以上是使用LangChain和OpenAI API进行文档分析的方法的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
得益于OpenAI技术,微软必应的搜索流量超过谷歌得益于OpenAI技术,微软必应的搜索流量超过谷歌Mar 31, 2023 pm 10:38 PM

截至3月20日的数据显示,自微软2月7日推出其人工智能版本以来,必应搜索引擎的页面访问量增加了15.8%,而Alphabet旗下的谷歌搜索引擎则下降了近1%。 3月23日消息,外媒报道称,分析公司Similarweb的数据显示,在整合了OpenAI的技术后,微软旗下的必应在页面访问量方面实现了更多的增长。​​​​截至3月20日的数据显示,自微软2月7日推出其人工智能版本以来,必应搜索引擎的页面访问量增加了15.8%,而Alphabet旗下的谷歌搜索引擎则下降了近1%。这些数据是微软在与谷歌争夺生

ChatGPT出现隐私漏洞,可能泄露用户和聊天机器人的对话标题ChatGPT出现隐私漏洞,可能泄露用户和聊天机器人的对话标题Apr 07, 2023 pm 11:21 PM

Reddit和Twitter上的用户从3月20日开始报告了ChatGPT的一个漏洞,并发布了一些屏幕截图,显示他们的ChatGPT网页历史记录中包含他们不熟悉的对话标题。虽然以这种方式似乎无法访问共享聊天内容,但OpenAI公司在关闭该漏洞时完全删除了聊天历史记录。根据行业媒体的报道,ChatGPT在当天还出现了重大中断,那些可以访问的用户注意到提供了不一致的服务。OpenAI公司在其状态页面上记录了中断情况,并在最初报告的几个小时内恢复了服务。OpenAI公司的首席执行官 Sam Altman

LLM之战,谷歌输了!越来越多顶尖研究员跳槽OpenAILLM之战,谷歌输了!越来越多顶尖研究员跳槽OpenAIApr 07, 2023 pm 05:48 PM

​前几天,谷歌差点遭遇一场公关危机,Bert一作、已跳槽OpenAI的前员工Jacob Devlin曝出,Bard竟是用ChatGPT的数据训练的。随后,谷歌火速否认。而这场争议,也牵出了一场大讨论:为什么越来越多Google顶尖研究员跳槽OpenAI?这场LLM战役它还能打赢吗?知友回复莱斯大学博士、知友「一堆废纸」表示,其实谷歌和OpenAI的差距,是数据的差距。「OpenAI对LLM有强大的执念,这是Google这类公司完全比不上的。当然人的差距只是一个方面,数据的差距以及对待数据的态度才

美媒担忧:ChatGPT们生成的摘要足够好,读者不来看新闻怎么办美媒担忧:ChatGPT们生成的摘要足够好,读者不来看新闻怎么办Apr 08, 2023 pm 11:31 PM

据报道,美国新闻行业正将AI聊天机器人​视为一种新的生存威胁。他们担心人们会认为聊天机器人提供的文章摘要已经足够好,从而不再访问他们的网站,致使读者和广告商流失。然而,也有媒体高管认为,尽管存在潜在的威胁,但也有机会。他们正试图在行业变革中领先一步,以适应读者获取信息方式的演变。以下是翻译内容当你向微软Bing聊天机器人询问美国前总统唐纳德·特朗普(Donald Trump)是否被起诉时,它的回答会让传媒高管们感到害怕。机器人给出的三句摘要似乎很有用,它不仅提供了CNN、华盛顿邮报等新闻媒体的链

CIO分享:企业IT应谨慎使用生成式AI向前发展CIO分享:企业IT应谨慎使用生成式AI向前发展Apr 11, 2023 pm 03:49 PM

Vince Kellen是美国加州大学圣地亚哥分校(UCSD)的首席信息官,他深知ChatGPT、DALL-E和其他生成式AI技术有据可查的局限性:生成的答案可能并不真实,生成的图像也可能缺乏完整性,输出可能存在偏差。但无论如何他都在向前推进,他表示,员工们已经在使用ChatGPT来编写代码和工作内容描述了。OpenAI的文本生成技术ChatGPT以及图像生成技术DALL-E在一系列吸引了公众想象力的大型语言模型(也称为生成语言模型或者生成式AI)中是最突出的,这些模型响应书面请求以生成从文本文

ChatGPT技术国产化尝试ChatGPT技术国产化尝试Apr 08, 2023 am 11:31 AM

本次分享题目为 ChatGPT 技术、国产化尝试和开源模型。分享包含三大部分的内容,第一部分总体介绍 ChatGPT 相关的技术:ChatGPT 技术的演进、目前存在什么样的问题、ChatGPT 技术学习的三个阶段、数据组织和效果评估;第二部分分享我们在 ChatGPT 技术国产化方面进行的尝试,包含实验过程中我们遇到的问题、进行的思考以及模型的效果和应用;第三部分介绍我们已经发布的中文开源大模型,使用自有数据训练出本地模型如何进行操作,在实验过程中可能遇到的问题,和开源的先进模型相比存在的差距

用ChatGPT秒建大模型!OpenAI全新插件杀疯了,接入代码解释器一键get用ChatGPT秒建大模型!OpenAI全新插件杀疯了,接入代码解释器一键getApr 04, 2023 am 11:30 AM

ChatGPT可以联网后,OpenAI还火速介绍了一款代码生成器,在这个插件的加持下,ChatGPT甚至可以自己生成机器学习模型了。 ​上周五,OpenAI刚刚宣布了惊爆的消息,ChatGPT可以联网,接入第三方插件了!而除了第三方插件,OpenAI也介绍了一款自家的插件「代码解释器」,并给出了几个特别的用例:解决定量和定性的数学问题;进行数据分析和可视化;快速转换文件格式。此外,Greg Brockman演示了ChatGPT还可以对上传视频文件进行处理。而一位叫Andrew Mayne的畅销作

GPT-4掀起新一轮AI风暴,被围堵的文心一言能否一战?GPT-4掀起新一轮AI风暴,被围堵的文心一言能否一战?Apr 11, 2023 pm 05:43 PM

将文心一言发布时间定在3月16日的百度,没能预料到会遭到来自OpenAI、谷歌、微软的轮番轰炸:先是3月15日凌晨,OpenAI发布大型多模态Transformer模型GPT-4;紧接着,宣布开放大规模语言模型PaLM的API接口,并推出面向开发者的工具MakerSuite;文心一言发布之后,巨头们也并没有歇着,3月16日晚间,微软更是发布由AI驱动的办公神器Microsoft 365 Copilot,号称让Word、PPT、Excel、OutLook、协同办公软件的生产力都飙增。文心一言对标C

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),