譯者需要改寫的內容是:|需要改寫的內容是:布加迪
審查要改寫的內容是:|需要改寫的內容是:重樓
從文件和資料中擷取##洞察力 #對於您做出明智的決策至關重要。然而在處理敏感資訊時,會出現隱私問題。 結合使用LangChain與OpenAI需要改寫的內容是:API,您就可以分析本機文檔,無需上傳到網路上。
它們透過將資料保存在本地、使用嵌入和向量化進行分析以及在您的環境中執行進程來做到這一點。 OpenAI不使用客戶透過其API#提交的資料來訓練模型或改進服務。
建置環境
建立一個新的Python虛擬環境,這將確保沒有程式庫版本衝突。然後執行以下終端命令來安裝所需的庫。
pip需要改写的内容是:install需要改写的内容是:langchain需要改写的内容是:openai需要改写的内容是:tiktoken需要改写的内容是:faiss-cpu需要改写的内容是:pypdf
下面詳細說明您將#如何使用每個函式庫:
- #LangChain:#您將使用它來建立和管理用於文字處理和分析的語言鏈。它將提供用於文件載入、文字分割、嵌入和向量儲存的模組。
- OpenAI:您將用它來執行查詢,並從語言模型取得結果。
- tiktoken:您將用它來計算給定文字中token(文字單位)的數量。這是為了在與基於您使用的token數量收費的OpenAI需要改寫的內容是:API互動時追蹤token#計數。
- FAISS:您將用它來建立和管理向量存儲,允許基於嵌入快速檢索相似的向量。
- PyPDF:##這個函式庫從PDF提取文字。它有助於載入PDF檔案並提取其文字,供進一步處理。
現已準備 #就緒。
取得OpenAI需要改寫的內容是:API金鑰
當您向OpenAI需要改寫的內容是:API#發出請求時,需要新增 API金鑰作為請求的一部分。 該金鑰允許API提供者驗證請求是否來自合法來源,以及您是否擁有存取其功能所需的權限。 為了獲得OpenAI需要改寫的內容是:API金鑰,進入到
OpenAI平台個人資料下,點擊「查看API金鑰」#,將出現API金鑰頁面。
#按鈕。 為金鑰命名,點選「建立新金鑰」。 OpenAI將產生API金鑰,您應該複製並保存在安全的地方。出於安全原因,您將無法透過OpenAI#帳戶再次查看它。如果遺失了該金鑰,需要產生新的金鑰。 为了能够使用安装在虚拟环境中的库,您需要导入它们。 注意,您从LangChain导入了依赖项库,这让您可以使用LangChain框架的特定功能。 先创建一个含有API密钥的变量。稍后,您将在代码中使用该变量用于身份验证。 如果您打算与第三方共享您的代码,不建议对API密钥进行硬编码。对于打算分发的生产级代码,则改而使用环境变量。 接下来,创建一个加载文档的函数。该函数应该加载PDF或文本文件。如果文档既不是PDF文件,也不是文本文件,该函数会抛出值错误。 加载文档后,创建一个CharacterTextSplitter。该分割器将基于字符将已加载的文档分隔成更小的块。 需要改写的内容是: 分割文档可确保块的大小易于管理,仍与一些重叠的上下文相连接。这对于文本分析和信息检索之类的任务非常有用。 您需要一种方法来查询上传的文档,以便从中获得洞察力。为此,创建一个以查询字符串和检索器作为输入的函数。然后,它使用检索器和OpenAI语言模型的实例创建一个RetrievalQA实例。 该函数使用创建的QA实例来运行查询并输出结果。 主函数将控制整个程序流。它将接受用户输入的文档文件名并加载该文档。然后为文本嵌入创建OpenAIEmbeddings实例,并基于已加载的文档和文本嵌入构造一个向量存储。将该向量存储保存到本地文件。 接下来,从本地文件加载持久的向量存储。然后输入一个循环,用户可以在其中输入查询。主函数将这些查询与持久化向量存储的检索器一起传递给query_pdf函数。循环将继续,直到用户输入“exit”。 嵌入捕获词之间的语义关系。向量是一种可以表示一段文本的形式。 这段代码使用OpenAIEmbeddings生成的嵌入将文档中的文本数据转换成向量。然后使用FAISS对这些向量进行索引,以便高效地检索和比较相似的向量。这便于对上传的文档进行分析。 最后,如果用户独立运行程序,使用__name__需要改写的内容是:==需要改写的内容是:"__main__"构造函数来调用主函数: 这个应用程序是一个命令行应用程序。作为一个扩展,您可以使用Streamlit为该应用程序添加Web界面。 要执行文档分析,将所要分析的文档存储在项目所在的同一个文件夹中,然后运行该程序。它将询问所要分析的文档的名称。输入全名,然后输入查询,以便程序分析。 以下截图展示了对PDF进行分析的结果 下面的輸出顯示了分析包含有原始程式碼的文字檔案的結果。 確保所要分析的檔案是PDF或文字格式。如果您的文件採用其他格公式,可以使用線上工具將它們轉換成PDF格式。 可以在GitHub程式碼庫中取得完整的原始碼:https://github.com/makeuseofcode/Document-analysis-using-LangChain-and-OpenAI #原文標題:How需要改寫的內容是:to需要改寫的內容是:Analyze需要改寫的內容是:Documents需要改寫的內容是:With需要改寫的內容是:LangChain需要改寫的內容是:and需要改寫的內容是:the需要改寫的內容是:OpenAI需要改寫的內容是:API#,作者:Denis需要改寫的內容是:Kuria #要改寫的內容是:
导入所需的库
from需要改写的内容是:langchain.document_loaders需要改写的内容是:import需要改写的内容是:PyPDFLoader,需要改写的内容是:TextLoaderfrom需要改写的内容是:langchain.text_splitter需要改写的内容是:import需要改写的内容是:CharacterTextSplitterfrom需要改写的内容是:langchain.embeddings.openai需要改写的内容是:import需要改写的内容是:OpenAIEmbeddingsfrom需要改写的内容是:langchain.vectorstores需要改写的内容是:import需要改写的内容是:FAISSfrom需要改写的内容是:langchain.chains需要改写的内容是:import需要改写的内容是:RetrievalQAfrom需要改写的内容是:langchain.llms需要改写的内容是:import需要改写的内容是:OpenAI
加载用于分析的文档
#需要改写的内容是:Hardcoded需要改写的内容是:API需要改写的内容是:keyopenai_api_key需要改写的内容是:=需要改写的内容是:"Your需要改写的内容是:API需要改写的内容是:key"
def需要改写的内容是:load_document(filename):if需要改写的内容是:filename.endswith(".pdf"):需要改写的内容是:loader需要改写的内容是:=需要改写的内容是:PyPDFLoader(filename)需要改写的内容是:documents需要改写的内容是:=需要改写的内容是:loader.load()需要改写的内容是:elif需要改写的内容是:filename.endswith(".txt"):需要改写的内容是:loader需要改写的内容是:=需要改写的内容是:TextLoader(filename)需要改写的内容是:documents需要改写的内容是:=需要改写的内容是:loader.load()需要改写的内容是:else:需要改写的内容是:raise需要改写的内容是:ValueError("Invalid需要改写的内容是:file需要改写的内容是:type")
text_splitter需要改写的内容是:=需要改写的内容是:CharacterTextSplitter(chunk_size=1000,需要改写的内容是:需要改写的内容是:chunk_overlap=30,需要改写的内容是:separator="\n")需要改写的内容是:return需要改写的内容是:text_splitter.split_documents(documents=documents)
查询文档
def需要改写的内容是:query_pdf(query,需要改写的内容是:retriever):qa需要改写的内容是:=需要改写的内容是:RetrievalQA.from_chain_type(llm=OpenAI(openai_api_key=openai_api_key),需要改写的内容是:chain_type="stuff",需要改写的内容是:retriever=retriever)result需要改写的内容是:=需要改写的内容是:qa.run(query)需要改写的内容是:print(result)
创建主函数
def需要改写的内容是:main():需要改写的内容是:filename需要改写的内容是:=需要改写的内容是:input("Enter需要改写的内容是:the需要改写的内容是:name需要改写的内容是:of需要改写的内容是:the需要改写的内容是:document需要改写的内容是:(.pdf需要改写的内容是:or需要改写的内容是:.txt):\n")docs需要改写的内容是:=需要改写的内容是:load_document(filename)embeddings需要改写的内容是:=需要改写的内容是:OpenAIEmbeddings(openai_api_key=openai_api_key)vectorstore需要改写的内容是:=需要改写的内容是:FAISS.from_documents(docs,需要改写的内容是:embeddings)需要改写的内容是:vectorstore.save_local("faiss_index_constitution")persisted_vectorstore需要改写的内容是:=需要改写的内容是:FAISS.load_local("faiss_index_constitution",需要改写的内容是:embeddings)query需要改写的内容是:=需要改写的内容是:input("Type需要改写的内容是:in需要改写的内容是:your需要改写的内容是:query需要改写的内容是:(type需要改写的内容是:'exit'需要改写的内容是:to需要改写的内容是:quit):\n")while需要改写的内容是:query需要改写的内容是:!=需要改写的内容是:"exit":query_pdf(query,需要改写的内容是:persisted_vectorstore.as_retriever())query需要改写的内容是:=需要改写的内容是:input("Type需要改写的内容是:in需要改写的内容是:your需要改写的内容是:query需要改写的内容是:(type需要改写的内容是:'exit'需要改写的内容是:to需要改写的内容是:quit):\n")
if需要改写的内容是:__name__需要改写的内容是:==需要改写的内容是:"__main__":需要改写的内容是:main()
执行文件分析
以上是使用LangChain和OpenAI API進行文件分析的方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

截至3月20日的数据显示,自微软2月7日推出其人工智能版本以来,必应搜索引擎的页面访问量增加了15.8%,而Alphabet旗下的谷歌搜索引擎则下降了近1%。 3月23日消息,外媒报道称,分析公司Similarweb的数据显示,在整合了OpenAI的技术后,微软旗下的必应在页面访问量方面实现了更多的增长。截至3月20日的数据显示,自微软2月7日推出其人工智能版本以来,必应搜索引擎的页面访问量增加了15.8%,而Alphabet旗下的谷歌搜索引擎则下降了近1%。这些数据是微软在与谷歌争夺生

Reddit和Twitter上的用户从3月20日开始报告了ChatGPT的一个漏洞,并发布了一些屏幕截图,显示他们的ChatGPT网页历史记录中包含他们不熟悉的对话标题。虽然以这种方式似乎无法访问共享聊天内容,但OpenAI公司在关闭该漏洞时完全删除了聊天历史记录。根据行业媒体的报道,ChatGPT在当天还出现了重大中断,那些可以访问的用户注意到提供了不一致的服务。OpenAI公司在其状态页面上记录了中断情况,并在最初报告的几个小时内恢复了服务。OpenAI公司的首席执行官 Sam Altman

前几天,谷歌差点遭遇一场公关危机,Bert一作、已跳槽OpenAI的前员工Jacob Devlin曝出,Bard竟是用ChatGPT的数据训练的。随后,谷歌火速否认。而这场争议,也牵出了一场大讨论:为什么越来越多Google顶尖研究员跳槽OpenAI?这场LLM战役它还能打赢吗?知友回复莱斯大学博士、知友「一堆废纸」表示,其实谷歌和OpenAI的差距,是数据的差距。「OpenAI对LLM有强大的执念,这是Google这类公司完全比不上的。当然人的差距只是一个方面,数据的差距以及对待数据的态度才

据报道,美国新闻行业正将AI聊天机器人视为一种新的生存威胁。他们担心人们会认为聊天机器人提供的文章摘要已经足够好,从而不再访问他们的网站,致使读者和广告商流失。然而,也有媒体高管认为,尽管存在潜在的威胁,但也有机会。他们正试图在行业变革中领先一步,以适应读者获取信息方式的演变。以下是翻译内容当你向微软Bing聊天机器人询问美国前总统唐纳德·特朗普(Donald Trump)是否被起诉时,它的回答会让传媒高管们感到害怕。机器人给出的三句摘要似乎很有用,它不仅提供了CNN、华盛顿邮报等新闻媒体的链

Vince Kellen是美国加州大学圣地亚哥分校(UCSD)的首席信息官,他深知ChatGPT、DALL-E和其他生成式AI技术有据可查的局限性:生成的答案可能并不真实,生成的图像也可能缺乏完整性,输出可能存在偏差。但无论如何他都在向前推进,他表示,员工们已经在使用ChatGPT来编写代码和工作内容描述了。OpenAI的文本生成技术ChatGPT以及图像生成技术DALL-E在一系列吸引了公众想象力的大型语言模型(也称为生成语言模型或者生成式AI)中是最突出的,这些模型响应书面请求以生成从文本文

本次分享题目为 ChatGPT 技术、国产化尝试和开源模型。分享包含三大部分的内容,第一部分总体介绍 ChatGPT 相关的技术:ChatGPT 技术的演进、目前存在什么样的问题、ChatGPT 技术学习的三个阶段、数据组织和效果评估;第二部分分享我们在 ChatGPT 技术国产化方面进行的尝试,包含实验过程中我们遇到的问题、进行的思考以及模型的效果和应用;第三部分介绍我们已经发布的中文开源大模型,使用自有数据训练出本地模型如何进行操作,在实验过程中可能遇到的问题,和开源的先进模型相比存在的差距

ChatGPT可以联网后,OpenAI还火速介绍了一款代码生成器,在这个插件的加持下,ChatGPT甚至可以自己生成机器学习模型了。 上周五,OpenAI刚刚宣布了惊爆的消息,ChatGPT可以联网,接入第三方插件了!而除了第三方插件,OpenAI也介绍了一款自家的插件「代码解释器」,并给出了几个特别的用例:解决定量和定性的数学问题;进行数据分析和可视化;快速转换文件格式。此外,Greg Brockman演示了ChatGPT还可以对上传视频文件进行处理。而一位叫Andrew Mayne的畅销作

将文心一言发布时间定在3月16日的百度,没能预料到会遭到来自OpenAI、谷歌、微软的轮番轰炸:先是3月15日凌晨,OpenAI发布大型多模态Transformer模型GPT-4;紧接着,宣布开放大规模语言模型PaLM的API接口,并推出面向开发者的工具MakerSuite;文心一言发布之后,巨头们也并没有歇着,3月16日晚间,微软更是发布由AI驱动的办公神器Microsoft 365 Copilot,号称让Word、PPT、Excel、OutLook、协同办公软件的生产力都飙增。文心一言对标C


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)