


So verwenden Sie LangChain und OpenAI API für die Dokumentenanalyse
Der Inhalt, der vom Übersetzer neu geschrieben werden muss, ist: |Der Inhalt, der neu geschrieben werden muss, ist: Bugatti
Der Inhalt, der vom Rezensenten neu geschrieben werden muss, ist: |Der Inhalt, der benötigt wird neu geschrieben werden soll: Chonglou
Das Extrahieren von Einsichtenaus Dokumenten und Daten ist für Sievon entscheidender Bedeutung, um fundierte Entscheidungen zu treffen. Beim Umgang mit sensiblen Informationen können jedoch Datenschutzprobleme auftreten. Die kombinierte Verwendung von LangChain und OpenAI muss neu geschrieben werden: API, Sie können lokale Dokumente analysieren, ohne sie ins Internet hochzuladen.
Sie tun dies, indem sie die Daten lokal speichern, Einbettung und Vektorisierung zur Analyse verwenden und Prozesse in Ihrer Umgebung ausführen. OpenAI verwendet keine von Kunden über seine API übermittelten Daten, um Modelle zu trainieren oder den Service zu verbessern.
BuildEnvironment
Erstellen Sie eine neuePythonvirtuelle Umgebung, Dadurch wird sichergestellt, dass es keine Bibliotheksversionskonflikte gibt. Führen Sie dann die folgenden Terminalbefehle aus, um die erforderlichen Bibliotheken zu installieren. pip需要改写的内容是:install需要改写的内容是:langchain需要改写的内容是:openai需要改写的内容是:tiktoken需要改写的内容是:faiss-cpu需要改写的内容是:pypdf
Volumenspeicherung bereit. OpenAI
- :
- Sie werden es verwenden, um Abfragen , auszuführen und Ergebnisse aus Sprachmodellen zu erhalten. tiktoken :
- Damit können Sie die Anzahl der token ( Texteinheit ) in einem bestimmten Text zählen. Was neu geschrieben werden muss, um die Anzahl der Token bei der Interaktion mit
- OpenAI zu verfolgen, die basierend auf der Anzahl der von Ihnen verwendeten Token berechnet, ist: API . FAISS: Sie verwenden es zum Erstellen und Verwalten von Vektorspeichern und ermöglichen so das schnelle Abrufen ähnlicher Vektoren basierend auf Einbettungen. PyPDF: Diese Bibliothek extrahiert Text aus PDF. Es
- hilft beim Laden von PDF-Dateien und beim Extrahieren ihres Textes , zur weiteren Verarbeitung.
- Nach der Installation aller Bibliotheken ist Ihre Umgebung nun bereit bereit . Get OpenAI Was neu geschrieben werden muss, ist: API Schlüssel
Wenn Sie eine Anfrage an OpenAI stellen, muss Folgendes neu geschrieben werden: API , müssen Sie Fügen Sie APIKey als Teil der Anfrage hinzu. Mit diesem
Schlüssel kann der APIAnbieter überprüfen, ob die Anfrage von einer legitimen Quelle stammt und dass Sie über die erforderlichen Berechtigungen verfügen, um auf die Funktionalität zuzugreifen.
Was umgeschrieben werden muss, um OpenAI zu erhalten, ist: API-Schlüssel, geben Sie die OpenAI-Plattform ein. Klicken Sie dann unter dem Konto Profil oben rechts auf „AnsichtAPISchlüssel“, erscheint API
Geheim Schlüsselseite.Klicken Sie auf die Schaltfläche „Neuen Schlüssel erstellen“ . Nennen Sie den Schlüssel und klicken Sie auf „Neuen Schlüssel erstellen“. OpenAI generiert einen APISchlüssel, den Sie kopieren und an einem sicheren Ort aufbewahren sollten. Aus Sicherheitsgründen können Sie es nicht erneut über Ihr OpenAI
-Konto anzeigen. Wenn Sie denSchlüssel verlieren, müssen Sie einen neuen Schlüssel generieren.
导入所需的库
为了能够使用安装在虚拟环境中的库,您需要导入它们。
from需要改写的内容是:langchain.document_loaders需要改写的内容是:import需要改写的内容是:PyPDFLoader,需要改写的内容是:TextLoaderfrom需要改写的内容是:langchain.text_splitter需要改写的内容是:import需要改写的内容是:CharacterTextSplitterfrom需要改写的内容是:langchain.embeddings.openai需要改写的内容是:import需要改写的内容是:OpenAIEmbeddingsfrom需要改写的内容是:langchain.vectorstores需要改写的内容是:import需要改写的内容是:FAISSfrom需要改写的内容是:langchain.chains需要改写的内容是:import需要改写的内容是:RetrievalQAfrom需要改写的内容是:langchain.llms需要改写的内容是:import需要改写的内容是:OpenAI
注意,您从LangChain导入了依赖项库,这让您可以使用LangChain框架的特定功能。
加载用于分析的文档
先创建一个含有API密钥的变量。稍后,您将在代码中使用该变量用于身份验证。
#需要改写的内容是:Hardcoded需要改写的内容是:API需要改写的内容是:keyopenai_api_key需要改写的内容是:=需要改写的内容是:"Your需要改写的内容是:API需要改写的内容是:key"
如果您打算与第三方共享您的代码,不建议对API密钥进行硬编码。对于打算分发的生产级代码,则改而使用环境变量。
接下来,创建一个加载文档的函数。该函数应该加载PDF或文本文件。如果文档既不是PDF文件,也不是文本文件,该函数会抛出值错误。
def需要改写的内容是:load_document(filename):if需要改写的内容是:filename.endswith(".pdf"):需要改写的内容是:loader需要改写的内容是:=需要改写的内容是:PyPDFLoader(filename)需要改写的内容是:documents需要改写的内容是:=需要改写的内容是:loader.load()需要改写的内容是:elif需要改写的内容是:filename.endswith(".txt"):需要改写的内容是:loader需要改写的内容是:=需要改写的内容是:TextLoader(filename)需要改写的内容是:documents需要改写的内容是:=需要改写的内容是:loader.load()需要改写的内容是:else:需要改写的内容是:raise需要改写的内容是:ValueError("Invalid需要改写的内容是:file需要改写的内容是:type")
加载文档后,创建一个CharacterTextSplitter。该分割器将基于字符将已加载的文档分隔成更小的块。
需要改写的内容是:
text_splitter需要改写的内容是:=需要改写的内容是:CharacterTextSplitter(chunk_size=1000,需要改写的内容是:需要改写的内容是:chunk_overlap=30,需要改写的内容是:separator="\n")需要改写的内容是:return需要改写的内容是:text_splitter.split_documents(documents=documents)
分割文档可确保块的大小易于管理,仍与一些重叠的上下文相连接。这对于文本分析和信息检索之类的任务非常有用。
查询文档
您需要一种方法来查询上传的文档,以便从中获得洞察力。为此,创建一个以查询字符串和检索器作为输入的函数。然后,它使用检索器和OpenAI语言模型的实例创建一个RetrievalQA实例。
def需要改写的内容是:query_pdf(query,需要改写的内容是:retriever):qa需要改写的内容是:=需要改写的内容是:RetrievalQA.from_chain_type(llm=OpenAI(openai_api_key=openai_api_key),需要改写的内容是:chain_type="stuff",需要改写的内容是:retriever=retriever)result需要改写的内容是:=需要改写的内容是:qa.run(query)需要改写的内容是:print(result)
该函数使用创建的QA实例来运行查询并输出结果。
创建主函数
主函数将控制整个程序流。它将接受用户输入的文档文件名并加载该文档。然后为文本嵌入创建OpenAIEmbeddings实例,并基于已加载的文档和文本嵌入构造一个向量存储。将该向量存储保存到本地文件。
接下来,从本地文件加载持久的向量存储。然后输入一个循环,用户可以在其中输入查询。主函数将这些查询与持久化向量存储的检索器一起传递给query_pdf函数。循环将继续,直到用户输入“exit”。
def需要改写的内容是:main():需要改写的内容是:filename需要改写的内容是:=需要改写的内容是:input("Enter需要改写的内容是:the需要改写的内容是:name需要改写的内容是:of需要改写的内容是:the需要改写的内容是:document需要改写的内容是:(.pdf需要改写的内容是:or需要改写的内容是:.txt):\n")docs需要改写的内容是:=需要改写的内容是:load_document(filename)embeddings需要改写的内容是:=需要改写的内容是:OpenAIEmbeddings(openai_api_key=openai_api_key)vectorstore需要改写的内容是:=需要改写的内容是:FAISS.from_documents(docs,需要改写的内容是:embeddings)需要改写的内容是:vectorstore.save_local("faiss_index_constitution")persisted_vectorstore需要改写的内容是:=需要改写的内容是:FAISS.load_local("faiss_index_constitution",需要改写的内容是:embeddings)query需要改写的内容是:=需要改写的内容是:input("Type需要改写的内容是:in需要改写的内容是:your需要改写的内容是:query需要改写的内容是:(type需要改写的内容是:'exit'需要改写的内容是:to需要改写的内容是:quit):\n")while需要改写的内容是:query需要改写的内容是:!=需要改写的内容是:"exit":query_pdf(query,需要改写的内容是:persisted_vectorstore.as_retriever())query需要改写的内容是:=需要改写的内容是:input("Type需要改写的内容是:in需要改写的内容是:your需要改写的内容是:query需要改写的内容是:(type需要改写的内容是:'exit'需要改写的内容是:to需要改写的内容是:quit):\n")
嵌入捕获词之间的语义关系。向量是一种可以表示一段文本的形式。
这段代码使用OpenAIEmbeddings生成的嵌入将文档中的文本数据转换成向量。然后使用FAISS对这些向量进行索引,以便高效地检索和比较相似的向量。这便于对上传的文档进行分析。
最后,如果用户独立运行程序,使用__name__需要改写的内容是:==需要改写的内容是:"__main__"构造函数来调用主函数:
if需要改写的内容是:__name__需要改写的内容是:==需要改写的内容是:"__main__":需要改写的内容是:main()
这个应用程序是一个命令行应用程序。作为一个扩展,您可以使用Streamlit为该应用程序添加Web界面。
执行文件分析
要执行文档分析,将所要分析的文档存储在项目所在的同一个文件夹中,然后运行该程序。它将询问所要分析的文档的名称。输入全名,然后输入查询,以便程序分析。
以下截图展示了对PDF进行分析的结果
Die folgende Ausgabe zeigt die Ergebnisse der Analyse einer Textdatei, die mit Quellcode enthält.
Stellen Sie sicher, dass die Datei, die Sie analysieren möchten, im PDF- oder Textformat vorliegt. Wenn Ihre Dokumente in anderen Formaten vorliegen, können Sie sie mit Online-Tools in das PDF-Format konvertieren. Der vollständige Quellcode ist im GitHub-Code-Repository verfügbar: https://github.com/makeuseofcode/Document-analysis-using-LangChain-and-OpenAI
Originaltitel: Wie muss neu geschrieben werden Der Inhalt, der neu geschrieben werden muss, ist: bis Der Inhalt, der neu geschrieben werden muss, ist: Analysieren Der Inhalt, der neu geschrieben werden muss, ist: Dokumente Der Inhalt, der neu geschrieben werden muss, ist: Mit Der Inhalt, der neu geschrieben werden muss, ist : LangChain Der Inhalt, der neu geschrieben werden muss, ist: und Der Inhalt, der neu geschrieben werden muss, ist: Der Inhalt, der neu geschrieben werden muss, ist: the Der Inhalt ist: OpenAI Der Inhalt, der neu geschrieben werden muss, ist: API , Autor: Denis Der Inhalt, der neu geschrieben werden muss, ist: Kuria
Der Inhalt, der neu geschrieben werden muss, ist:
Das obige ist der detaillierte Inhalt vonSo verwenden Sie LangChain und OpenAI API für die Dokumentenanalyse. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Einführung Angenommen, es gibt einen Landwirt, der täglich den Fortschritt von Pflanzen in mehreren Wochen beobachtet. Er untersucht die Wachstumsraten und beginnt darüber nachzudenken, wie viel größerer seine Pflanzen in weiteren Wochen wachsen könnten. Von th

Soft AI-definiert als KI-Systeme zur Ausführung spezifischer, enger Aufgaben mit ungefährem Denken, Mustererkennung und flexibler Entscheidungsfindung-versucht, ein menschliches Denken nachzuahmen, indem sie Mehrdeutigkeiten einnehmen. Aber was bedeutet das für das Geschäft

Die Antwort ist klar-genau da Cloud Computing eine Verschiebung zu Cloud-nativen Sicherheitstools erfordert, erfordert KI eine neue Generation von Sicherheitslösungen, die speziell für die individuellen Anforderungen von AI entwickelt wurden. Der Aufstieg von Cloud -Computing- und Sicherheitsstunden gelernt In th

Unternehmer und Verwendung von KI und Generative KI, um ihre Geschäfte besser zu machen. Gleichzeitig ist es wichtig, sich zu erinnern, wie alle Technologien ein Verstärker ist. Eine strenge Studie von 2024 o

Schalte die Kraft des Einbettungsmodelle frei: einen tiefen Eintauchen in den neuen Kurs von Andrew Ng Stellen Sie sich eine Zukunft vor, in der Maschinen Ihre Fragen mit perfekter Genauigkeit verstehen und beantworten. Dies ist keine Science -Fiction; Dank der Fortschritte in der KI wird es zu einem R

Großsprachenmodelle (LLMs) und das unvermeidliche Problem der Halluzinationen Sie haben wahrscheinlich AI -Modelle wie Chatgpt, Claude und Gemini verwendet. Dies sind alles Beispiele für große Sprachmodelle (LLMs), leistungsstarke KI -Systeme, die auf massiven Textdatensätzen geschult wurden

Jüngste Untersuchungen haben gezeigt, dass KI-Übersichten einen Rückgang des organischen Verkehrs um 15-64% auf der Grundlage der Industrie und des Suchtyps verursachen können. Dieser radikale Wandel veranlasst Vermarkter, ihre gesamte Strategie in Bezug auf digitale Sichtbarkeit zu überdenken. Das Neue

Ein kürzlich von Elon University vorstellbarer Bericht des Digital Future Center befragte fast 300 globale Technologieexperten. Der daraus resultierende Bericht, „im Jahr 2035 Menschen zu sein“, kam zu dem Schluss, dass die meisten besorgt sind


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

mPDF
mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

Herunterladen der Mac-Version des Atom-Editors
Der beliebteste Open-Source-Editor

EditPlus chinesische Crack-Version
Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

PHPStorm Mac-Version
Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

WebStorm-Mac-Version
Nützliche JavaScript-Entwicklungstools