LangChain:構建、實驗和分析語言模型和智能體的強大Python庫
核心要點:
- LangChain是一個Python庫,它簡化了語言模型和智能體的創建、實驗和分析過程,為自然語言處理提供了廣泛的功能。
- 它允許創建多功能的智能體,這些智能體能夠理解和生成文本,並可以配置特定的行為和數據源來執行各種與語言相關的任務。
- LangChain提供三種類型的模型:大型語言模型(LLM)、聊天模型和文本嵌入模型,每種模型都為語言處理任務提供了獨特的功能。
- 它還提供了一些功能,例如將大型文本分割成易於管理的塊,通過鏈將多個LLM功能鏈接起來以執行複雜的任務,以及與OpenAI以外的各種LLM和AI服務集成。
LangChain是一個功能強大的Python庫,使開發人員和研究人員能夠創建、實驗和分析語言模型和智能體。它為自然語言處理(NLP)愛好者提供了一套豐富的功能,從構建自定義模型到高效地操作文本數據。在本綜合指南中,我們將深入探討LangChain的基本組件,並演示如何在Python中利用其強大功能。
環境設置:
要學習本文,請創建一個新文件夾,並使用pip安裝LangChain和OpenAI:
pip3 install langchain openai
智能體(Agents):
在LangChain中,智能體是一個能夠理解和生成文本的實體。這些智能體可以配置特定的行為和數據源,並經過訓練以執行各種與語言相關的任務,這使得它們成為各種應用的多功能工具。
創建LangChain智能體:
智能體可以配置為使用“工具”來收集所需的數據並製定良好的響應。請看下面的示例。它使用Serp API(一個互聯網搜索API)來搜索與問題或輸入相關的信息,並使用這些信息來做出響應。它還使用llm-math工具執行數學運算——例如,轉換單位或查找兩個值之間的百分比變化:
from langchain.agents import load_tools from langchain.agents import initialize_agent from langchain.agents import AgentType from langchain.llms import OpenAI import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" os.environ["SERPAPI_API_KEY"] = "YOUR_SERP_API_KEY" # 获取你的Serp API密钥:https://serpapi.com/ OpenAI.api_key = "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" llm = OpenAI(model="gpt-3.5-turbo", temperature=0) tools = load_tools(["serpapi", "llm-math"], llm=llm) agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True) agent.run("How much energy did wind turbines produce worldwide in 2022?")
如你所見,在完成所有基本的導入和初始化LLM (llm = OpenAI(model="gpt-3.5-turbo", temperature=0))之後,代碼使用tools = load_tools(["serpapi", "llm-math"], llm=llm)加載智能體工作所需的工具。然後,它使用initialize_agent函數創建智能體,為其提供指定的工具,並為其提供ZERO_SHOT_REACT_DESCRIPTION描述,這意味著它將不記得以前的問題。
智能體測試示例1:
讓我們用以下輸入來測試這個智能體:
<code>"How much energy did wind turbines produce worldwide in 2022?"</code>
如你所見,它使用了以下邏輯:
- 使用Serp互聯網搜索API搜索“wind turbine energy production worldwide 2022”
- 分析最佳結果
- 獲取任何相關的數字
- 使用llm-math工具將906吉瓦轉換為焦耳,因為我們要求的是能量,而不是功率
智能體測試示例2:
LangChain智能體不僅限於搜索互聯網。我們可以將幾乎任何數據源(包括我們自己的數據源)連接到LangChain智能體,並向其提出有關數據的問題。讓我們嘗試創建一個在CSV數據集上訓練的智能體。
從Kaggle上的SHIVAM BANSAL處下載此Netflix電影和電視節目數據集,並將其移動到你的目錄中。現在將此代碼添加到一個新的Python文件中:
pip3 install langchain openai
此代碼調用create_csv_agent函數並使用netflix_titles.csv數據集。下圖顯示了我們的測試。
如上所示,其邏輯是在cast列中查找所有“Christian Bale”的出現。
我們還可以像這樣創建一個Pandas DataFrame智能體:
from langchain.agents import load_tools from langchain.agents import initialize_agent from langchain.agents import AgentType from langchain.llms import OpenAI import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" os.environ["SERPAPI_API_KEY"] = "YOUR_SERP_API_KEY" # 获取你的Serp API密钥:https://serpapi.com/ OpenAI.api_key = "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" llm = OpenAI(model="gpt-3.5-turbo", temperature=0) tools = load_tools(["serpapi", "llm-math"], llm=llm) agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True) agent.run("How much energy did wind turbines produce worldwide in 2022?")
如果我們運行它,我們將看到如下所示的結果。
這些只是一些例子。我們可以將幾乎任何API或數據集與LangChain一起使用。
模型(Models):
LangChain中有三種類型的模型:大型語言模型(LLM)、聊天模型和文本嵌入模型。讓我們通過一些示例來探索每種類型的模型。
大型語言模型(Language Model):
LangChain提供了一種在Python中使用大型語言模型的方法,以根據文本輸入生成文本輸出。它不像聊天模型那樣複雜,最適合簡單的輸入-輸出語言任務。以下是用OpenAI的示例:
<code>"How much energy did wind turbines produce worldwide in 2022?"</code>
如上所示,它使用gpt-3.5-turbo模型為提供的輸入(“Come up with a rap name for Matt Nikonorov”)生成輸出。在這個例子中,我將溫度設置為0.9,以使LLM更具創造性。它想出了“MC MegaMatt”。我給它打9/10分。
聊天模型(Chat Model):
讓LLM模型想出說唱名字很有趣,但如果我們想要更複雜的答案和對話,我們需要使用聊天模型來提升我們的水平。從技術上講,聊天模型與大型語言模型有何不同?用LangChain文檔中的話說:
聊天模型是大型語言模型的一種變體。雖然聊天模型在後台使用大型語言模型,但它們使用的接口略有不同。它們不使用“文本輸入,文本輸出”的API,而是使用“聊天消息”作為輸入和輸出的接口。
這是一個簡單的Python聊天模型腳本:
pip3 install langchain openai
如上所示,代碼首先發送一個SystemMessage,並告訴聊天機器人要友好和非正式,之後它發送一個HumanMessage,告訴聊天機器人說服我們Djokovich比Federer更好。
如果你運行這個聊天機器人模型,你將看到如下所示的結果。
嵌入(Embeddings):
嵌入提供了一種將文本塊中的單詞和數字轉換為向量的方法,然後可以將這些向量與其他單詞或數字關聯起來。這聽起來可能很抽象,所以讓我們來看一個例子:
from langchain.agents import load_tools from langchain.agents import initialize_agent from langchain.agents import AgentType from langchain.llms import OpenAI import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" os.environ["SERPAPI_API_KEY"] = "YOUR_SERP_API_KEY" # 获取你的Serp API密钥:https://serpapi.com/ OpenAI.api_key = "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" llm = OpenAI(model="gpt-3.5-turbo", temperature=0) tools = load_tools(["serpapi", "llm-math"], llm=llm) agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True) agent.run("How much energy did wind turbines produce worldwide in 2022?")
這將返回一個浮點數列表:[0.022762885317206383, -0.01276398915797472, 0.004815981723368168, -0.009435392916202545, 0.010824492201209068]。這就是嵌入的樣子。
嵌入模型的用例:
如果我們想訓練一個聊天機器人或LLM來回答與我們的數據或特定文本樣本相關的問題,我們需要使用嵌入。讓我們創建一個簡單的CSV文件(embs.csv),其中包含一個“text”列,其中包含三條信息:
<code>"How much energy did wind turbines produce worldwide in 2022?"</code>
現在,這是一個腳本,它將使用嵌入來獲取問題“Who was the tallest human ever?”並在CSV文件中找到正確的答案:
from langchain.llms import OpenAI from langchain.chat_models import ChatOpenAI from langchain.agents.agent_types import AgentType from langchain.agents import create_csv_agent import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" agent = create_csv_agent( OpenAI(temperature=0), "netflix_titles.csv", verbose=True, agent_type=AgentType.ZERO_SHOT_REACT_DESCRIPTION, ) agent.run("In how many movies was Christian Bale casted")
如果我們運行此代碼,我們將看到它輸出“Robert Wadlow was the tallest human ever”。該代碼通過獲取每條信息的嵌入並找到與問題“Who was the tallest human ever?”的嵌入最相關的嵌入來找到正確的答案。嵌入的力量!
塊(Chunks):
LangChain模型不能同時處理大型文本並使用它們來生成響應。這就是塊和文本分割的用武之地。讓我們來看兩種在將文本數據饋送到LangChain之前將其分割成塊的簡單方法。
按字符分割塊:
為了避免塊中的突然中斷,我們可以通過在換行符或雙換行符的每次出現處分割文本,來按段落分割文本:
from langchain.agents import create_pandas_dataframe_agent from langchain.chat_models import ChatOpenAI from langchain.agents.agent_types import AgentType from langchain.llms import OpenAI import pandas as pd import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_KEY" df = pd.read_csv("netflix_titles.csv") agent = create_pandas_dataframe_agent(OpenAI(temperature=0), df, verbose=True) agent.run("In what year were the most comedy movies released?")
遞歸分割塊:
如果我們想嚴格地按一定長度的字符分割文本,我們可以使用RecursiveCharacterTextSplitter:
from langchain.llms import OpenAI import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" llm = OpenAI(model="gpt-3.5-turbo", temperature=0.9) print(llm("Come up with a rap name for Matt Nikonorov"))
塊大小和重疊:
在查看上面的示例時,你可能想知道塊大小和重疊參數的確切含義,以及它們對性能的影響。這可以用兩點來解釋:
- 塊大小決定每個塊中字符的數量。塊大小越大,塊中的數據越多,LangChain處理它並生成輸出所需的時間就越長,反之亦然。
- 塊重疊是在塊之間共享信息的內容,以便它們共享一些上下文。塊重疊越高,我們的塊就越冗餘,塊重疊越低,塊之間共享的上下文就越少。通常,良好的塊重疊是塊大小的10%到20%,儘管理想的塊重疊因不同的文本類型和用例而異。
鏈(Chains):
鏈基本上是多個LLM功能鏈接在一起以執行更複雜的任務,而這些任務無法通過簡單的LLM輸入->輸出方式來完成。讓我們來看一個很酷的例子:
pip3 install langchain openai
此代碼將兩個變量輸入到其提示中,並製定一個有創意的答案(temperature=0.9)。在這個例子中,我們要求它為一部關於數學的恐怖電影想出一個好標題。運行此代碼後的輸出是“The Calculating Curse”,但這並沒有真正顯示鏈的全部功能。
讓我們來看一個更實際的例子:
from langchain.agents import load_tools from langchain.agents import initialize_agent from langchain.agents import AgentType from langchain.llms import OpenAI import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" os.environ["SERPAPI_API_KEY"] = "YOUR_SERP_API_KEY" # 获取你的Serp API密钥:https://serpapi.com/ OpenAI.api_key = "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" llm = OpenAI(model="gpt-3.5-turbo", temperature=0) tools = load_tools(["serpapi", "llm-math"], llm=llm) agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True) agent.run("How much energy did wind turbines produce worldwide in 2022?")
這段代碼可能看起來令人困惑,所以讓我們逐步講解。
這段代碼讀取Nas(嘻哈藝術家)的簡短傳記,並從文本中提取以下值,並將它們格式化為JSON對象:
- 藝術家的姓名
- 藝術家的音樂類型
- 藝術家的首張專輯
- 藝術家首張專輯的發行年份
在提示中,我們還指定了“Make sure to answer in the correct format”,以便我們始終以JSON格式獲得輸出。這是此代碼的輸出:
<code>"How much energy did wind turbines produce worldwide in 2022?"</code>
通過向create_structured_output_chain函數提供JSON模式,我們使鏈將其輸出放入JSON格式。
超越OpenAI:
儘管我一直使用OpenAI模型作為LangChain不同功能的示例,但它並不局限於OpenAI模型。我們可以將LangChain與許多其他LLM和AI服務一起使用。 (這是LangChain可集成LLM的完整列表。)
例如,我們可以將Cohere與LangChain一起使用。這是LangChain Cohere集成的文檔,但為了提供一個實際示例,在使用pip3 install cohere安裝Cohere之後,我們可以使用LangChain和Cohere編寫一個簡單的問答代碼,如下所示:
from langchain.llms import OpenAI from langchain.chat_models import ChatOpenAI from langchain.agents.agent_types import AgentType from langchain.agents import create_csv_agent import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" agent = create_csv_agent( OpenAI(temperature=0), "netflix_titles.csv", verbose=True, agent_type=AgentType.ZERO_SHOT_REACT_DESCRIPTION, ) agent.run("In how many movies was Christian Bale casted")
上面的代碼產生以下輸出:
from langchain.agents import create_pandas_dataframe_agent from langchain.chat_models import ChatOpenAI from langchain.agents.agent_types import AgentType from langchain.llms import OpenAI import pandas as pd import os os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_KEY" df = pd.read_csv("netflix_titles.csv") agent = create_pandas_dataframe_agent(OpenAI(temperature=0), df, verbose=True) agent.run("In what year were the most comedy movies released?")
結論:
在本指南中,你已經看到了LangChain的不同方面和功能。掌握了這些知識後,你就可以利用LangChain的功能來進行NLP工作,無論你是研究人員、開發人員還是愛好者。
你可以在GitHub上找到包含本文所有圖片和Nas.txt文件的倉庫。
祝你使用Python中的LangChain進行編碼和實驗愉快!
以上是Python的Langchain的完整指南的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Python更易學且易用,C 則更強大但複雜。 1.Python語法簡潔,適合初學者,動態類型和自動內存管理使其易用,但可能導致運行時錯誤。 2.C 提供低級控制和高級特性,適合高性能應用,但學習門檻高,需手動管理內存和類型安全。

Python和C 在内存管理和控制方面的差异显著。1.Python使用自动内存管理,基于引用计数和垃圾回收,简化了程序员的工作。2.C 则要求手动管理内存,提供更多控制权但增加了复杂性和出错风险。选择哪种语言应基于项目需求和团队技术栈。

Python在科學計算中的應用包括數據分析、機器學習、數值模擬和可視化。 1.Numpy提供高效的多維數組和數學函數。 2.SciPy擴展Numpy功能,提供優化和線性代數工具。 3.Pandas用於數據處理和分析。 4.Matplotlib用於生成各種圖表和可視化結果。

選擇Python還是C 取決於項目需求:1)Python適合快速開發、數據科學和腳本編寫,因其簡潔語法和豐富庫;2)C 適用於需要高性能和底層控制的場景,如係統編程和遊戲開發,因其編譯型和手動內存管理。

Python在數據科學和機器學習中的應用廣泛,主要依賴於其簡潔性和強大的庫生態系統。 1)Pandas用於數據處理和分析,2)Numpy提供高效的數值計算,3)Scikit-learn用於機器學習模型構建和優化,這些庫讓Python成為數據科學和機器學習的理想工具。

每天學習Python兩個小時是否足夠?這取決於你的目標和學習方法。 1)制定清晰的學習計劃,2)選擇合適的學習資源和方法,3)動手實踐和復習鞏固,可以在這段時間內逐步掌握Python的基本知識和高級功能。

Python在Web開發中的關鍵應用包括使用Django和Flask框架、API開發、數據分析與可視化、機器學習與AI、以及性能優化。 1.Django和Flask框架:Django適合快速開發複雜應用,Flask適用於小型或高度自定義項目。 2.API開發:使用Flask或DjangoRESTFramework構建RESTfulAPI。 3.數據分析與可視化:利用Python處理數據並通過Web界面展示。 4.機器學習與AI:Python用於構建智能Web應用。 5.性能優化:通過異步編程、緩存和代碼優

Python在開發效率上優於C ,但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

WebStorm Mac版
好用的JavaScript開發工具

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。