ChatGPT分享-如何開發一個LLM應用-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

ChatGPT分享-如何開發一個LLM應用

PHPz

Apr 12, 2023 pm 09:43 PM

chatgptllm應用

1背景

ChatGPT引起巨大的業界震撼，各行各業都在討論大語言模型、通用人工智慧。 AI經歷了五十多年的發展，現在正處於產業結構水平化發展的關鍵時期。這項變化源自於NLP領域範式的轉變，從「預訓練微調」向「預訓練、提示、預測」模式演進。在這個新模式下，下游任務適應預訓練模型，使得一個大型模型能適用於多個任務。這項變革為AI產業的水平化分工奠定了基礎，大型語言模型成為基礎設施，Prompt Engineering公司層出不窮，專注於連結使用者和模型。 AI產業的分工初步形成，包括底層基礎設施（雲端服務商）、大型模式、Prompt Engineering平台和終端應用。隨著AI產業變革，開發者可以充分利用大型語言模式（LLM）和Prompt Engineering來開發創新應用。

2Prompt-Ops下的應用

目前要開發一個基於LLM的應用，我們面臨最大的工程上的問題是什麼？

大語言模型不能聯網，無法取得最新的資訊
大語言模型沒有我們私有的數據，無法回答垂直方向的問題
大語言模型的開放API（text-davinci-003）沒有像ChatGPT那樣優秀的上下文能力
大語言模型無法驅動其他工具。

2.1 Langchain等工程架構解決了這些工程上的問題

以Langchain為例簡單來說：LangChain是LLM 底層能力的封裝，是一種Prompt Engineering或是說是Prompt-Ops。

它可以存取各種不同LLM的服務，抽象化了各種大語言模型的呼叫
它可以建立各種PromptTemplate，實現客製化的Prompt模版
它可以建立鏈來組合呼叫PromptTemplate
它可以通呼叫各種工具，實作GPT-3目前不擅長的事情，例如搜尋/數學/連結私有資料庫/Python程式碼
它可以使用代理，驅動LLM 來決定採取哪些行動以及採取何種順序。動作可以是使用工具並觀察其輸出，也可以是返回給使用者。
它可以透過它的Memory模組，來實現對話歷史的建模。

2.2 一些Langchain的發展範例

2.2.1 與搜尋的GPT

ChatGPT分享-如何開發一個LLM應用

這是一個用ChatGPT和LangChain開發的Demo對比的例子，輸入的都是「誰是周傑倫的老婆？她目前的年齡乘以0.23是多少?」。可以看出ChatGPT或GPT-3.5因為沒有搜尋能力，回答的結果是錯誤的。右邊用LangChain結合OpenAI的GPT-3.5的API則輸出了正確的結果，他會逐步去搜索獲得正確信息，得出正確結果，而且中間的過程是框架自動處理的，我除了輸入問題沒有其他操作。

ChatGPT分享-如何開發一個LLM應用 2.2.2 將自然語言轉換為Python程式碼並自行糾錯

這是一個非常令人震驚的例子，在這個流程中，它自己發現函數未定義的報錯並自行糾正。

ChatGPT分享-如何開發一個LLM應用

2.2.3 使用GPT-3 Statmuse Langchain查詢NBA資料

#Fuzzy API composition: querying NBA stats with GPT-3 Statmuse Langchain

使用Langchain與體育數據搜尋網站相結合，提問複雜的數據問題並得到準確的回應。例如：「波士頓塞爾提克隊在這個2022-2023 賽季的NBA 賽季場均防守得分是多少？與他們上賽季的平均水平相比，百分比變化如何？」 ChatGPT分享-如何開發一個LLM應用

#### #####2.2.4 連接Python REPL打開瀏覽器播放音樂######一個蠻科幻的場景，我用Langchain接入了Python REPL工具，輸入“給我放一首歌”，它導入了webBrowser套件，呼叫程式碼開啟了瀏覽器，給我播放了一首《never gonna give you up》###

def pythonTool():
bash = BashProcess()
python_repl_util = Tool(
"Python REPL",
PythonREPL().run,
"""A Python shell. Use this to execute python commands. 
Input should be a valid python command.
If you expect output it should be printed out.""",
)
command_tool = Tool(
name="bash",
descriptinotallow="""A Bash shell. Use this to execute Bash commands. Input should be a valid Bash command.
If you expect output it should be printed out.""",
func=bash.run,
)
# math_tool = _get_llm_math(llm)
# search_tool = _get_serpapi()
tools = [python_repl_util, command_tool]
agent = initialize_agent(tools, llm, agent="zero-shot-react-description", verbose=True)
agent.run("给我播放一首音乐")

########

2.2.5 连接私有数据

连接私有数据对第三方企业做LLM应用来说非常重要。下面举几个例子

LangchainJs的文档，结合了Langchain：AI-powered search for LangchainJS Documentation，你可以直接问文档内容、技术细节。

ChatGPT分享-如何開發一個LLM應用

数据库产品 Supabase也做了同样的事情，将自己的文档与ChatGPT相连接，使得开发者可以很方便的询问/查找自己遇到的技术问题。https://supabase.com/docs

ChatGPT分享-如何開發一個LLM應用

政府信息问答的一个例子：Co-pilot for government

法律公文和政策条款一般都非常复杂繁琐，这个demo中将旧金山政府的信息用Langchain与GPT结合，做到询问其中细节能获得准确回复的效果。

ChatGPT分享-如何開發一個LLM應用

> Entering new AgentExecutor chain...
I need to find out the size limit for a storage shed without a permit and then search for sheds that are smaller than that size.
Action: SF Building Codes QA System
Action Input: "What is the size limit for a storage shed without a permit in San Francisco?"
Observation: The size limit for a storage shed without a permit in San Francisco is 100 square feet (9.29 m2).


Thought:Now that I know the size limit, I can search for sheds that are smaller than 100 square feet.
Action: Google
Action Input: "Storage sheds smaller than 100 square feet"
Observation: Results 1 - 24 of 279 ...


Thought:I need to filter the Google search results to only show sheds that are smaller than 100 square feet and suitable for backyard storage.
Action: Google
Action Input: "Backyard storage sheds smaller than 100 square feet"
Thought:I have found several options for backyard storage sheds that are smaller than 100 square feet and do not require a permit. 
Final Answer: The size limit for a storage shed without a permit in San Francisco is 100 square feet. There are many options for backyard storage sheds that are smaller than 100 square feet and do not require a permit, including small sheds under 36 square feet and medium sheds between 37 and 100 square feet.

2.3 结合私有数据问答

LLM应用与私有数据交互非常重要，我看到无数人在问一些ChatGPT无法回答的问题了：问认不认识谁、问自己公司业务细节、问各种可能不包含在预训练数据集里的东西。这些都已用Langchain和LlaMaIndex来解决。试想一下，将私有数据与LLM相结合，将改变数据原有的访问方式，通过问答能很自然地获取到自己需要的信息，这是比当前的搜索/打标分类都要高效的数据交互方式。

2.3.1 如何构建一个基于私有数据的LLM问答系统

ChatGPT分享-如何開發一個LLM應用

向量数据库现在看起来是构建LLM App中很关键的一个组件。首先 LLM 的预训练和微调过程不可能包含我们所期待的私有数据，因此如何将LLM关联到私有数据成为一个很关键的需求。而且LLM的“接口”-自然语言通常不是像Key-Value的映射那样精确地。而且在这一阶段我们希望LLM去理解我们的知识库，而不是简单的在其中搜索相同的字符串，我们希望询问关于我们知识库的细节，并给出一定理解后的答案（以及来源），这样匹配向量这样的搜索方式是一个非常合适且关键的解决方案。还有一个关键点是，LLM在每次调用是按token计费（即文本量），并且目前的接口的上下文有着4096 tokens的限制。，因此面对庞大的数据，我们也不可能将所有的数据一次性传给LLM。因此才有了第一张图那个流程图的结构。本地预先将我们私有的数据转成向量存在Qdrant里，用户问答时，将用户的问题转为向量，然后去Qdrant里进行搜索（相似性匹配）得到Top K个结果，然后将这些结果（注意这里的结果已经是自然语言了）传给LLM进行总结输出。

2.3.2 结合私有数据问答的抽象流程

这里使用Langchain社区博客的流程图为例

ChatGPT分享-如何開發一個LLM應用

私有数据分割成小于LLM上下文的分块，创建向量后存入向量数据库

ChatGPT分享-如何開發一個LLM應用

将问题计算向量后在向量数据库进行相似性搜索，算出相关性较高的top k个结果后拼接prompt送往LLM获得答案。

2.3.3 重要元件

OpenAI Ada模型：text-embedding-ada-002模型可以快速編碼一個1536維的向量，我們可以使用這個向量來計算文本之間的相似性。
Langchain / LLamaIndex：Langchain包含多種文本拆分器與文檔連接器，方便將文件進行拆分並且在向量數據庫中索引；LlamaIndex 可以從向量存儲加載數據，類似於任何其他數據連接器。然後可以在 LlamaIndex 資料結構中使用此資料。
向量資料庫，選型比較多：Chroma / FAISS / Milvus / PGVector / Qdrant / Pinecone等等。

2.3.4 OpenAI私有部署與成本的問題

再來聊聊最近那個OpenAI私有部署的新聞，如果用Langchain來做鏈接，面對龐大的私有數據，用一個embedding模型（OpenAI的ada）計算輸入問題向量，用Qdrant等向量資料庫來管理私有資料的向量和向量搜索，用Langchain來做中間的連結雖然可以解決問題，但是token的消耗卻是不容忽視的成本問題。私有部署微調可能能解決大部分前面提到的問題。可能是有錢大公司用Model instance和fine-tuning，小公司獨立開發者用Langchain等框架。更未來OpenAI的LLM服務能力外溢，可能不需要Prompt了，甚至把Langchain的功能都能包含了，LLM應用的開發接入也許只需要一個介面呼叫。

2.4 2023年的LLM應用技術堆疊

2023 用來簡單搭建AI Demo 的最新技術堆疊：

#託管: Vercel
前端: Next.js
後端: Vercel with flask
資料庫: Supabase
AI 模型: OpenAI / Replicate / Hugging Face
LLM框架層: LangChain / LLaMaIndex
向量儲存/搜尋: Pinecone / FAISS

2.5 Prompt-Ops 目前最大的問題

#一些關於Langchain 這類Prompt-Ops這類工具的反對觀點：stream.thesephist.com主要問題是在這類工具/框架，將自然語言作為代碼和LLM的連接，使用非確定性語言本身作為控制流，有點瘋狂。而且本身評估模型輸出效果現在是個很麻煩的事，沒有很好的解決方案，很多都是維護一個龐大的電子表格，靠人去評估。（也有用LLM評估LLM的方案，還比較早期）所以要投入生產，真實面對用戶而不是作為twitter演示可能還有很多工作要做。

詳細說說測試環節面臨的巨大挑戰。假如你的產品有一套研發階段效果很好的prompt，交給測試後，可能測試上百條上千條就能看出問題了。由於效果無法保證，真正推出給c端用戶會面臨很大的挑戰。而且沒有用微調服務或model instance的話，如果OpenAI更新了模型，你的生產環境的prompt可能需要全部重新測試效果。你的prompt也需要和程式碼一樣按版本管理，不管有沒有prompt變更，每個版本上線前都需要進行回歸測試。沒有好的自動化評估方案的話，大量的case都需要測試人工來看會耗費非常多的人力。

結合私有資料的LLM應用目前開發起來在工程上已經有很多不錯的方案了，很容易跑出效果不錯的demo，但還是需要非常謹慎對待這樣一種應用。畢竟我們不只是要做一個在社群媒體或Leader面前示範的專案。提供給使用者輸入的是一個對話框，自然語言寬泛到即使你測試上萬個結果也可能出現意想不到的結果，畢竟像new bing和chatGPT這樣的產品也會被Prompt Injection。面對這種不確定性，工程上如何去避免，測試如何去覆蓋都是一個成熟產品待解決或者說還有很多工作可以做的問題。

但我覺得也不必完全否定這類Prompt-Ops工具/框架，畢竟現階段確實能做出很多不錯的demo來驗證想法。

3未來可能的一些產品形態

聊聊ChatGPT API開放後LLM應用可能的形態。

對話聊天，是最直覺的應用方式，在API上做好對話歷史的管理。
虛擬角色聊天，在基礎對話聊天上，對API的prefix_message上做一些角色定義的prompt，可以實現類似Character.ai的效果。更深入可能是作為遊戲角色、虛擬人、XR助理等。
類似Notion的文字輔助撰寫工具，目前Notion、FlowUs都做了類似的應用。未來各家社群的發佈器整合也是一個趨勢，減低用戶發布門檻，提升發布品質。
資料總結工具，實現Chat-Your-Data，提供文件的輸入給用戶，讓用戶可以與自己提供的資料聊天，本質只涉及到網路公開的資料與使用者私有的資料。
大企業的Chat-Your-Data，各家大公司在原有業務基礎上，結合大企業的私有數據，提供更優質的服務。例如結合用戶點評的大眾點評，能夠用“想去放neo-soul和R&B音樂的酒吧”，比如我們的商詳頁，能夠總結所有用戶對這個商品的評價，並且可以讓用戶對這個商品的資料進行問答。
與政務、醫療、教育等領域結合，融合線上機構官網、線下大屏，提供更好的市民服務。
與其他工具例如IFTTT或各種私有協定結合，實作LLM可以存取更多的工具和系統，舉個例子：iot場景，Office Copilot。

LLM應用程式實際上是一種新的人機互動方式，能夠讓使用者用自然語言與我們目前的系統溝通，許多應用程式甚至可以簡化到只有一個聊天視窗。