> olmo 2:功能強大的開源LLM,用於可訪問的AI
>自然語言處理領域(NLP)已經取得了迅速的進步,尤其是大型語言模型(LLMS)。儘管專有模型在歷史上一直占主導地位,但開源替代方案正在迅速縮小差距。 Olmo 2代表著一個重大的飛躍,提供的性能與封閉式模型相當,同時保持完全透明度和可訪問性。本文深入研究Olmo 2,探索其培訓,性能和實際應用。
密鑰學習點:
需要開源LLMS
介紹Olmo 2解構Olmo 2的培訓>
探索Olmo 2的功能Olmo 2在其前身OLMO-0424上顯著改善。 它的7B和13B參數模型表明性能可與類似或超過類似的完全開放的模型相當,甚至可以與英語學術基准上的Llama 3.1(如Llama 3.1)相提並論,這是考慮到減少的培訓拖船的顯著成就。
關鍵改進包括:
> olmo 2的訓練方法
Olmo 2的架構建立在原始Olmo上,並結合了改進的穩定性和性能。 培訓過程包括兩個階段:
基礎培訓:
利用Olmo-Mix-1124數據集(大約3.9萬億個代幣,來自不同的開源來源)來為語言理解建立強大的基礎。>由於Olmo-2是一個完全開放的模型,因此讓我們澄清不同級別的模型開放度之間的區別:
>開放重量模型:
只發布模型權重。探索和運行Olmo 2本地
> Olmo 2很容易訪問。 可以提供有關下載模型和數據以及培訓代碼和評估指標的說明。 要在本地運行Olmo 2,請使用Ollama。 安裝後,只需在命令行中運行ollama run olmo2:7b
即可。 可以通過PIP安裝必要的庫(Langchain和Gradio)
>使用Olmo 2 構建聊天機器人
以下Python代碼演示了使用Olmo 2,Gradio和Langchain構建聊天機器人:
import gradio as gr from langchain_core.prompts import ChatPromptTemplate from langchain_ollama.llms import OllamaLLM def generate_response(history, question): template = """Question: {question} Answer: Let's think step by step.""" prompt = ChatPromptTemplate.from_template(template) model = OllamaLLM(model="olmo2") chain = prompt | model answer = chain.invoke({"question": question}) history.append({"role": "user", "content": question}) history.append({"role": "assistant", "content": answer}) return history with gr.Blocks() as iface: chatbot = gr.Chatbot(type='messages') with gr.Row(): with gr.Column(): txt = gr.Textbox(show_label=False, placeholder="Type your question here...") txt.submit(generate_response, [chatbot, txt], chatbot) iface.launch()此代碼提供了基本的聊天機器人接口。 可以建立更複雜的應用程序。 原始文章中顯示了示例輸出和提示。
結論 Olmo 2
代表對開源LLM生態系統的重要貢獻。 它的強大性能以及其完整的透明度,使其成為研究人員和開發人員的寶貴工具。 儘管在所有任務中都不是普遍優越,但其開放性質卻促進了協作,並加速了可訪問且透明的AI領域的進步。
鑰匙要點:
(注意:圖像URL保持不變。)
>
以上是與Gradio和Langchain在本地運行Olmo-2的詳細內容。更多資訊請關注PHP中文網其他相關文章!