搜尋
首頁科技週邊人工智慧Jamba 1.5:具有混合Mamba-Transformer架構

JAMBA 1.5:一種強大的混合語言模型,用於長篇文化處理

Jamba 1.5是AI21實驗室的尖端大語言模型,具有令人印象深刻的處理能力,可處理廣泛的文本上下文。有兩個版本可供選擇:Jamba 1.5大型(940億參數)和Jamba 1.5 Mini(120億個參數) - 它利用了將MAMBA結構化狀態空間模型(SSM)與傳統變壓器結構相結合的獨特混合體系結構。這種創新的方法可以處理空前的256K有效上下文窗口,這是開源模型的重大飛躍。

Jamba 1.5:具有混合Mamba-Transformer架構

關鍵功能:

  • 龐大的上下文窗口:最多256K令牌的過程,非常適合冗長的文檔和復雜的任務。
  • 混合體系結構:結合了變壓器和MAMBA模型的優勢,以獲得最佳效率和性能。
  • 有效的量化:利用專家量定量化來減少記憶足跡和更快的處理。
  • 多語言支持:跨九種語言有效地發揮作用:英語,西班牙語,法語,葡萄牙語,意大利語,荷蘭語,德語,阿拉伯語和希伯來語。
  • 多功能應用程序:適用於廣泛的NLP任務,包括問答,摘要,文本生成和分類。
  • 可訪問的部署:可通過AI21的Studio API,擁抱的臉和雲合作夥伴獲得。

建築細節:

Jamba 1.5:具有混合Mamba-Transformer架構

方面 細節
基礎體系結構 混合變壓器 - 曼巴(Mamba
模型變體 jamba-1.5大(94B活動參數,總計398b)和jamba-1.5-mini(12B活動參數,總計52B)
層組成 9個街區,每個街區有8層; 1:7變壓器與曼巴層的比率
專家的混合物(MOE) 16位專家,選擇每個令牌的前2個
隱藏的尺寸 8192
注意力頭 64個查詢頭,8個鑰匙值頭
上下文長度 多達256K令牌
量化技術 MOE和MLP層的ExpertsInt8
激活功能 集成的變壓器和MAMBA激活
效率 在8x80GB GPU上針對高吞吐量和低潛伏期進行了優化

訪問和利用Jamba 1.5:

Jamba 1.5很容易通過AI21的工作室API和擁抱的臉訪問。該模型可以針對特定域進行微調,以進一步提高性能。下面提供了使用AI21 API的Python示例:

Python示例:

從AI21導入AI21Client
來自AI21.models.Chat Import Chatmessage

消息= [ChatMessage(content =“ 2-3行中的令牌是什麼?
客戶端= ai21client(api_key ='')#替換'用API鍵
響應= client.chat.completions.create(
    消息=消息,
    型號=“ jamba-1.5-mini”,
    流= true
)
零件回應:
    打印(塊。 

Jamba 1.5:具有混合Mamba-Transformer架構Jamba 1.5:具有混合Mamba-Transformer架構Jamba 1.5:具有混合Mamba-Transformer架構

結論:

Jamba 1.5代表了大型語言模型的重大進步,提供了強大的功率和效率融合。它處理異常長上下文的能力,再加上其多功能應用程序和可訪問的部署選項,使其成為多種NLP任務的寶貴工具。

常見問題(常見問題解答):(類似於原始問題,但出於簡潔而改寫)

  • Q1:什麼是Jamba 1.5?答:具有94B(大)或12B(mini)參數的混合變壓器 - 曼巴(Mamba)大型語言模型,優化了用於遵循和長篇文章處理的說明。
  • Q2:Jamba 1.5如何有效地處理長上下文?答:通過其混合體系結構和ExpertsInt8量化,啟用了256K令牌上下文窗口,並減少了內存使用情況。
  • Q3:什麼是expertsint8量化?答:使用MOE和MLP層中INT8精度的壓縮技術,以提高效率。
  • 問題4:Jamba 1.5公開可用嗎?答:是的,在Jamba Open Model許可下,可以通過擁抱臉訪問。

以上是Jamba 1.5:具有混合Mamba-Transformer架構的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
如何使用代理抹布構建智能常見問題聊天機器人如何使用代理抹布構建智能常見問題聊天機器人May 07, 2025 am 11:28 AM

人工智能代理人現在是企業大小的一部分。從醫院的填寫表格到檢查法律文件到分析錄像帶和處理客戶支持 - 我們擁有各種任務的AI代理。伴侶

從恐慌到權力:領導者在AI時代必須學會什麼從恐慌到權力:領導者在AI時代必須學會什麼May 07, 2025 am 11:26 AM

生活是美好的。 也可以預見的是,您的分析思維更喜歡它的方式。您今天只開會進入辦公室,完成一些最後一刻的文書工作。之後,您要帶您的伴侶和孩子們度過當之無愧的假期去陽光

為什麼預測AGI將超過AI專家的科學共識的原因為什麼為什麼預測AGI將超過AI專家的科學共識的原因為什麼May 07, 2025 am 11:24 AM

但是,科學共識具有打ic和陷阱,也許是通過使用融合的證據,也稱為合奏,也許是一種更加謹慎的方法。 讓我們來談談。 對創新AI突破的這種分析是我的一部分

吉卜力工作室的困境 - 生成AI時代的版權吉卜力工作室的困境 - 生成AI時代的版權May 07, 2025 am 11:19 AM

Openai和Studio Ghibli都沒有回應此故事的評論請求。但是他們的沉默反映了創造性經濟中更廣泛,更複雜的緊張局勢:版權在生成AI時代應該如何運作? 使用類似的工具

mulesoft為鍍鋅代理AI連接製定混合mulesoft為鍍鋅代理AI連接製定混合May 07, 2025 am 11:18 AM

混凝土和軟件都可以在需要的情況下鍍鋅以良好的性能。兩者都可以接受壓力測試,兩者都會隨著時間的流逝而遭受裂縫和裂縫,兩者都可以分解並重構為“新建”,兩種功能的產生

據報導,Openai達成了30億美元的交易來購買Windsurf據報導,Openai達成了30億美元的交易來購買WindsurfMay 07, 2025 am 11:16 AM

但是,許多報告都在非常表面的水平上停止。 如果您想弄清楚帆衝浪的全部內容,您可能會或可能不會從顯示在Google搜索引擎頂部出現的聯合內容中得到想要的東西

對所有美國孩子的強制性AI教育? 250多個首席執行官說是對所有美國孩子的強制性AI教育? 250多個首席執行官說是May 07, 2025 am 11:15 AM

關鍵事實 簽署公開信的領導者包括Adobe,Accenture,AMD,American Airlines,Blue Origin,Cognizant,Dell,Dellbox,IBM,LinkedIn,Lyftin,Lyft,Microsoft,Microsoft,Salesforce,Uber,Uber,Yahoo和Zoom)等高調公司的首席執行官。

我們自滿的危機:導航AI欺騙我們自滿的危機:導航AI欺騙May 07, 2025 am 11:09 AM

這種情況不再是投機小說。在一項受控的實驗中,阿波羅研究表明,GPT-4執行非法內幕交易計劃,然後向研究人員撒謊。這一集生動地提醒了兩條曲線

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。