搜尋
首頁科技週邊人工智慧pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhya

介紹

Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億個參數Nemo 12b的基礎上。是什麼設置了該模型?現在可以將圖像和文本用於輸入。讓我們更多地看一下模型,如何使用它,執行任務以及您需要知道的其他知識。

在本文中,您將了解PixTral-12b模型。該AI模型使用深度學習和一種特殊類型的網絡來創建圖像。我們將研究其工作原理,在機器學習中的用途以及與GPT-3的比較。您還將看到為什麼其性能如此令人印象深刻。

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhya

概述

  1. 發現Mistral的新PixTral-12b,這是一種多模型,結合了用於多功能AI應用程序的文本和圖像處理。
  2. 了解如何使用Mistral的最新AI模型PixTral-12b,旨在處理文本和高分辨率圖像。
  3. 探索PixTral-12b模型的功能和用例,該模型具有視覺適配器,可增強圖像理解。
  4. 了解Pixtral-12b的多模式特徵及其在圖像字幕,故事產生等中的潛在應用。
  5. 了解PixTral-12b的設計,性能以及如何用於特定的多模式任務。

目錄

  • 什麼是pixtral-12b?
  • 如何使用PixTral-12b-2409?

什麼是pixtral-12b?

PixTral-12b是一種源自Mistral的Nemo 12B的多模型模型,並增加了400m參數視覺適配器。 Mistral可以從Torrent文件或Apache 2.0許可證上下載。讓我們看一下PixTral-12b模型的一些技術功能:

特徵 細節
型號大小 120億參數
40層
視覺適配器 使用GELU激活的4億參數
圖像輸入 通過URL或base64接受1024 x 1024圖像,分為16 x 16像素貼片
視覺編碼器 2D繩(旋轉位置嵌入)增強了空間理解
詞彙大小 最多131,072個令牌
特殊令牌 img,img_break和img_end

如何使用PixTral-12b-2409?

截至2024年9月15日,該模型目前在Mistral的Le Chat或La Plateforme上尚未可用來直接使用聊天界面或通過API訪問聊天界面,但是我們可以通過Torrent鏈接下載該模型,並使用它,甚至可以使用它來滿足我們的需求。我們還可以在擁抱臉的幫助下使用該模型。讓我們詳細了解它們:

洪流鏈接使用:

磁鐵:? XT = urn:BTIH:7278E625DE2B1DA598B23954C13933047126238A&DN = PIXTRAL-12B--<br> 240910&tr = udp:/%http://2ftracker.opentrackr.org:1337/noins&tr = udp%<br> 3A/%http://2fopen.demonii.com:1337/noins&tr = http:/%http:// 2ftrac<br> ker.ipv6tracker.org:80/announce

我使用的是Ubuntu筆記本電腦,因此我將使用傳輸應用程序(已在大多數Ubuntu計算機中預安裝)。您可以使用任何其他應用程序下載開源模型的Torrent鏈接。

pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya

  • 單擊左上方的“文件”,然後選擇“打開URL”選項。然後,您可以粘貼複製的鏈接。

pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya

  • 您可以單擊“打開”並下載PixTral-12b型號。將下載包含這些文件的文件夾:

pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya

擁抱臉

該型號需要高GPU,因此我建議您使用Runpod.i''I'''將使用RunPod進行PixTral-12b-12b型號的演示。如果您使用的是帶有40 GB磁盤的RunPod實例,建議您使用A100 PCIE GPU。

我們將在VLLM的幫助下使用PixTral-12b。確保執行以下安裝。

 ! PIP安裝VLLM<br><br> ! pip安裝 - 升級mistral_common

轉到此鏈接:擁抱臉並同意訪問模型。然後轉到您的個人資料,單擊“ access_tokens”,然後創建一個。如果您沒有訪問令牌,請確保已選中以下框:

pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya

現在,運行以下代碼並粘貼訪問令牌以通過擁抱的臉進行身份驗證:

從huggingface_hub導入筆記本_login

Notebook_login()

這將需要一段時間,因為25 GB型號被下載以供使用:

從vllm導入llm

來自vllm.sampling_params導入SamplingParams

model_name =“ mistralai/pixtral-12b-2409”

Sampling_Params = SamplingParams(MAX_TOKENS = 8192)

llm = llm(model = model_name,tokenizer_mode =“ mistral”,max_model_len = 70000)

提示=“描述此圖像”

image_url =“ https://images.news18.com/ibnlive/uploads/2024/07/suryakumar-yadav-catch-catch-catch-catch-catch-1-2024-07-4a496281eb830a6fc76fc7ab41e92a2a0d295ed295ee-3x2.jpg”

消息= [

{

“角色”:“用戶”,

“ content”:[{{“ type”:“ text”,“ text”:stress},{“ type”:“ image_url”,“ image_url”:{“ url”:image_url}}]

},,

這是給出的

我要求模型描述以下圖像,該圖像來自T20世界杯2024:

pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya

輸出= llm.Chat(消息,Sampling_Params = Sampling_Params)

print('\ n'輸出[0] .outputs [0] .TEXT)

輸出

處理提示:100%|██████████| 1/1 [00:06  輸入:429.80 Toks/s,輸出:51.54 Toks/s]<br>該圖像是三個幀的複合材料,顯示了一個板球運動員,<br> 可能來自T20世界杯。這是一個詳細的摘要:<br><br> 1。 **左幀**:<br>  - 跳躍中的球員,雙臂伸出來向上抬頭,<br> 試圖捕捉板球。<br>  - 他穿著藍色球衣,名稱為“ Surya”和數字“ 63”<br> 印在背面。<br>  - 他的表情強烈而專注,強調集中<br> 捕獲所需的。<br><br> 2。 **中間框架**:<br>  - 球員的手托the割在一起,距離接近更近<br> 球。<br>  - 他穿著紅色袖子的相同藍色球衣,這也包括<br> “印度”團隊徽標和讚助商的品牌,特別是來自阿迪達斯。<br>  - 現在球非常接近他的手,表明很有可能<br> 成功的收穫。<br><br> 3。 **正確的框架**:<br>  - 球員已經成功地抓住了球,雙手舉起了<br> 他的頭緊緊抓住他的左手。<br>  - 他以廣闊的微笑表現出勝利的表情,通常<br> 與成功捕獲有關。<br>  - 他的統一性和舉起的手傳達了一種勝利感和偉大<br> 努力。<br><br>所有框架的背景都有廣告牌,表明“ T20世界<br> 杯子,“特別是“阿聯酋”的突出跡象,其中有<br> 大概贊助了活動。田野上有綠草,<br> 反映比賽期間的實際比賽條件。<br><br>總體而言,圖像說明了板球比賽中的關鍵時刻,展示了<br> 球員的運動技巧和團隊精神。<br>

從輸出來看,我們可以看到該模型能夠從T20世界杯中識別圖像,並且能夠區分同一圖像中的幀以解釋發生了什麼。

提示=“寫一個描述可能發生的整個事件的故事”

image_url =“ https://images.news18.com/ibnlive/uploads/2024/07/suryakumar-yadav-catch-catch-catch-catch-catch-1-2024-07-4a496281eb830a6fc76fc7ab41e92a2a0d295ed295ee-3x2.jpg”

消息= [

{

“角色”:“用戶”,

“ content”:[{{“ type”:“ text”,“ text”:stress},{“ type”:“ image_url”,“ image_url”:{“ url”:image_url}}]

},,

這是給出的

輸出= llm.Chat(消息,Sampling_Params = Sampling_Params)

print('\ n'輸出[0] .outputs [0] .TEXT)

輸出

處理提示:100%|██████████| 1/1 [00:06  輸入:401.77 Toks/s,輸出:52.92 Toks/s]<br>在一個熙熙t的體育場的中心,T20世界杯正在如火如荼地進行。這<br> 氣氛是電動的,人群在座位的邊緣,急切地<br> 觀看印度與他們強大的競爭對手之一之間的比賽。這<br> 重點轉移到印度野外球員,特別是Suryakumar Yadav,<br> 策略性位置在邊界線上。<br><br>當球從對方射擊後,球駛向空中<br> 擊球手Suryakumar的眼睛遵循其軌跡。具有古老的本能<br> 在無數小時的練習中,他知道這是他的時刻。這<br> 鮑爾高高,給了他足夠的時間來評估自己的道路和計劃<br> 他的下一步。<br><br>在第一個快照中,Suryakumar蹲在帽子上,眼睛固定在<br> 當它達到頂峰時。期待是明顯的。他的隊友看著<br> 希望他能夠完美地執行捕獲量。<br><br>第二張快照捕捉了純粹的運動能力的時刻。爆發<br> 能量和敏捷性,Suryakumar Springs採取了行動。他迅速迅速<br> 向前邁進,他的身體渴望達到製作所需的高度<br> 抓住。球略高於他的頭頂,他伸開手臂,手指<br> 擴展廣泛,準備獲得獎品。<br><br>在最後的快照中,Suryakumar的臉部成就點亮了。他的<br> 眼睛專注於球,現在安全地藏在他的手掌中。人群<br> 歡呼雀躍,承認傑出的努力。他的隊友<br> 沖向他,慶祝可能扭轉潮流的關鍵捕獲<br> 比賽。<br><br>這種成功的播放序列不僅突出了Suryakumar的個人<br> 技巧,但也強調了戰略團隊合作,並確定了精神<br> 在著名的T20世界杯上定義印度板球隊。<br>

當被要求寫一個有關圖像的故事時,該模型可以收集有關環境特徵以及框架中發生的事情的上下文。

結論

PixTral-12b模型顯著提高了Mistral的AI功能,將文本和圖像處理融合以擴展其用例。其處理高分辨率1024 x 1024圖像具有詳細了解空間關係及其強大語言功能的能力,使其成為多模式任務(例如圖像字幕,故事產生等)的絕佳工具。

儘管具有強大的功能,但該模型可以進一步調整以滿足特定需求,無論是改善圖像識別,增強語言的生成還是將其調整為更專業的領域。對於想要根據其用例定制模型的開發人員和研究人員來說,這種靈活性是一個至關重要的優勢。

Q1。什麼是vllm?

A. VLLM是一個優化的庫,可有效推斷大型語言模型,從而提高模型執行過程中的速度和內存使用情況。

Q2。 SamplingParams有什麼用?

答:VLLM中的SamplingParams控制模型如何生成文本,指定參數,例如文本生成的最大令牌和採樣技術。

Q3。該模型可以在Mistral的Le Chat上提供嗎?

答:是的,Mistral開發人員關係負責人Sophia Yang提到該模型將很快在Le Chat和Le Platform上提供。

以上是pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
在LLMS中調用工具在LLMS中調用工具Apr 14, 2025 am 11:28 AM

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

多動症遊戲,健康工具和AI聊天機器人如何改變全球健康多動症遊戲,健康工具和AI聊天機器人如何改變全球健康Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

沒有關於AI的投入:獲勝者,失敗者和機遇沒有關於AI的投入:獲勝者,失敗者和機遇Apr 14, 2025 am 11:25 AM

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

通過生成AI學習談判技巧通過生成AI學習談判技巧Apr 14, 2025 am 11:23 AM

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍Apr 14, 2025 am 11:22 AM

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茲(Joseph Stiglitz約瑟夫·斯蒂格利茲(Joseph StiglitzApr 14, 2025 am 11:21 AM

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

什麼是圖形數據庫?什麼是圖形數據庫?Apr 14, 2025 am 11:19 AM

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

LLM路由:策略,技術和Python實施LLM路由:策略,技術和Python實施Apr 14, 2025 am 11:14 AM

大型語言模型(LLM)路由:通過智​​能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境