Openai的最新產品GPT-4O Mini標誌著朝著負擔得起且可訪問的高級AI邁出的重要一步。這個小型語言模型(SLM)直接挑戰諸如Llama 3和Gemma 2之類的競爭對手,具有低潛伏期,成本效益和大量128K令牌上下文窗口。本文深入研究了對GPT-4O Mini的全面評估,將其性能與其前任GPT-3.5 Turbo和GPT-4O進行了一系列任務。
關鍵功能
- 具有成本效益和快速的: GPT-4O MINI優先考慮效率,以比較大型號低得多的成本提供接近實時的響應。
- 多模式潛力:當前支持文本和圖像輸入時,未來的計劃包括音頻和視頻集成。
- 出色的基準性能: GPT-4O MINI在推理,數學和編碼基準測試中表現出卓越的性能,超過了其前任和競爭對手。
- 廣泛的可用性:可通過OpenAI的API(助手,聊天完成和批處理API)訪問,使開發人員很容易獲得高級AI功能。
目錄
- 探索GPT-4O MINI的功能
- 性能基準和比較
- 定價和可用性
- 比較任務分析
- 設置和代碼示例
- 任務1:零射門分類
- 任務2:很少分類
- 任務3:Python編碼
- 任務4:SQL編碼
- 任務5:信息提取
- 任務6:封閉域問題回答
- 任務7:開放域問題回答
- 任務8:文檔摘要
- 任務9:內容轉換
- 任務10:語言翻譯
- 結論
探索GPT-4O MINI的功能
Openai對負擔能力的關注在GPT-4O Mini的設計中很明顯。其低成本和延遲有助於生成AI應用的快速發展。 “大上下文”窗口可以處理廣泛的文本數據,從而快速響應和API調用的有效並行化。
像GPT-4O一樣,GPT-4O MINI是多模式的,目前正在處理文本和圖像,並提供了對音頻和視頻的未來支持。截至2023年10月,經過培訓,它擁有128K令牌輸入上下文窗口和每個請求的16K令牌輸出限制。與GPT-4O共享同樣的令牌,它為非英語提示提供了改進的性能。
性能基準和比較
對各種LLM的嚴格測試,包括雙子座,克勞德,GPT-3.5 Turbo和GPT-4O,揭示了GPT-4O Mini的出色性能。
關鍵基準測試結果突出了GPT-4O Mini的優勢:
- 推理: MMLU的得分為82.0%,超過雙子座閃光燈(77.9%)和Claude Haiku(73.8%)。
- 數學:在MGSM上獲得87.0%的成績,超過雙子座閃光燈(75.5%)和Claude Haiku(71.7%)。
- 編碼:人類事件的分數為87.2%,優於Gemini Flash(71.5%)和Claude Haiku(75.9%)。
- 多模式推理: MMMU的出色表現,得分為59.4%,而Gemini Flash的得分為56.1%,Claude Haiku為50.2%。
通過人工分析的獨立分析進一步驗證了GPT-4O MINI的速度和成本優勢。
GPT-4O MINI在功能和工具調用方面也很出色,使其適合複雜的AI代理開發。它提高了長篇下說的性能和提取結構化數據並產生高質量電子郵件響應的能力是顯著的優勢。
定價和可用性
GPT-4O Mini可以通過OpenAI的助手,聊天完成和批處理API來獲得。定價具有很高的競爭力:\ $ 0.15每100萬輸入令牌和每100萬輸出令牌\ $ 0.60。預計還可以通過ChatGpt(免費,加上和團隊計劃)訪問。
(剩餘的響應將繼續對每個任務進行詳細分析,反映了原始輸入的結構和內容,但是通過略有釋義和句子進行了重組,以達到所需的釋義水平。這些圖像將保持不變並且以其原始形式。)。
以上是GPT-4O MINI:OpenAI的最新模型如何堆疊?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

自2008年以來,我一直倡導這輛共享乘車麵包車,即後來被稱為“ Robotjitney”,後來是“ Vansit”,這是城市運輸的未來。 我預見這些車輛是21世紀的下一代過境解決方案Surpas

革新結帳體驗 Sam's Club的創新性“ Just Go”系統建立在其現有的AI驅動“掃描和GO”技術的基礎上,使會員可以在購物旅行期間通過Sam's Club應用程序進行掃描。

NVIDIA在GTC 2025上的增強可預測性和新產品陣容 NVIDIA是AI基礎架構的關鍵參與者,正在專注於提高其客戶的可預測性。 這涉及一致的產品交付,達到績效期望以及

Google的Gemma 2:強大,高效的語言模型 Google的Gemma語言模型家族以效率和性能而慶祝,隨著Gemma 2的到來而擴展。此最新版本包括兩種模型:270億個參數VER

這一領先的數據劇集以數據科學家,天體物理學家和TEDX演講者Kirk Borne博士為特色。 Borne博士是大數據,AI和機器學習的著名專家,為當前狀態和未來的Traje提供了寶貴的見解

這次演講中出現了一些非常有見地的觀點——關於工程學的背景信息,這些信息向我們展示了為什麼人工智能如此擅長支持人們的體育鍛煉。 我將從每位貢獻者的觀點中概括出一個核心思想,以展示三個設計方面,這些方面是我們探索人工智能在體育運動中應用的重要組成部分。 邊緣設備和原始個人數據 關於人工智能的這個想法實際上包含兩個組成部分——一個與我們放置大型語言模型的位置有關,另一個與我們人類語言和我們的生命體徵在實時測量時“表達”的語言之間的差異有關。 Alexander Amini 對跑步和網球都很了解,但他還

卡特彼勒(Caterpillar)的首席信息官兼高級副總裁傑米·恩格斯特(Jamie Engstrom)領導了一支由28個國家 /地區的2200多名IT專業人員組成的全球團隊。 在卡特彼勒(Caterpillar)工作了26年,其中包括她目前的四年半,Engst

Google Photos的新Ultra HDR工具:快速指南 使用Google Photos的新型Ultra HDR工具增強照片,將標準圖像轉換為充滿活力的高動態範圍傑作。對於社交媒體而言,此工具可提高任何照片的影響,


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SublimeText3 Linux新版
SublimeText3 Linux最新版

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

禪工作室 13.0.1
強大的PHP整合開發環境

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。