三年16篇一作，前Google研究科學家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

三年16篇一作，前Google研究科學家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5

王林

Feb 15, 2024 pm 06:45 PM

產業rekayi tay

該團隊的新模型在多個基準測試中都與 Gemini Pro 、GPT-3.5 相媲美。

如果你常讀 AI 大模型方向的論文，Yi Tay 想必是個熟悉的名字。作為前Google大腦高級研究科學家，Yi Tay 為許多知名的大型語言模型和多模態模型做出了貢獻，包括PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。

根據Yi Tay 個人資料統計，在Google大腦工作的3 年多的時間裡，他總共參與撰寫了大約45 篇論文，是其中16 篇的一作。一篇論文包括 UL2、U-PaLM、DSI、Synthesizer、Charformer 和 Long Range Arena 等。

三年16篇一作，前谷歌研究科学家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5

和大多數離開Google自主創業的Transformer 作者一樣，Yi Tay 在去年3 月宣布離開谷歌，並參與創辦了一家名為Reka 的公司，Yi Tay擔任該公司的首席科學家，主攻大型語言模式。

隨著時間的推移，剛剛，Yi Tay 宣布他們發布了新模型：

「很高興與大家分享Reka Flash，這是一個具有SOTA 性能的、全新的21B 多模態模型，該模型在語言和視覺基準方面可與Gemini Pro 和GPT 3.5 相媲美。我們用相對有限的資源從零開始訓練這個模型…同時，我們規模最大、功能最強的模型Reka-Core 也即將完成，大家可以對我們接下來的工作期待一下。」

Reka Flash：一個高效率的多模態語言模型

#Reka Flash 參數量為21B，完全從頭開始訓練，其效能可與更大規模的模型相媲美，在眾多語言和視覺基準測試中，Reka Flash 與Gemini Pro 和GPT-3.5 具有競爭力。

此外， Reka 團隊還提出了一個更緊湊的模型變體Reka Edge，該模型參數量更少，只有7B，並且效率更高，使其在資源受限（例如，在裝置上、本機）的場景下也能運作。

值得一提的是，這兩個模型都處於公開測試階段，有興趣的讀者可以前去嘗試。

試用網址：https://chat.reka.ai/auth/login

同時， Reka 團隊宣布他們最大、功能最強的Reka Core 模型將在未來幾週內向公眾推出。

至於開源問題，團隊表示還在考慮當中。

評估：語言

#評估基準包括MMLU（基於知識的問答）、 GSM8K（推理和數學）、HumanEval（程式碼產生）和GPQA（Google-proof graduate-level question answering）。

結果顯示，Reka Flash 在這些基準測試中取得了非常出色的成績：在MMLU 和GPQA 上優於Gemini Pro，在GSM8K 和HumanEval 上取得了具有競爭力的結果。此外，在這些評估中，Reka Flash 明顯優於許多較大的模型（例如 Llama 2 70B、Grok-1、GPT-3.5）。

評估：多語言推理

#Reka Flash 在超過32 種語言（包括英語，德語，中文，日語，法語，韓語，西班牙語，義大利語，阿拉伯語等）的文本上進行了預訓練，因此Reka Flash 可以看做是一個強大的多語言模型。研究者比較了不同模型在多語言基準上的表現，包括多語言常識推理、因果推理和問答。結果表明，Reka Flash 在所有這些任務上都優於 Llama-2 70B 和 Mixtral。

評估：視覺與影片

#此外，研究還在多模態基準上對Reka Flash 進行了評估，包括視覺問答（MMMU、VQA-v2）、視訊字幕（VATEX）和視訊問答（Perception Test）。結果顯示 Reka Flash 在所有四個基準測試中都比 Gemini Pro 具有競爭力。

該研究也進行了一系列人工評估來評估基於 Reka Flash 的聊天模型。研究者考慮了兩種設置，1）純文字聊天模型和 2）多模態聊天模型。評估過程中他們按照 Askell 等人的方法計算 ELO 分數和總體勝率。

純文字聊天：研究者以 GPT-4、Claude 2.1 和 Gemini Pro（API 版本）等領先模型為基準。此外研究者也比較了 Reka Edge、Mistral 7B 和 Llama 2 7B 聊天模型的效能。

手動評估結果表明，Reka Flash 取得了具有競爭力的結果，優於 GPT-3.5 Turbo、Claude、Mixtral 和 Gemini Pro。 Reka Edge 領先另外兩款 7B 車型，接近 Claude Instant 1.2 的效能。

評估：多模態

#該研究也將Reka Flash 與GPT4- V、Gemini Pro、Llava-1.6、IDEFICS 80b 和Adept Fuyu-8B 等多模態語言模型進行了比較。結果表明，Reka Flash 的性能優於除 GPT4-V 之外的所有模型。 Reka Edge 也取得了不錯的排名，超越了基於 Mistral 7B 的 Llava 1.6 7B，並接近 Gemini Pro 的性能。

7B 參數的Reka Edge 模型

Reka Edge 是更緊湊的7B模型，專為本地部署和延遲敏感應用程式而設計。在語言評估任務上，該研究報告了其與類似規模模型（即 Mistral 7B 和 Llama-2 7B）的比較。結果表明，Reka Edge 在標準語言基準測試中優於 Llama 2 7B 和 Mistral 7B。

總結

#Reka 團隊表示他們旨在建立最先進的多模態語言模型，隨著Reka Flash 和Reka Edge 的發布，他們AI 藍圖中的最初里程碑已經實現。大家可以期待他們接下來的研究。

^{參考連結：https://reka.ai/reka-flash-an-efficient-and-capable-multimodal-language-model/}

以上是三年16篇一作，前Google研究科學家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

閱讀AI索引2025：AI是您的朋友，敵人還是副駕駛？Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它：認知（了解正在發生的事情）、欣賞（看到好處）、接納（面對挑戰）和責任（弄清我們的責任）。認知：人工智能無處不在，並且發展迅速我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進，在數學和復雜思維測試中取得了優異的成績，而就在一年前，它們還在這些測試中慘敗。想像一下，人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年