搜尋
首頁科技週邊人工智慧李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

在標準化測試和其他基準測試中,GPT-4比之前的模型表現得更優異,可以跨數十種語言工作,還可以將圖像作為輸入對象,這意味著它能夠在聊天上下文中理解照片或圖表的意圖和邏輯。

自微軟3月初發布多模態模型 Kosmos-1 以來,一直在測試和調整 OpenAI 的多模態模型,並將其更能相容於微軟自有產品。

果不其然,趁著GPT-4發布之際,微軟也正式攤牌,New Bing早就已經用GPT-4了。

李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

ChatGPT用的語言模型是GPT-3.5,在談到GPT-4比前一個版本強大在哪裡時,OpenAI稱,雖然這兩個版本在隨意的談話中看起來很相似,但「當任務的複雜性達到足夠的閾值時,差異就會出現」,GPT-4更可靠、更有創意,並且能夠處理更細微的指令。

王者加冕?關於GPT-4的八點觀察

1. 再度驚艷,強過人類

如果說GPT-3系列模型向大家證明了AI能夠在一個模型裡做多個任務,指明實現AGI的路徑,GPT-4在許多任務上已經達到人類水準(human-level),甚至比人類表現更好。 GPT-4在許多專業的學術考試上已經超越90%的人類,例如在模擬律師考試中,分數在應試者的前10%左右。對此,各類中小學、大學及專業教育該如何因應?

2. “科學”煉丹

雖然OpenAI此次並未公佈具體參數,但可以猜到GPT-4模型一定不小,模型太多就意味著高額訓練成本。同時,訓練模型也很像「煉丹」,需要做很多實驗,如果這些實驗都是在真實環境下去訓練,高昂成本壓力不是誰都能承受的。

為此,OpenAI別出心裁搞了一個所謂的「predictable scaling」,簡言之就是用萬分之一的成本來預測各個實驗的結果(loss和human eval)。如此一來,就把原本大模型「碰運氣」的煉丹訓練升級為「半科學」的煉丹。

3. 眾包評測,一舉雙得

這次非常「取巧」地提供了一個open source的OpenAI Evals,用眾包方式開放給各位開發者或愛好者,邀請大家使用Evals來測試模型,同時籠絡開發者生態。這一方式,既讓大家有參與感,又能讓大家免費幫忙評估提高系統,OpenAI直接獲得問題和回饋,一舉兩得。

李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

4. 工程補漏

這次也發布了一個System Card,是一個開放的「打補丁」工具,可以發現漏洞減少語言模型的「胡說八道」問題。系統打了各種各樣的補丁做預處理和後處理,後面還會開放程式碼把打補丁能力眾包給大家,OpenAI未來或許可以讓大家幫它一起做。這標誌著LLM終於從一個優雅簡單的next token prediction任務進入了各種messy的工程hack了。

5. 多模態

自上周德國微軟透露GPT-4是多模態後,大眾可謂萬眾期待。

GPT-4千呼萬喚始出來,被譽為「堪比人腦」的多模態其實跟目前很多論文闡述的多模態能力並無太多差別,主要區別就是把文字模型的few-shot和邏輯鏈(COT)結合進來,這裡有個前提是需要一個基礎能力很好的文字LLM再加多模態,會產生不錯的效果。

李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

6. 有計畫地放出「王炸」

依照OpenAI示範GPT-4的demo影片裡的說法, GPT-4 早在去年8月就已完成訓練,但今天才發布,剩下的時間都在進行大量測試和各種查漏補缺,以及最重要的去除危險內容生成的工作。

當大家還沉浸在ChatGPT驚人的生成能力之時,OpenAI已經搞定GPT-4,這波谷歌工程師估計又要熬夜追趕了?

7. OpenAI不再Open

OpenAI在公開的論文裡完全沒有提及任何模型參數和資料規模(網傳GPT-4參數已達100兆),也沒有任何技術原理,對此解釋說是為了普惠大眾,怕大家學會了怎麼做GPT-4之後會用來做惡,觸發一些不可控的事情發生,個人完全不認同這種此地無銀的做法。

8. 集中力量辦大事

#

論文除了各種「炫技」,還特別用了三頁把所有為GPT-4不同系統有貢獻人員都列出來,粗略估計應該已經超過百人,再次體現OpenAI內部團隊成員眾志成城、高度協作的狀態。以此對比其他幾家的團隊作戰能力,在眾志成城這方面是不是差得有點遠?

目前多模態大模型已經成為整個AI大模型發展的趨勢和重要方向,而在這場大模型AI「軍備競賽」中,Google、微軟、DeepMind等科技巨頭都積極推出多模態大模型(MLLM)或大模型(LLM)。

開啟新一輪軍備競賽:多模態大模型

李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

#微軟:Kosmos-1

微軟在3月初發布擁有16億參數的多模態模型Kosmos-1,網路結構是基於Transformer 的因果語言模型。其中,Transformer 解碼器用作多模態輸入的通用介面。

除了各種自然語言任務,Kosmos-1 模型能夠原生處理廣泛的感知密集型任務,如視覺對話、視覺解釋、視覺問答、圖像字幕、簡單的數學方程式、OCR 和帶描述的零樣本影像分類。

李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

Google:PaLM-E

3月初,Google和柏林工業大學的研究團隊推出目前最大的視覺語言模式— —PaLM-E,參數量高達5,620億(PaLM-540B ViT-22B)。

PaLM-E是一個僅有解碼器的大模型,在給定前綴(prefix)或提示(prompt)下,能夠以自回歸方式產生文字補全。模型透過加一個編碼器,模型可以將圖像或感知資料編碼為一系列與語言標記大小相同的向量,將此作為輸入用於下一個token預測,進行端到端訓練。

DeepMind:Flamingo

DeepMind在去年4月推出Flamingo視覺語言模型,模型將圖像、視訊和文字作為提示(prompt),輸出相關語言,只需要少量的特定例子既能解決許多問題,無需額外訓練。

透過交叉輸入圖片(影片)和文字的方式訓練模型,使模型具有few-shot 的多模態序列推理能力,完成「文字描述補全、VQA / Text-VQA」等多種任務。

目前,多模態大模型已顯示更多應用可能性,除了相對成熟的文生圖外,人機互動、機器人控制、圖片搜尋、語音生成等大量應用逐一出現。

綜合來看,GPT-4不會是AGI,但多模態大模型已經是一個清晰且確定的發展方向。建立統一的、跨場景、多任務的多模態基礎模型會成為人工智慧發展的主流趨勢之一。

雨果說「科學到了最後階段,便遇上了想像」,多模態大模型的未來或許正超越人類的想像。

以上是李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51cto。如有侵權,請聯絡admin@php.cn刪除
多動症遊戲,健康工具和AI聊天機器人如何改變全球健康多動症遊戲,健康工具和AI聊天機器人如何改變全球健康Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

沒有關於AI的投入:獲勝者,失敗者和機遇沒有關於AI的投入:獲勝者,失敗者和機遇Apr 14, 2025 am 11:25 AM

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

通過生成AI學習談判技巧通過生成AI學習談判技巧Apr 14, 2025 am 11:23 AM

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍Apr 14, 2025 am 11:22 AM

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茲(Joseph Stiglitz約瑟夫·斯蒂格利茲(Joseph StiglitzApr 14, 2025 am 11:21 AM

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

什麼是圖形數據庫?什麼是圖形數據庫?Apr 14, 2025 am 11:19 AM

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

LLM路由:策略,技術和Python實施LLM路由:策略,技術和Python實施Apr 14, 2025 am 11:14 AM

大型語言模型(LLM)路由:通過智​​能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色

更新授權以維護能源網格更新授權以維護能源網格Apr 14, 2025 am 11:13 AM

三個主要地區構成了美國的能源電網:德克薩斯州的互連繫統,西部的互連,跨越了太平洋到落基山的國家,而東部相互聯繫則為山區以東。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境