首頁  >  文章  >  科技週邊  >  李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

青灯夜游
青灯夜游轉載
2023-03-31 22:39:55796瀏覽

在標準化測試和其他基準測試中,GPT-4比之前的模型表現得更優異,可以跨數十種語言工作,還可以將圖像作為輸入對象,這意味著它能夠在聊天上下文中理解照片或圖表的意圖和邏輯。

自微軟3月初發布多模態模型 Kosmos-1 以來,一直在測試和調整 OpenAI 的多模態模型,並將其更能相容於微軟自有產品。

果不其然,趁著GPT-4發布之際,微軟也正式攤牌,New Bing早就已經用GPT-4了。

李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

ChatGPT用的語言模型是GPT-3.5,在談到GPT-4比前一個版本強大在哪裡時,OpenAI稱,雖然這兩個版本在隨意的談話中看起來很相似,但「當任務的複雜性達到足夠的閾值時,差異就會出現」,GPT-4更可靠、更有創意,並且能夠處理更細微的指令。

王者加冕?關於GPT-4的八點觀察

1. 再度驚艷,強過人類

如果說GPT-3系列模型向大家證明了AI能夠在一個模型裡做多個任務,指明實現AGI的路徑,GPT-4在許多任務上已經達到人類水準(human-level),甚至比人類表現更好。 GPT-4在許多專業的學術考試上已經超越90%的人類,例如在模擬律師考試中,分數在應試者的前10%左右。對此,各類中小學、大學及專業教育該如何因應?

2. “科學”煉丹

雖然OpenAI此次並未公佈具體參數,但可以猜到GPT-4模型一定不小,模型太多就意味著高額訓練成本。同時,訓練模型也很像「煉丹」,需要做很多實驗,如果這些實驗都是在真實環境下去訓練,高昂成本壓力不是誰都能承受的。

為此,OpenAI別出心裁搞了一個所謂的「predictable scaling」,簡言之就是用萬分之一的成本來預測各個實驗的結果(loss和human eval)。如此一來,就把原本大模型「碰運氣」的煉丹訓練升級為「半科學」的煉丹。

3. 眾包評測,一舉雙得

這次非常「取巧」地提供了一個open source的OpenAI Evals,用眾包方式開放給各位開發者或愛好者,邀請大家使用Evals來測試模型,同時籠絡開發者生態。這一方式,既讓大家有參與感,又能讓大家免費幫忙評估提高系統,OpenAI直接獲得問題和回饋,一舉兩得。

李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

4. 工程補漏

這次也發布了一個System Card,是一個開放的「打補丁」工具,可以發現漏洞減少語言模型的「胡說八道」問題。系統打了各種各樣的補丁做預處理和後處理,後面還會開放程式碼把打補丁能力眾包給大家,OpenAI未來或許可以讓大家幫它一起做。這標誌著LLM終於從一個優雅簡單的next token prediction任務進入了各種messy的工程hack了。

5. 多模態

自上周德國微軟透露GPT-4是多模態後,大眾可謂萬眾期待。

GPT-4千呼萬喚始出來,被譽為「堪比人腦」的多模態其實跟目前很多論文闡述的多模態能力並無太多差別,主要區別就是把文字模型的few-shot和邏輯鏈(COT)結合進來,這裡有個前提是需要一個基礎能力很好的文字LLM再加多模態,會產生不錯的效果。

李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

6. 有計畫地放出「王炸」

依照OpenAI示範GPT-4的demo影片裡的說法, GPT-4 早在去年8月就已完成訓練,但今天才發布,剩下的時間都在進行大量測試和各種查漏補缺,以及最重要的去除危險內容生成的工作。

當大家還沉浸在ChatGPT驚人的生成能力之時,OpenAI已經搞定GPT-4,這波谷歌工程師估計又要熬夜追趕了?

7. OpenAI不再Open

OpenAI在公開的論文裡完全沒有提及任何模型參數和資料規模(網傳GPT-4參數已達100兆),也沒有任何技術原理,對此解釋說是為了普惠大眾,怕大家學會了怎麼做GPT-4之後會用來做惡,觸發一些不可控的事情發生,個人完全不認同這種此地無銀的做法。

8. 集中力量辦大事

#

論文除了各種「炫技」,還特別用了三頁把所有為GPT-4不同系統有貢獻人員都列出來,粗略估計應該已經超過百人,再次體現OpenAI內部團隊成員眾志成城、高度協作的狀態。以此對比其他幾家的團隊作戰能力,在眾志成城這方面是不是差得有點遠?

目前多模態大模型已經成為整個AI大模型發展的趨勢和重要方向,而在這場大模型AI「軍備競賽」中,Google、微軟、DeepMind等科技巨頭都積極推出多模態大模型(MLLM)或大模型(LLM)。

開啟新一輪軍備競賽:多模態大模型

李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

#微軟:Kosmos-1

微軟在3月初發布擁有16億參數的多模態模型Kosmos-1,網路結構是基於Transformer 的因果語言模型。其中,Transformer 解碼器用作多模態輸入的通用介面。

除了各種自然語言任務,Kosmos-1 模型能夠原生處理廣泛的感知密集型任務,如視覺對話、視覺解釋、視覺問答、圖像字幕、簡單的數學方程式、OCR 和帶描述的零樣本影像分類。

李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始

Google:PaLM-E

3月初,Google和柏林工業大學的研究團隊推出目前最大的視覺語言模式— —PaLM-E,參數量高達5,620億(PaLM-540B ViT-22B)。

PaLM-E是一個僅有解碼器的大模型,在給定前綴(prefix)或提示(prompt)下,能夠以自回歸方式產生文字補全。模型透過加一個編碼器,模型可以將圖像或感知資料編碼為一系列與語言標記大小相同的向量,將此作為輸入用於下一個token預測,進行端到端訓練。

DeepMind:Flamingo

DeepMind在去年4月推出Flamingo視覺語言模型,模型將圖像、視訊和文字作為提示(prompt),輸出相關語言,只需要少量的特定例子既能解決許多問題,無需額外訓練。

透過交叉輸入圖片(影片)和文字的方式訓練模型,使模型具有few-shot 的多模態序列推理能力,完成「文字描述補全、VQA / Text-VQA」等多種任務。

目前,多模態大模型已顯示更多應用可能性,除了相對成熟的文生圖外,人機互動、機器人控制、圖片搜尋、語音生成等大量應用逐一出現。

綜合來看,GPT-4不會是AGI,但多模態大模型已經是一個清晰且確定的發展方向。建立統一的、跨場景、多任務的多模態基礎模型會成為人工智慧發展的主流趨勢之一。

雨果說「科學到了最後階段,便遇上了想像」,多模態大模型的未來或許正超越人類的想像。

以上是李志飛:關於GPT-4的八點觀察,多模態大模型競賽開始的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除