ChatGPT的橫空出世,可能是2022年下半年最引人注目的AI突破,雖然可能不是技術含量最高的。
前不久,在新奧爾良舉行的2022 NeurIPS上,關於GPT-4的傳言不絕於耳,與此同時,OpenAI也成為全場新聞媒體的焦點。
OpenAI宣布了GPT-3系列AI大型語言模型中的一個新模型:text-davinci-003,這是其「GPT-3.5系列」的一部分,可以透過處理更複雜的指令和產生更高品質、更長形式的內容來改善效能。
新模型建立在InstructGPT的基礎上,使用具有人類回饋的強化學習,使語言模型與人類指令更好地保持一致。
達文西-003是一個真正的帶有人類回饋的強化學習(RLHF)模型,它在人類的演示和高分的模型樣本上使用監督微調來提高生成品質。 "
而作為「GPT-3.5系列」的另一部分,OpenAI發布了ChatGPT的早期演示,該公司宣稱,這個互動式的對話模型,不僅可以回答大量的後續問題,還會承認錯誤,對不正確的提問前提提出質疑,拒絕不適當的提問請求。
OpenAI在部落格中表示,ChatGPT的研究發布是「OpenAI迭代部署越來越安全和有用的AI系統的最新步驟。它吸取了從GPT-3和Codex等早期模型部署中的許多經驗教訓,在利用人類反饋的強化學習(RLHF)時,有害和不真實的輸出結果大幅減少。
另外,ChatGPT在訓練中強調,它是一個機器學習模型,這可能是出於避免前不久谷歌的聊天機器人LaMDA引發的「AI是否有意識」的爭議。
當然,ChatGPT也有限制。
在部落格文章中,OpenAI詳細介紹了它的局限性,包括有時答案聽起來似乎很有道理,但實際上是不正確或無意義的事實。
「解決這個問題是很有挑戰性的,因為(1) 在強化學習訓練期間,目前沒有保證一定有可靠的來源;(2 ) 訓練模型更加謹慎,會拒絕可能正確回答的問題;(3) 監督訓練可能誤導模型,因為理想的答案取決於模型知道什麼,而不是人類演示者知道什麼。」
Open AI表示,ChatGPT 「有時會對有害的指令做出反應或表現出有偏見的行為。我們正在使用API來警告或阻止某些類型的不安全內容,但預計目前會有一些錯誤的否定和肯定。我們非常願意收集用戶的回饋,幫助我們正在進行的工作,改善這個模型」。
雖然ChatGPT可能還有很多亟待改進的問題,但我們不可否認,在GPT-4登場前,ChatGPT仍然是目前大型語言模型的頂流。
不過,在最近的社群中,又有一個新的模式點燃了大家的討論熱情。最關鍵的是,它還是開源的。
本週, 負責對包括Meta的Make-A-Video在內的閉源AI系統進行逆向工程的開發人員Philip Wang發布了PaLM RLHF,這是一種文字生成模型,其行為類似於ChatGPT。
#程式碼位址:https://github.com/lucidrains/PaLM-rlhf-pytorch
該系統結合了Google的大型語言模型PaLM和強化學習與人類回饋(RLHF)技術,創建了一個幾乎可以完成ChatGPT任何任務的系統,包括起草電子郵件和建議電腦程式碼。
#自發布以來,ChatGPT因能夠產生高清晰度的類人文本,並能以對話方式對使用者問題做出回應,因此在科技界掀起了一場風暴。
這雖然是聊天機器人發展初期的重大進步,但人工智慧領域的許多擁躉對ChatGPT的封閉性表示擔憂。
時至今日,ChatGPT模型仍然是專有的,這意味著公眾無法查看其底層程式碼。只有OpenAI真正知道它的工作原理以及它處理的數據。這種缺乏透明度可能會產生深遠的影響,並可能長期影響使用者的信任。
許多開發人員一直渴望建立一個開源替代方案,現在,它終於到來了。 PaLM RLHF是專門為Python語言建構的,可以為PyTorch實作。
開發人員可以像訓練自回歸transformer一樣輕鬆訓練 PaLM,然後使用人類回饋訓練獎勵模型。
和ChatGPT一樣,PaLM RLHF本質上是一種預測單字的統計工具。當從訓練資料中輸入大量範例時——例如來自Reddit的貼文、新聞文章和電子書——PaLM RLHF會根據諸如周圍文字的語義上下文等模式,學習單字出現的可能性。
當然,理想和現實之間還存在著不小的差距。 PaLM RLHF看似完美,卻也有各種問題。其中最大的問題就是,人們現在還不能使用它。
要啟動PaLM RLHF,使用者需要編譯從部落格、社群媒體、新聞文章、電子書等各種來源取得的千兆位元組文字。
這些資料被提供給經過微調的PaLm模型,該模型將產生幾個回應。例如,如果詢問模型「經濟學的基礎知識是什麼」,PaLm會給出諸如「經濟學是研究…的社會科學」之類的答案。在
之後,開發者會請人對模型產生的答案從好到差進行排名,並建立一個獎勵模型。最後,排名用於訓練「獎勵模型」,該模型採用原始模型的回應並按偏好順序對它們進行排序,過濾出給定提示的最佳答案。
然而,這是一個昂貴的過程。收集訓練資料和訓練模型本身並不便宜。 PaLM有5400億個參數,也就是語言模型從訓練資料中學習到的部分。 2020年的一項研究表明,開發一個只有15億個參數的文本生成模型的費用高達160萬美元。
今年7月,為了訓練擁有1760億個參數的開源模型Bloom,Hugging Face的研究人員耗時三個月,使用了384個英偉達A100 GPU。每個A100的價格高達數千美元,這不是任何普通用戶所能負擔的成本。
此外,即使完成了模型的訓練,運行PaLM RLHF大小的模型也不是件易事。 Bloom配備了八個A100 GPU的專用PC,而OpenAI的文字產生GPT-3(約 1,750 億個參數)的運作成本約為每年87,000美元。
#AI研究人員Sebastian Raschka在一篇關於PaLM RLHF的文章中指出,擴大必要的開發工作流程也可能是一個挑戰。
「即使有人為你提供500個GPU來訓練這個模型,你仍然需要處理基礎設施並擁有可以處理的軟體框架,」他說。 「這雖然可行,但目前來看,需要付出很大的努力。」
高昂的費用和龐大的規模都表明,如果沒有資金雄厚的企業或個人不厭其煩地訓練模型,PaLM RLHF目前還沒有取代ChatGPT的能力。
到目前為止,沒有任何關於PaLM RLHF確切的發布日期。作為參照,Hugging Face訓練Bloom花了三個月的時間。相較之下,擁有5,400億參數的PaLM RLHF可能需要等待6-8 個月的時間才能誕生一個有意義的版本。
好消息是,到目前為止,我們有三個已知的玩家在開發這個開源版ChatGPT的替代方案:
CarperAI計畫與EleutherAI和新創公司Scale AI和Hugging Face合作,發布第一個可立即運行的、類似ChatGPT的AI模型,該模型經過人類回饋訓練。
程式碼位址:https://github.com/CarperAI/trlx
LAION是為Stable Diffusion提供初始資料集的非營利組織,它也率先開展了一個使用最新機器學習技術複製ChatGPT的專案。
程式碼位址:https://github.com/LAION-AI/Open-Assistant
LAION旨在打造一個「未來助理」,不僅能寫電子郵件和求職信,還能「做有意義的工作、使用API、動態研究資訊等」。它處於早期階段,但是幾週前,一個包含相關資源的專案已在GitHub上線。
而由油管網紅、AI研究人員Yannic Kilcher創建的GPT-4chan,更像是「出淤泥而全染」的嘴臭達人。
該模型中的「4chan」是一個美國線上匿名論壇,因網友身分皆為匿名,許多人便無所畏懼,發表各種政治不正確的言論。而Kilcher正式用4chan上的貼文對模型進行訓練,其結果可想而知。
與論壇總基調類似,GPT-4chan的回答充斥著種族歧視、性別歧視和反猶太主義。不僅如此,Kilcher還將其底層模型發佈到Hugging Face供他人下載。不過在許多AI研究人員的聲討下,官方很快就限制了網友對此模型的存取。
在我們期待更多開源語言模型出現的同時,現在我們能做的只有等待。當然,繼續免費使用ChatGPT 也是個好主意。
值得注意的是,在任何開源版本正式登場之前,OpenAI在開發方面仍遙遙領先。而2023年,GPT-4無疑是全世界AI愛好者翹首以盼的對象。
#無數AI大佬都對其做出了自己的預測,這些預測或好或壞,但就像OpenAI首席營運長Sam Altman所言:「通用人工智慧的建成會比大多數人想像得更快,並且它會改變大多數人想像中的一切。」
以上是2023年第一天,請查收ChatGPT的年終總結!的詳細內容。更多資訊請關注PHP中文網其他相關文章!