首頁 >科技週邊 >人工智慧 >OpenAI總裁:GPT-4並不完美但絕對與眾不同

OpenAI總裁:GPT-4並不完美但絕對與眾不同

WBOY
WBOY轉載
2023-04-10 16:11:031504瀏覽

OpenAI總裁:GPT-4並不完美但絕對與眾不同

3月16日消息,人工智慧研究公司OpenAI於昨日發布了備受期待的文本生成AI模型GPT-4。 OpenAI聯合創始人兼總裁格雷格·布羅克曼(Greg Brockman)在接受採訪時表示,GPT-4並不完美,但絕對與眾不同。

GPT-4在其前身GPT-3的基礎上,在許多關鍵方面進行了改進,例如提供了更多真實的陳述,並允許開發人員更容易控制其風格和行為。從某種意義上說,GPT-4也是多模式的,因為它可以理解圖像,並能為照片添加註釋,甚至詳細描述照片中的內容。

但GPT-4也有嚴重的缺陷。就像GPT-3一樣,該模型會產生「幻覺」(即模型聚合的文本與源文本無關或不夠準確),並會犯下基本的推理錯誤。 OpenAI在自己的部落格上舉了一個例子,GPT-4將“貓王”貓王(Elvis Presley)描述為“演員的兒子”,但實際上他的父母都不是演員。

當被要求將GPT-4與GPT-3進行比較時,布羅克曼只給了四個字回答:與眾不同。他解釋說:「GPT-4絕對與眾不同,儘管它還存在許多問題和錯誤。但你可以看到其在微積分或法律等學科技能方面的躍升。它在某些領域的表現曾經很糟糕,現在卻已經達到超越普通人的水準。」

測試結果支持了布羅克曼的觀點。在高考微積分考試中,GPT-4得4分(滿分5分),GPT-3得1分,介於GPT-3和GPT-4之間的GPT-3.5也得4分。在模擬律師考試中,GPT-4成績進入了前10%行列,而GPT-3.5的分數在後10%左右徘徊。

同時,GPT-4更受人關注的地方在於上述的多模式。與GPT-3和GPT-3.5不同,它們只能接受文字提示,例如可以要求“寫一篇關於長頸鹿的文章”,而GPT-4可以同時接受圖像和文字提示來執行某些操作,例如識別在塞倫蓋蒂拍攝的長頸鹿影像,並給予基本的內容描述。

這是因為GPT-4是針對圖像和文字資料進行培訓的,而它的前身只針對文字進行了培訓。 OpenAI表示,培訓數據來自“各種合法授權的、公開可用的數據來源,其中可能包括公開可用的個人資訊”,但當被要求提供細節時,布羅克曼表示拒絕。訓練資料以前也曾讓OpenAI陷入法律糾紛。

GPT-4的影像理解能力給人留下了相當深刻的印象。例如,輸入提示「這張圖片有什麼好笑的?GPT-4會將整張圖片分解,並正確地解釋了這個笑話的笑話。

目前,只有一個合作夥伴可以使用GPT- 4的影像分析功能,這是一款針對視障人士的輔助應用程序,名為Be My Eyes。布羅克曼說,在OpenAI評估風險和利弊的過程中,無論何時,更廣泛的推廣都將是「緩慢而有意的」。

他也稱:「有些政策問題也需要解決,例如臉部辨識和如何處理人的影像。我們需要找出危險區域在哪裡,紅線在哪裡,然後隨著時間的推移找到解決方案。 」

OpenAI在其文字到圖像轉換系統Dall-E 2上也遇到了類似倫理困境。在最初禁用該功能後,OpenAI允許客戶上傳人臉,以使用AI支援的圖像生成系統對其進行編輯。當時,OpenAI聲稱,其安全系統的升級使面部編輯功能成為可能,因為它將深度造假以及試圖創造色情、政治和暴力內容的潛在危害降至最低。

另一個長期問題是防止GPT-4在無意中被用於可能造成傷害的方式使用。該模型發布幾小時後,以色列網路安全新創公司Adversa AI發布了一篇部落格文章,演示了繞過OpenAI的內容過濾器並讓GPT-4生成釣魚電子郵件、對同性戀者的進攻性描述以及其他令人反感文本的方法。

這在語言模型領域並不是新問題。Facebook母公司Meta的聊天機器人BlenderBot和OpenAI的ChatGPT也曾被誘惑輸出不恰當的內容,甚至透露了它們內部工作的敏感細節。但包括記者在內的許多人曾希望,GPT-4可能會在這方面帶來重大改進。

當被問及GPT-4的健壯性時,布羅克曼強調,該模型已經經過了六個月的安全培訓。在內部測試中,它對OpenAI使用政策不允許的內容請求做出回應的可能性比GPT-3.5低82%,產生「事實」回應的可能性比GPT-3.5高40%。

布羅克曼說:「我們花了很多時間試圖了解GPT -4的能力。我們正在不斷更新,包括一系列改進,這樣模型就更具可擴展性,以適應人們希望它擁有的個性或模式。 ”

坦白說,早期的現實測試結果並不是那麼讓人滿意。除了Adversa AI測試之外,微軟的聊天機器人Bing Chat也被證明非常容易越獄。使用精心設計的輸入,使用者能夠讓該聊天機器人表達愛意,發出威脅傷害,為大屠殺辯護,並發明陰謀論。

布羅克曼並未否認GPT-4在這方面的不足,但他強調了該模型的新限制工具,包括被稱為「系統」訊息的API級功能。系統訊息本質上是為GPT-4的互動設定基調並建立界限的指令。例如,一個系統訊息可能是這樣寫的:「你是一位總是以蘇格拉底風格回答問題的導師。你永遠不會給學生答案,而是總是試著問正確的問題,幫助他們學會獨立思考。」

其思想是,系統訊息充當護欄,防止GPT-4偏離軌道。布羅克曼說:「真正弄清楚GPT-4的語氣、風格和實質一直是我們非常關注的問題。我認為我們開始更多地了解如何進行工程設計,如何擁有一個可重複的過程,讓你得到對人們真正有用的可預測結果。”

布羅克曼還提到了Evals,這是OpenAI最新的開源軟體框架,用於評估其AI模型的性能,這是OpenAI致力於“增強”其模型的標誌。 Evals允許使用者開發和運行評估模型(如GPT-4)的基準測試,同時檢查它們的性能,這是一種眾包的模型測試方法。

布羅克曼說:「有了Evals,我們可以更好地看到用戶關心的用例,並可以對其進行測試。我們之所以開源這個框架,部分原因是我們不再每每隔三個月發布一個新模型以不斷改進。你不會製造你不能測量的東西,對吧?但隨著我們推出新版模型,我們至少可以知道發生了哪些變化。」

#布羅克曼還被問道,OpenAI是否會補償人們用Evals測試它的模型?他不願就此做出承諾,但他確實指出,在有限的時間內,OpenAI允許提出申請的Eevals用戶提前訪問GPT-4 API。

布羅克曼也談到了GPT-4的上下文窗口,該窗口指的是模型在生成額外文本之前可以考慮的文本。 OpenAI正在測試一種版本的GPT-4,它可以「記住」大約50頁內容,是普通GPT-4「記憶體」的5倍,是GPT-3的8倍。

布羅克曼認為,擴展的上下文視窗會帶來新的、以前從未探索過的用例,特別是在企業中。他設想了一款為公司打造的AI聊天機器人,它可以利用來自不同來源(包括各部門員工)的背景和知識,以一種非常內行但具有對話性的方式回答問題。

這不是一個新概念。但布羅克曼認為,GPT-4的答案將比目前其他聊天機器人和搜尋引擎提供的答案有用得多。他說:「以前,模型根本不知道你是誰,你對什麼感興趣等。而擁有更大的上下文窗口肯定會讓它變得更強,從而大大增強它能為人們提供的支持。」(小小)

以上是OpenAI總裁:GPT-4並不完美但絕對與眾不同的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除