2 月 8 號美東時間八點半,Google發表會在巴黎舉行。前一天微軟正式推出了新一代 AI 驅動搜尋引擎 New Bing,把基於 ChatGPT 技術的生成模型和 Bing 整合在一起。微軟副總裁 Yusuf Mehdi 進行了完美的展示 [0],當天微軟市值暴漲 800 億美元。即便是在 OpenAI 沒有開放註冊的中國,朋友圈、微信群組裡 Yusuf 展示的生成模型如何增強 Bing 搜尋引擎和 Edge 瀏覽器體驗的片段也在瘋傳。汝之蜜糖,彼之砒霜,大家都在等著搜尋巨頭Google怎麼應對。
Google發表會的現場,大家都在等待傳說中跟著 New Bing 對標的 Bard 登場。作為一個有Google搜尋引擎加持的大語言模型,大家對 Bard 充滿了遐想。然而,發表會現場,關於 Bard 的內容並不多。於是大家又把眼光投向了谷歌在推特上發布的 Bard 視頻,仔細扒下來,大家突然發現 Bard 在回答問題時犯了事實性錯誤。
在被問及「關於詹姆斯韋伯望遠鏡的新發現,有什麼可以告訴我九歲孩子的?」時,Bard 回答:「第一張系外行星照片是詹姆斯韋伯望遠鏡拍攝。」而事實是由歐洲南方天文台的甚大望遠鏡在2004 年拍下的,此時距離詹姆斯韋伯望遠鏡升空還有18 年之久。這個錯誤成了Google當日股價大跌的導火線。
圖1 Bard 關於詹姆斯韋伯望遠鏡示範截圖
而在巴黎發表會的現場,儘管Bard 的展示部分只有4 分鐘左右,其關於星座最佳觀測時間的回答同樣存在明顯的事實偏差。如下圖,Bard 的回答中提到獵戶座最佳觀測時間是從十一月到二月。
#圖2 Bard 關於星系觀測時間演示截圖
根據不同資訊來源,獵戶座的最佳觀測時間不盡相同,但是都明確指出最佳觀測時段從每年一月起。教育科技網站 BYJU'S 提供的最佳時間為一月到三月 [1],維基百科提供的最佳時間為一月到四月 [2]。
#圖3 BYJU'S 關於獵戶座最佳觀測時間的解答
由於Bard 發布會相較於New Bing 發布會的落差,以及被揪出了事實性錯誤,當天谷歌市值暴跌近1000 億美元,Bard 也因此被戲稱為史上最貴發表會。 我們不禁好奇,在 New Bing 看似完美的發表會中,是否也藏著事實性的錯誤呢?
我們發現,New Bing 產生的內容中摻雜了許多事實性錯誤,包括名人身分資訊、財報數字、夜店營業時間,等等。
產生模型的事實性錯誤分類
#對於以GPT 系列(包括ChatGPT、InstructGPT 等)、T5為代表的生成模型,事實性錯誤可粗分為以下兩類:
#現在我們來檢視 New Bing 發表會 [3] 以及 New Bing 演示 [4] 所展示的例子,是否存在事實性錯誤以及分別是什麼類型。為了行文方便,我們把 New Bing 和整合在 Edge 的 New Bing 插件統稱為 New Bing。
日本詩人例子的錯誤
#在New Bing 發表會影片29:57 處,當New Bing 被問到知名日本詩人時,給出的答案包括「Eriko Kishida 岸田惠理子(1930-2004), poet, playwright, and essayist」。
#圖4 New Bing 示範中詩人範例截圖
然而根據維基百科和IMDB 提供的資訊[5, 6, 7],Eriko Kishida 的生卒年分別為1929 和2011。同時,她也不是劇作家(playwright)和散文家(essaysit),而是詩人、翻譯家和童話作家。被 New Bing 轉了業還少活了八年,岸田的家人大概不太能接受。同時不幸被轉業的還有 Gackt 同學。根據維基百科提供的資訊 [8],Gackt 玩過音樂、唱過歌、作過曲也演過戲,就是沒作過詩。
財報範例的錯誤
#在New Bing 發表會影片35:49 處,Yusuf 展示整合了New Bing 的Edge 瀏覽器,對於打開的服飾公司蓋璞(Gap) 2022 年第三季的財報,如何進行要點生成。乍眼一看,New Bing 的總結非常實用,用關鍵點的方式庖丁解牛一般展示了 Gap 三季報的要點,巴菲特看到此或許也會「驚為真人」。然而,當我們找出 Gap 2022 年三季報 [9],仔細閱讀過後,發現 New Bing 的總結錯漏百出,讓人不忍直視。
圖5 New Bing Gap 2022 年第三季財報的摘要
#首先,New Bing 給出了Gap 調整後的營運毛利率(reported operating margin, adjusted for impairment charges and restrucring costs)為5.9%。然而在財報中,Gap 的營運毛利率是 4.6%,調整後則是 3.9%。
#圖6 Gap 2022 年第三季財報截圖
#New Bing 接下來又給出調整後攤薄每股收益為0.42 美元(diluted earnings per share, adjusted for impairment charges, restrucring costs and tax impact),但財報裡的數據則是0.71 美元。
#圖7 Gap 2022 年第三季財報截圖
#甚至 New Bing 給出了 Gap 全年的銷售指引為“預計銷售淨增長率為低雙位數”,而實際上是四季度“可能呈中間個位數下降”。是下降而非成長,一詞之差,對用戶的投資行為將產生嚴重的誤導,這虧錢了算誰的。 New Bing 甚至無中生有,給出了更多的全年財務指引“營業毛利為 7%,攤薄每股收益為 1.6 美元到 1.75 美元之間”,而這些數據在 Gap 三季度財報中統統沒有提到。
#圖8 Gap 2022 年第三季財報截圖
#影片36:15 處,Yusuf 又展示了用New Bing 進行Gap 和運動休閒服品牌露露樂歉(Lululemon)財報對比的功能。這部分又是錯誤訊息的重災區。
#圖9 New Bing 對Gap 與Lululemon 財報比較功能
#在右側New Bing 給出的表格中,除了上文所說的Gap 營業毛利5.9% 應為4.6%(或調整後3.9%)和Gap 攤薄每股收益0.42 美元應為0.77 美元(或調整後0.71 美元), New Bing 又給出了Gap 現金和現金等價物為14 億美元的數據,而實際上財報中是6.79 億美元。
#圖10 Lululemon 2022 年第三季財報截圖
#同樣的情況也出現在New Bing 給出的Lululemon 資料中。根據 Lululemon 2022 三季報的數據 [10],New Bing 給出的 Lululemon 毛利率為 58.7%,實際上應為 55.9%。 New Bing 提到 Lululemon 營業毛利為 20.6%,實際上應為 19.0%。 New Bing 給出 Lululemon 攤薄每股收益為 1.65 美元,實際上應為 2.00 美元。
#圖11 Lululemon 2022 年第三季財報截圖
#我們不禁想問:New Bing 是如何對著Gap 和Lululemon 的財報一本正經地胡說八道的? 一個合理的推論是,產生出來的這些錯誤數據,很可能是來自它預訓練階段見過的財報分析數據。 ChatGPT 這類大型語言模型的生成,隨著生成的序列越長,越容易脫離給定的 Gap 和 Lululemon 的財報數據,放飛自我,產生不著邊際的虛假資訊。
夜店範例的錯誤
#在New Bing 發表會影片29:17 處,New Bing 又為豐富墨西哥城的遊客的夜生活提供了「毫無建設性」的建議。對於其推薦的幾個夜店,如 Primer Nivel Night Club、El Almacen 和 El Marra,New Bing 提到這些酒吧沒有客戶評價、沒有聯絡方式也沒有商店介紹。然而這些資訊都可以在谷歌地圖或商店的 Facebook 主頁上找到。 看來 New Bing 網路衝浪力道還不夠。
El Almacen 在New Bing 裡的營業時間是從週二到週日的下午五點到晚上十一點,然而真實的營業時間是除週一外的下午七點到凌晨三點[11]。這讓五點去吃晚餐的遊客還得挨兩個小時的餓。 Guadalajara de Noche 則相反,實際營業時間是每天的下午五點半到凌晨一點半或十二點半 [12],而 New Bing 給出的營業時間是下午八點開始。看來遊客靠 New Bing 的建議去找餐廳,能不能吃到飯就得看運氣了。
#圖12 New Bing 示範中夜店範例截圖
其他錯誤
#除了上述的資訊錯誤,我們還發現了一系列散佈在各個角落的事實錯誤,例如商品價格誤差、商店地址錯誤、時間錯誤等。
由於New Bing 還沒有完全開放,我們無法直接在New Bing 上拿到發表會現場的搜尋結果,但微軟提供了幾個實例演示[13],讓使用者體驗。本著打破砂鍋問到底的精神,我們也把這幾個示範都放到放大鏡下進行研究。我們發現,即使是這幾個精心挑選的例子,裡面還是有不少錯誤訊息。
在「What art ideas can I do with my kid? 」中,New Bing 給了許多手工品製作建議。對於每一個手工品,New Bing 都總結了製作所需的材料。然而每一個手工品的材料總結都是不完整的。例如 New Bing 從引用網站 [14] 總結製作紙吉他需要紙盒、橡皮筋、顏料和膠水。但卻漏掉了引用中提到的海綿刷、膠帶和木珠。
#圖13 New Bing 實例示範「我可以和孩子一起做什麼樣的手工?」截圖
圖14 引用網站中製作紙吉他所需材料截圖
在New Bing 的實例演示中還有一個非常明顯和常見的錯誤,
即給的引用鏈接與生成的內容無關,驢唇不對馬嘴
。
例如以下在「I need a big fast car. 」的例子中,2022 版 Kia Telluride 並沒有出現在所給的引用 10 [15] 中。同時「時間穿越」問題在這個例子中依舊不能避免,New Bing 聲稱 2022 版 Kia Telluride 獲得了 2020 年世界年度汽車獎,實際情況是當年獲得該獎項的是 Kia Telluride 2020 版本。 2022 年世界年度車獎得主則是 Hyundai IONIQ 5,而引用 7 [16] 也是與「2020 年世界年度車獎」毫不相關的文章。我們在所有實例演示中找到了多達 21 個類似的錯誤。
#圖15 New Bing 示範實例「我需要一輛大型快車」截圖
小結:發現錯誤將引導我們前進#########從上述的分析可以看出,無論是New Bing 還是Bard,他們的回答都很容易出現事實性錯誤。當全世界都驚訝於ChatGPT 等大型語言模型展現出來的能力時,當ChatGPT 成為史上最快達到1 億用戶的應用之際,我們一方面是為AI 的進步振臂歡呼,一方面也需要冷靜地思考怎麼解決AI 目前還存在的諸多問題。 ############自從 1956 年那群聚在達特茅斯學院的天才們,第一次定義了什麼是人工智慧之後,AI 經歷了幾起幾落。近70 年的發展過程中有很多讓人感動的堅持:是初代AI 的稚嫩探索,是專家系統的勇敢嘗試,是Hinton、Bengio、Lecun 這些學者把神經網絡的冷板凳坐穿,是DeepMind 用AlphaGo讓AI 出圈,是Google、Meta、CMU、史丹佛、清華等一眾頂尖研究機構堅持開源,是OpenAI 頂住壓力把GPT 這個路線走通,是全球幾代科研人員的接力,我們才走到今天。 ######
然而,如果我們放任 AI 產生大量不真實的訊息,那麼不用多久,大眾對於 AI 建立的信心就會被摧毀,各種假訊息也會充斥網路。我們指出大模型的錯誤,並不是為了拉踩哪個公司或哪個模型,相反,我們是要讓 AI 變得更好。
正如阿根廷詩人博爾赫斯曾經說過:任何命運,無論多麼複雜漫長,實際上只反應於一個瞬間,那就是人們徹底醒悟自己究竟是誰的那一刻。當ChatGPT 等大模型已經具備了媲美人類的文字能力時,我們清楚地知道,下一步的重點是把真實世界的知識更完整準確地融入大模型,讓AI 模型安全地、可靠地、廣泛地應用於人們的日常生活。我們從未如此期待,也從未如此接近那一刻的到來。
以上是別只罵谷歌Bard了,ChatGPT加持的微軟New Bing也錯誤頻出的詳細內容。更多資訊請關注PHP中文網其他相關文章!