首頁  >  文章  >  硬體教學  >  大模型廠商密集發力,Google也開「卷」了:Gemini 聊天機器人換上新模型,還能一鍵核查輸出內容

大模型廠商密集發力,Google也開「卷」了:Gemini 聊天機器人換上新模型,還能一鍵核查輸出內容

王林
王林原創
2024-07-29 20:38:41416瀏覽

Meta、OpenAI 等大型模型廠商密集發力之際,Google也宣布了一項重磅更新——

即日起,Gemini 聊天機器人將改為Gemini 1.5 Flash驅動。

與之前的版本相比,視窗長度提高到了 4 倍,反應速度也更快了。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

按照谷歌的介紹,新版聊天機器人背後的 1.5 Flash 模型,主打的就是輕量化和速度提升。

當然模型回應的品質也有提升,上下文視窗也從原先(基於 1.0 Pro)的 8k 提升到了 32k。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

此外新版聊天機器人還增加了" 事實核查 " 功能,可以一鍵檢測生成的內容是否屬實,減輕模型幻覺帶來的不良影響。

有網友感嘆,Google今天表現真的很強,先是,接著 Gemini 也發布了更新。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

還有人開啟了許願模式,期待 Google Scholar 學術搜尋當中也能加入 AI 功能。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

更長上下文窗口,速度也變快了

本次更新的最主要內容,就是把免費版背後的模型從 1.0Pro 換成了 1.5 Flash。

Gemini 1.5 Flash 最早亮相於 5 月的Google I/O 開發者大會。

透過訓練資料的 " 蒸餾 ",Gemini 1.5 Flash 以更輕量化的體積實現了較高的生成品質。

而且小體積也讓模型的速度更快、效率更高,同時它也支援多模態推理。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

谷歌介紹,此次更換模型之後,聊天機器人的速度會變得更快,同時舊版 ​​8k 的上下文窗口,擴增到了 32k。

不過 1.5 Flash 本身是支援 1 百萬的上下文的,這樣的削減幅度屬實是不小,但畢竟是免費免費版本。

除了模型的升級,另外一項重要更新就是事實查核功能了。

在最新的 Gemini 聊天機器人當中,可以透過該功能一鍵對輸出的內容進行檢查。

系統會針對輸出中的內容在Google上進行搜尋和比對,然後標記出相符和不符之處。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

有網友評論說,看到 OpenAI 上線 GPT-4o mini 時就覺得谷歌上新只是個時間問題。

的確,不只是 OpenAI 和谷歌,Meta、Mistral 等在做大模型的廠商最近都是動作頻繁。

而關於模型的表現,這位網友也表示自己試過 1.0 Pro 和 1.5 Flash,兩者表現幾乎相同,而 1.5 Flash 速度更快。

所以,Google的這波操作,某種程度上也是適應了最近興起的 " 模型輕量化 " 趨勢。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

那麼,更換了 1.5 Flash 之後的 Gemini 聊天機器人,表現到底怎麼樣呢?

一鍵檢查模型輸出

量子位元對新版的聊天機器人進行了簡單測試。

先來看看這次更新的事實查核功能,第一步是像正常對話一樣隨便提一個問題,Gemini 也會正常作答。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

可以看到在答案的下方有一個谷歌的 logo,這就是事實核查功能的按鈕了。

點擊之後系統會自動在谷歌進行搜索,然後與自己的輸出內容進行比對。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

比對完成後,能夠搜尋到信源且相符的內容會被高亮為綠色,如果與搜尋結果存在出入,則會以淺紅底色標註。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

點擊標註的位置,可以看到 Gemini 用於對比的內容連結。

需要注意的是,這樣的標註並不意味著輸出的內容是錯誤的,例如這裡引用的對比資料中,湯姆克魯斯的母親是 Marry Lee South。

由於文本不匹配,導致答案中這一部分被系統標註,但實際上兩個都是正確答案。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

由於這個事實核查依靠的是互聯網搜索,對比資料的質量也是參差不齊,不一定能做到 100% 的準確。

例如關於 " 林黛玉倒拔垂楊柳 " 這個經典段子,Gemini 明明給出了正確答案,結果卻被標紅了。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

再一看引用的對比訊息,屬實是有些難繃了。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

所以這個功能的作用,主要是提供了一個更便捷的核查途徑,但具體應當如何採信,還是要依靠多方查證,以及用戶自己的判斷。

另外,關於模型本身,我們也測試了幾個最近流行的讓大模型屢屢碰壁的難題。

比如,Gemini 甚至把兩個數字換算成了錢,但一通操作之後最後的結果是…錯的。

自從這個問題被發現以來,如果這個是第二搞笑的答案的話,應該沒有哪個模型敢稱第一了。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

還有一開始給了個錯誤答案,後面分析過程中修正過來的。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

但如果用英語提問,還是有希望直接答對的。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

還有的問題,這個回答竟然能從中文裡數出字母來……也是把人給整不會了,完全不在預判之內。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

最後,關於此次更新中提到的速度提升,經測試發現,Gemini 1.5 Flash 輸出第一個字的耗時要短於Claude 3 Haiku,後續的速度用肉眼觀察區別不是很明顯。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

以上就是 Gemini 1.5 Flash 在聊天機器人中的表現,有興趣的讀者可以自行嘗試。

參考連結:

[ 1 ] https://blog.google/products/gemini/google-gemini-new-features-july-2024/

[ 2 ] https://x.com/GeminiApp/status /1816512086232731696

以上是大模型廠商密集發力,Google也開「卷」了:Gemini 聊天機器人換上新模型,還能一鍵核查輸出內容的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn