首頁 >科技週邊 >人工智慧 >剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

王林
王林轉載
2023-04-12 21:10:01947瀏覽

自 ChatGPT 發布以來,它的能力不斷被人們解鎖,例如寫神經網路、做智慧音箱。人們在試用中慢慢發現,數學能力是 ChatGPT 的一大短板,連簡單的「雞兔同籠」題目都能算錯。

大概是考慮到了這一點,ChatGPT 剛剛宣布了一次重要更新:提升了「真實性」和「數學能力」。

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

這次是ChatGPT 自去年11 月推出以來的第三次更新,但由於「更新說明」過於模糊,人們還需要經歷一個新能力的探索過程。

幾日前,電腦科學家、Wolfram 語言之父Stephen Wolfram 將理工科神器Wolfram|Alpha 與ChatGPT 結合起來,為後者註入超強運算知識實現互補,效果相當不錯。

那麼,這次更新之後的 ChatGPT 數學能力可與其一戰嗎?

看起來… 對比的結果不如人意:

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

「只能說神經網路不是用來幹這個的」,Sebastian Raschka 都覺得無奈了。

也有人發現,升級後的ChatGPT「脾氣逐漸暴躁」:

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

##「你數學是哪位老師教的?」面對一道十以內加減法的題目,它的語氣像極了輔導孩子作業的家長。

這也許是「偶然現象」?看來數學是真難。

不管怎麼說,我們可以期待一波後續的有趣 Demo 了。

太捲了:ChatGPT 和它的競爭者們

「未來6 到12 個月將帶來實驗的爆炸性成長,一旦公司能夠使用OpenAI的API 在ChatGPT 之上建構。出現的殺手級用例可能是圍繞生成式AI 對知識管理的影響。」

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

################### Nicola Morini Bianzino。 ###############在最近的一次公開活動上,安永全球技術長 Nicola Morini Bianzino 表示,目前還沒出現在企業中使用 ChatGPT 的「殺手級」用例。但這種狀態可能很快就會改變,他預測未來 6 到 12 個月將帶來大量實驗,尤其是當公司能夠使用 OpenAI 的 API 在 ChatGPT 上建置之後。 ############Bianzino 將生成式 AI 對知識管理的影響描述為「AI 的辯證法」。 「知識公司傾向於以一種非常扁平的二維方式儲存知識,這使得存取、互動和對話變得困難。我們在20、30、40 年前嘗試建立專家系統。這並不是很順利,因為它們太死板了。我認為這項技術有望克服專家系統存在的許多問題。」Nicola Morini Bianzino 表示。 ############與此同時,ChatGPT 的競爭者們也不斷湧現,這條賽道變得越來越「卷」。從 Anthropic 公司的 Claude、DeepMind 公司的 Sparrow、Google公司的 LaMDA 到 Character AI,每天都似乎有新競爭者步入賽場。 ######

Anthropic 是一家舊金山的新創公司,由幾位離開 OpenAI 的研究人員於 2021 年創立。該公司成立不到一年後就宣布了高​​達 5.8 億美元的融資,上週五還被通報即將增加 3 億美元融資。

這家公司開發了一個名為「Claude」的AI 聊天機器人,目前透過Slack 整合在封閉測試版中可用,據報道它與ChatGPT 相似,甚至有一些改進。 Anthropic 將自身的使命描述為「致力於建立可靠、可解釋和可操縱的 AI 系統」。

DeepMind 同樣也是這條賽道上不可忽視的力量。這家公司在 9 月的一篇論文中介紹了 “Sparrow”,被譽為「朝著創建更安全、偏差更小的機器學習系統邁出的重要一步」。 Sparrow 是「一種有用的對話智能體,可以降低不安全和不適當答案的風險」,旨在「與使用者交談、回答問題並在有助於尋找證據」。 

不過,DeepMind 的安全研究員、 Sparrow 論文的主要作者 Geoffrey Irving 表示,DeepMind 認為 Sparrow 是一個基於研究的概念驗證模型,尚未準備好部署。

在兩週前的《時代雜誌》文章中,該公司的執行長兼聯合創始人Demis Hassabis 表示,DeepMind 正在考慮在2023 年的某個時候發布其聊天機器人Sparrow 的“私人測試版”。如此一來,公司就可以發展基於強化學習的功能,例如引用來源 —— 這是 ChatGPT 所沒有的能力。

再說到Google#的LaMDA,這個模型曾在去年夏天引發過熱議— 谷歌工程師Blake Lemoine 因聲稱LaMDA 具有感知能力而被解僱。

即使不像 Lemoine 所認為的那樣,LaMDA 仍被認為是 ChatGPT 最大的競爭對手之一。谷歌在 2021 年發布的部落格文章中表示,LaMDA 的對話技巧「已經醞釀多年」。與 ChatGPT 一樣,LaMDA 建立在 Transformer 架構之上,也接受過對話的訓練。

根據Google的說法,「在訓練期間,LaMDA 發現了一些將開放式對話與其他形式的語言區分開來的細微差別。」

《紐約時報》在1 月20 日的一篇報導中提到,谷歌創始人Larry Page 和Sergey Brin 上個月會見了公司高管,討論了ChatGPT 可能對谷歌1490 億美元的搜索業務構成的威脅。谷歌發言人在聲明中表示:「我們繼續在內部測試我們的AI 技術,以確保它有用且安全,我們期待盡快與外部分享更多經驗。」

####### #另外一位頗具實力的玩家則是######### Character AI#########,這家公司由Transformer 論文作者之一 ########## #Noam Shazeer 創辦##########,逐漸為人所知。 ############該公司推出的 AI 聊天機器人技術允許用戶與任何人聊天或進行角色扮演,例如模仿伊麗莎白女王和莎士比亞等歷史人物。目前該技術是免費使用的,Character 正在「研究用戶如何與之互動,然後再製定具體的創收計劃。」########傳百度將發布類似ChatGPT 的聊天機器人##################################################################################################################### ####更能引起國內AI 從業者關注的是,據路透社、彭博社等多家外媒報道稱,百度公司計劃在3 月份推出類似於OpenAI 的ChatGPT 的人工智能聊天機器人服務。 ############消息人士稱,百度計畫在用戶提出搜尋請求時整合聊天機器人產生的結果,而不僅僅是連結。 「該工具尚未命名,將嵌入在主搜尋服務中,用戶將傳回對話風格的搜尋結果。」######

在去年12 月在一次內部討論中,百度CEO 李彥宏曾分享自己對ChatGPT 的看法:「把這麼酷的技術變成人人需要的產品」才是最難的,希望百度新的一年「至少能有一個高成長、有創新的業務,真正的above and beyond our expectation」。

而根據《科創板日報》1 月 30 日報道,百度內部確有推出類似 ChatGPT 聊天機器人的規劃,但具體時間並不精確。百度 CEO 李彥宏對於此專案的定位是「引領搜尋體驗的世代變革」。他在內部指出,相關技術已達到臨界點,百度在其中有較大的機會。

檢測利器:讓大型語言模型產生的文本無處隱藏

ChatGPT 的能力縱然強大,但同時它在學校作業、論文發表等領域的濫用已經引發了人們廣泛的擔憂。因此,學界開始探索檢測 ChatGPT 等大型語言模型(LLM)生成文本的方法和工具。

馬裡蘭大學幾位研究者對 ChatGPT 等語言模型輸出的水印進行了研究。在論文《A Watermark for Large Language Models》,他們提出了一個高效能水印框架,水印的嵌入對文本品質的影響忽略不計,可以使用高效的開源演算法進行檢測,而無需訪問語言模型的 API 或參數。

本文方法可以偵測到比較短的合成文字(少至 25 個 tokens),同時使得人類文本在統計上不可能被標記為機器生成。

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

#論文網址:https://arxiv.org/pdf/2301.10226v1.pdf

#史丹佛大學幾位研究者在論文《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》中,證明了從LLM 取樣的文字傾向於佔據模型對數機率函數的負曲率區域。利用這個觀察結果,他們定義了一個基於曲率的新標準,來判斷一段文章是否由給定的 LLM 產生。

研究者將他們的方法稱為 DetectGPT,它不需要訓練單獨的分類器、收集真實或生成段落的資料集以及明確地為生成文本加浮水印。 DetectGPT 僅使用感興趣模型計算的對數機率和另一通用預訓練語言模型(如 T5)產生段落的隨機擾動。

結果發現,DetectGPT 比目前模型樣本檢測的零樣本方法更具辨別力,尤其是將20B 參數GPT-NeoX 產生的假新聞報告偵測從最強零樣本基線的0.81 AUROC 提升到了0.95 AUROC。未來將公佈代碼和數據。

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

DetectGPT 偵測 GPT-3 產生文字的示意圖。

論文網址:https://arxiv.org/abs/2301.11305

除了以論文形式展現的檢測方案,也有個人推出了強大的檢測工具。 例如一位來自Hive AI、致力於ChatGPT 檢測器研究的ML 工程師,其方案能夠識別ChatGPT、GPT-3 和其他流行AI 引擎生成的文本#。

從內部基準測試結果來看,此方案效果明顯優於GPTZero 和OpenAI GPT2 Output Detector 等類似方法#。在內部資料集上,模型平衡準確率 > 99%,而 GPTZero 的準確率約為 60%,OpenAI GPT2 Output Detector 的準確率為 84%。

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

Demo 網址:https://hivemoderation.com/ai-generated-content-detection

最後,GPTZero 也迎來了更新-GPTZe#roX,一個專為教育者打造的全新AI 偵測模型。該模型可以混合處理 AI 生成和人類文本,並突出顯示最有可能由 AI 生成的文本部分。另外建置了一個 pipeline 來處理 PDF、Word 和.txt 格式的檔案批次上傳,從而輕鬆執行多個檔案。

剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

#Demo 位址:https://gptzero.substack.com/p/gptzerox

#總之,隨著AI 產生文字偵測工具的日益豐富和日加完善,ChatGPT 等大型語言模型在應用時勢必會越來越正規,幫助人們更有效率地釋放AI 的能力。

以上是剛剛,ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除