首頁 >科技週邊 >人工智慧 >剛剛，ChatGPT官宣數學能力再升級，網友：終於精通十以內加減法了

剛剛，ChatGPT官宣數學能力再升級，網友：終於精通十以內加減法了

王林轉載: 2023-04-12 21:10:011130瀏覽

自 ChatGPT 發布以來，它的能力不斷被人們解鎖，例如寫神經網路、做智慧音箱。人們在試用中慢慢發現，數學能力是 ChatGPT 的一大短板，連簡單的「雞兔同籠」題目都能算錯。

大概是考慮到了這一點，ChatGPT 剛剛宣布了一次重要更新：提升了「真實性」和「數學能力」。

這次是ChatGPT 自去年11 月推出以來的第三次更新，但由於「更新說明」過於模糊，人們還需要經歷一個新能力的探索過程。

幾日前，電腦科學家、Wolfram 語言之父Stephen Wolfram 將理工科神器Wolfram|Alpha 與ChatGPT 結合起來，為後者註入超強運算知識實現互補，效果相當不錯。

那麼，這次更新之後的 ChatGPT 數學能力可與其一戰嗎？

看起來… 對比的結果不如人意：

剛剛，ChatGPT官宣數學能力再升級，網友：終於精通十以內加減法了

「只能說神經網路不是用來幹這個的」，Sebastian Raschka 都覺得無奈了。

也有人發現，升級後的ChatGPT「脾氣逐漸暴躁」：

剛剛，ChatGPT官宣數學能力再升級，網友：終於精通十以內加減法了

##「你數學是哪位老師教的？」面對一道十以內加減法的題目，它的語氣像極了輔導孩子作業的家長。

這也許是「偶然現象」？看來數學是真難。

不管怎麼說，我們可以期待一波後續的有趣 Demo 了。

太捲了：ChatGPT 和它的競爭者們

「未來6 到12 個月將帶來實驗的爆炸性成長，一旦公司能夠使用OpenAI的API 在ChatGPT 之上建構。出現的殺手級用例可能是圍繞生成式AI 對知識管理的影響。」

剛剛，ChatGPT官宣數學能力再升級，網友：終於精通十以內加減法了

################### Nicola Morini Bianzino。 ###############在最近的一次公開活動上，安永全球技術長 Nicola Morini Bianzino 表示，目前還沒出現在企業中使用 ChatGPT 的「殺手級」用例。但這種狀態可能很快就會改變，他預測未來 6 到 12 個月將帶來大量實驗，尤其是當公司能夠使用 OpenAI 的 API 在 ChatGPT 上建置之後。 ############Bianzino 將生成式 AI 對知識管理的影響描述為「AI 的辯證法」。「知識公司傾向於以一種非常扁平的二維方式儲存知識，這使得存取、互動和對話變得困難。我們在20、30、40 年前嘗試建立專家系統。這並不是很順利，因為它們太死板了。我認為這項技術有望克服專家系統存在的許多問題。」Nicola Morini Bianzino 表示。 ############與此同時，ChatGPT 的競爭者們也不斷湧現，這條賽道變得越來越「卷」。從 Anthropic 公司的 Claude、DeepMind 公司的 Sparrow、Google公司的 LaMDA 到 Character AI，每天都似乎有新競爭者步入賽場。 ######

Anthropic 是一家舊金山的新創公司，由幾位離開 OpenAI 的研究人員於 2021 年創立。該公司成立不到一年後就宣布了高達 5.8 億美元的融資，上週五還被通報即將增加 3 億美元融資。

這家公司開發了一個名為「Claude」的AI 聊天機器人，目前透過Slack 整合在封閉測試版中可用，據報道它與ChatGPT 相似，甚至有一些改進。 Anthropic 將自身的使命描述為「致力於建立可靠、可解釋和可操縱的 AI 系統」。

DeepMind 同樣也是這條賽道上不可忽視的力量。這家公司在 9 月的一篇論文中介紹了 “Sparrow”，被譽為「朝著創建更安全、偏差更小的機器學習系統邁出的重要一步」。 Sparrow 是「一種有用的對話智能體，可以降低不安全和不適當答案的風險」，旨在「與使用者交談、回答問題並在有助於尋找證據」。

不過，DeepMind 的安全研究員、 Sparrow 論文的主要作者 Geoffrey Irving 表示，DeepMind 認為 Sparrow 是一個基於研究的概念驗證模型，尚未準備好部署。

在兩週前的《時代雜誌》文章中，該公司的執行長兼聯合創始人Demis Hassabis 表示，DeepMind 正在考慮在2023 年的某個時候發布其聊天機器人Sparrow 的“私人測試版”。如此一來，公司就可以發展基於強化學習的功能，例如引用來源 —— 這是 ChatGPT 所沒有的能力。

再說到Google#的LaMDA，這個模型曾在去年夏天引發過熱議— 谷歌工程師Blake Lemoine 因聲稱LaMDA 具有感知能力而被解僱。

即使不像 Lemoine 所認為的那樣，LaMDA 仍被認為是 ChatGPT 最大的競爭對手之一。谷歌在 2021 年發布的部落格文章中表示，LaMDA 的對話技巧「已經醞釀多年」。與 ChatGPT 一樣，LaMDA 建立在 Transformer 架構之上，也接受過對話的訓練。

根據Google的說法，「在訓練期間，LaMDA 發現了一些將開放式對話與其他形式的語言區分開來的細微差別。」

《紐約時報》在1 月20 日的一篇報導中提到，谷歌創始人Larry Page 和Sergey Brin 上個月會見了公司高管，討論了ChatGPT 可能對谷歌1490 億美元的搜索業務構成的威脅。谷歌發言人在聲明中表示：「我們繼續在內部測試我們的AI 技術，以確保它有用且安全，我們期待盡快與外部分享更多經驗。」

####### #另外一位頗具實力的玩家則是######### Character AI#########，這家公司由Transformer 論文作者之一 ########## #Noam Shazeer 創辦##########，逐漸為人所知。 ############該公司推出的 AI 聊天機器人技術允許用戶與任何人聊天或進行角色扮演，例如模仿伊麗莎白女王和莎士比亞等歷史人物。目前該技術是免費使用的，Character 正在「研究用戶如何與之互動，然後再製定具體的創收計劃。」########傳百度將發布類似ChatGPT 的聊天機器人##################################################################################################################### ####更能引起國內AI 從業者關注的是，據路透社、彭博社等多家外媒報道稱，百度公司計劃在3 月份推出類似於OpenAI 的ChatGPT 的人工智能聊天機器人服務。 ############消息人士稱，百度計畫在用戶提出搜尋請求時整合聊天機器人產生的結果，而不僅僅是連結。「該工具尚未命名，將嵌入在主搜尋服務中，用戶將傳回對話風格的搜尋結果。」######

在去年12 月在一次內部討論中，百度CEO 李彥宏曾分享自己對ChatGPT 的看法：「把這麼酷的技術變成人人需要的產品」才是最難的，希望百度新的一年「至少能有一個高成長、有創新的業務，真正的above and beyond our expectation」。

而根據《科創板日報》1 月 30 日報道，百度內部確有推出類似 ChatGPT 聊天機器人的規劃，但具體時間並不精確。百度 CEO 李彥宏對於此專案的定位是「引領搜尋體驗的世代變革」。他在內部指出，相關技術已達到臨界點，百度在其中有較大的機會。

檢測利器：讓大型語言模型產生的文本無處隱藏

ChatGPT 的能力縱然強大，但同時它在學校作業、論文發表等領域的濫用已經引發了人們廣泛的擔憂。因此，學界開始探索檢測 ChatGPT 等大型語言模型（LLM）生成文本的方法和工具。

馬裡蘭大學幾位研究者對 ChatGPT 等語言模型輸出的水印進行了研究。在論文《A Watermark for Large Language Models》，他們提出了一個高效能水印框架，水印的嵌入對文本品質的影響忽略不計，可以使用高效的開源演算法進行檢測，而無需訪問語言模型的 API 或參數。

本文方法可以偵測到比較短的合成文字（少至 25 個 tokens），同時使得人類文本在統計上不可能被標記為機器生成。

剛剛，ChatGPT官宣數學能力再升級，網友：終於精通十以內加減法了

#論文網址：https://arxiv.org/pdf/2301.10226v1.pdf

#史丹佛大學幾位研究者在論文《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》中，證明了從LLM 取樣的文字傾向於佔據模型對數機率函數的負曲率區域。利用這個觀察結果，他們定義了一個基於曲率的新標準，來判斷一段文章是否由給定的 LLM 產生。

研究者將他們的方法稱為 DetectGPT，它不需要訓練單獨的分類器、收集真實或生成段落的資料集以及明確地為生成文本加浮水印。 DetectGPT 僅使用感興趣模型計算的對數機率和另一通用預訓練語言模型（如 T5）產生段落的隨機擾動。

結果發現，DetectGPT 比目前模型樣本檢測的零樣本方法更具辨別力，尤其是將20B 參數GPT-NeoX 產生的假新聞報告偵測從最強零樣本基線的0.81 AUROC 提升到了0.95 AUROC。未來將公佈代碼和數據。

剛剛，ChatGPT官宣數學能力再升級，網友：終於精通十以內加減法了

DetectGPT 偵測 GPT-3 產生文字的示意圖。

論文網址：https://arxiv.org/abs/2301.11305

除了以論文形式展現的檢測方案，也有個人推出了強大的檢測工具。 例如一位來自Hive AI、致力於ChatGPT 檢測器研究的ML 工程師，其方案能夠識別ChatGPT、GPT-3 和其他流行AI 引擎生成的文本#。

從內部基準測試結果來看，此方案效果明顯優於GPTZero 和OpenAI GPT2 Output Detector 等類似方法#。在內部資料集上，模型平衡準確率 > 99%，而 GPTZero 的準確率約為 60%，OpenAI GPT2 Output Detector 的準確率為 84%。

剛剛，ChatGPT官宣數學能力再升級，網友：終於精通十以內加減法了

Demo 網址：https://hivemoderation.com/ai-generated-content-detection

最後，GPTZero 也迎來了更新－GPTZe#roX，一個專為教育者打造的全新AI 偵測模型。該模型可以混合處理 AI 生成和人類文本，並突出顯示最有可能由 AI 生成的文本部分。另外建置了一個 pipeline 來處理 PDF、Word 和.txt 格式的檔案批次上傳，從而輕鬆執行多個檔案。

剛剛，ChatGPT官宣數學能力再升級，網友：終於精通十以內加減法了

#Demo 位址：https://gptzero.substack.com/p/gptzerox

#總之，隨著AI 產生文字偵測工具的日益豐富和日加完善，ChatGPT 等大型語言模型在應用時勢必會越來越正規，幫助人們更有效率地釋放AI 的能力。

以上是剛剛，ChatGPT官宣數學能力再升級，網友：終於精通十以內加減法了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：智慧科技將如何影響零售業？下一篇：智慧科技將如何影響零售業？

看更多