首頁  >  文章  >  科技週邊  >  OpenAI官方推出AI生成內容辨識器,但成功率只有26%,網友:不如論文查重工具

OpenAI官方推出AI生成內容辨識器,但成功率只有26%,網友:不如論文查重工具

PHPz
PHPz轉載
2023-04-11 15:19:031237瀏覽

很多人也許已經忘記,ChatGPT 正式發佈時間是去年11 月底,到現在才剛剛兩個月,但它掀起的熱潮卻已引發科技公司紛紛跟進,催生了獨角獸創業公司,也讓學術界修改了論文接收的要求。

在 ChatGPT 引發 AI 領域「是否要停用」大討論之後,OpenAI 的真假鑑別工具終於來了。

1 月31 日,OpenAI 官方宣布了區分人類作品和AI 生成文本的識別工具上線,該技術旨在識別自家的ChatGPT、GPT-3 等模型生成的內容。然而分類器目前看起來準確性堪憂:OpenAI 在部落格指出 AI 辨識 AI 高置信度正確率約為 26%。但該機構認為,當它與其他方法結合時,可以有助於防止 AI 文字產生器被濫用。

「我們提出分類器的目的是幫助減少人工智慧生成的文本造成的混淆。然而它仍然有一些局限性,因此它應該被用作其他確定文本來源方法的補充,而不是作為主要的決策工具,」OpenAI 發言人透過電子郵件對媒體介紹。 「我們正透過這個初始分類器獲取有關此類工具是否有用的反饋,並希望在未來分享改進的方法。」

最近科技領域隨著圍繞生成式AI,尤其是文本生成AI 的熱情正在不斷增長,但相對的是人們對於濫用的擔憂,批評者呼籲這些工具的創造者應該採取措施減輕其潛在的有害影響。

面對海量的AI 生成內容,一些行業立刻作出了限制,美國一些最大的學區已禁止在其網絡和設備上使用ChatGPT,擔心會影響學生的學習和該工具產生的內容的準確性。包括 Stack Overflow 在內的網站也禁止用戶分享 ChatGPT 產生的內容,並表示人工智慧會讓用戶在正常的討論中被無用內容淹沒。

OpenAI官方推出AI生成內容辨識器,但成功率只有26%,網友:不如論文查重工具

這些情況突顯了 AI 辨識工具的必要性。雖然效果不如人意,但 OpenAI AI 文字分類器(OpenAI AI Text Classifier)在架構上實作了和 GPT 系列的對標。它和 ChatGPT 一樣是一種語言模型,是根據來自網路的許多公開文字範例進行訓練的。與 ChatGPT 不同的是,它經過微調可以預測一段文字由 AI 產生的可能性 —— 不僅來自 ChatGPT,還包括來自任何文字生成 AI 模型的內容。

具體來說,OpenAI 在來自五個不同組織(包括 OpenAI 自己)的 34 個文本生成系統的文本上訓練了 AI 文本分類器。這些內容與維基百科中相似(但不完全相同)的人工文本、從 Reddit 上共享的連結中提取的網站以及為 OpenAI 文本生成系統收集的一組「人類演示」配對。

需要注意的是,OpenAI 文字分類器不適用於所有類型的文字。被偵測的內容至少需要 1000 個字符,或大約 150 到 250 個單字。它沒有論文檢測平台那樣的查重能力 —— 考慮到文本生成人工智慧已被證明會照抄訓練集裡的「正確答案」,這是一個非常難受的限制。 OpenAI 表示,由於其英語前向資料集,它更有可能在兒童或非英語語言書寫的文本上出錯。

在評估一段給定的文字是否由 AI 產生時,偵測器不會正面回答是或否。根據其置信度,它會將文字標記為「非常不可能」由AI 產生(小於10% 的可能性)、「不太可能」由AI 產生(在10% 到45% 之間的可能性)、 「不清楚它是否是」AI 生成(45% 到90% 的機會)、「可能」由AI 生成(90% 到98% 的機會)或「很有可能」由AI 生成(超過98% 的機會) 。

看起來和影像辨識的 AI 很像,除了準確程度。根據 OpenAI 的說法,分類器錯誤地將人類編寫的文本標記為 AI 編寫的文本的機率為 9%。

一番試用之後,效果的確不大行

OpenAI 宣稱其 AI 文字分類器的成功率約為 26%,一些網友上手試用之後,發現識別效果果然不行。

知名 ML 和 AI 研究人員 Sebastian Raschka 試用之後,給出了「It does not work」的評價。他使用其 2015 年第一版的 Python ML 書籍作為輸入文本,結果顯示如下。

  • Randy Olson 的foreword 部分被辨識為#不清楚是否由AI 產生(unclear)
  • #他自己的preface 部分被辨識為可能由AI 產生(possibly AI)
  • 第一章的段落部分被辨識為很可能由AI 產生(likely AI)

OpenAI官方推出AI生成內容辨識器,但成功率只有26%,網友:不如論文查重工具

Sebastian Raschka 對此表示,這是一個有趣的例子,但自己已經為將來可能因離譜的論文識別結果而受到懲罰的學生感到難過了。

因此他提議,如果要部署這樣的模型,請共享一個混淆矩陣。不然如果教育者採用此模型進行評分,可能會對現實世界造成傷害。另外也應該增加一些有關誤報和漏報的透明度。

此外,Sebastian Raschka 輸入了莎士比亞《馬克白》第一頁的內容,OpenAI AI 文字分類器給出的結果竟然是很可能由 AI 產生。簡直離譜!

OpenAI官方推出AI生成內容辨識器,但成功率只有26%,網友:不如論文查重工具

還有人上傳了AI 寫作工具Easy-Peasy.AI 創作的內容,結果OpenAI AI 文字分類器判定為由AI 產生的可能性非常小。

OpenAI官方推出AI生成內容辨識器,但成功率只有26%,網友:不如論文查重工具

最後,有人用上了重複翻譯大法,把文字讓 GPT3 重寫一遍,也能騙過辨識器。

OpenAI官方推出AI生成內容辨識器,但成功率只有26%,網友:不如論文查重工具

總結一下的話就是正向辨識不準,反向辨識出錯,也無法識破一些改論文的技巧。看來,起碼在 AI 文字內容辨識這一領域,OpenAI 還需努力。

以上是OpenAI官方推出AI生成內容辨識器,但成功率只有26%,網友:不如論文查重工具的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除