搜尋
首頁科技週邊人工智慧辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了

隨著生成式大模型的不斷進步,它們所產生的語料正逐步逼近人類。雖然大模型正在解放無數文書的雙手,它以假亂真的強勁能力也為一些不法分子所利用,造成了一系列社會問題:

辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了

辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了


辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了

#來自北大、華為的研究者提出了一種識別各式AI 生成語料的可靠文字偵測器。根據長短文本的不同特性,提出了一種基於 PU 學習的多尺度 AI 生成文字偵測器訓練方法。透過偵測器訓練流程的改進,在同等條件下能取得在長、短 ChatGPT 語料上偵測能力的可觀提升,解決了目前偵測器對於短文字辨識精度低的痛點。

  • 論文網址:https://arxiv.org/abs/2305.18149
  • 程式碼位址(MindSpore):https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt
  • #程式碼位址(PyTorch) :https://github.com/YuchuanTian/AIGC_text_detector

引言

#隨著大語言模型的生成效果越發逼真,各行各業迫切需要一款可靠的AI 生成文字偵測器。然而,不同行業對檢測語料的要求不同,例如在學術界,普遍需要對大段完整的學術文本進行檢測;在社交平台上,需要對相對簡短而較為支離破碎的假消息進行檢測。然而,既有檢測器往往無法兼顧各式需求。例如,主流的一些 AI 文字偵測器對較短的語料預測能力普遍較差。

對於不同長度語料的不同檢測效果,作者觀察到較短的AI 生成文本可能存在著一部分歸屬上的「不確定性」;或者更直白地說,由於有些AI 生成短句同時也常被人類使用,因而很難界定AI 產生的短文本是否來自於人或AI。這裡列舉了幾個人和AI 分別對同一問題做出回答的例子:

辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了

#由這些例子可見,很難對AI 產生的簡短回答進行辨識:這類語料與人的區別過小,很難嚴格判斷其真實屬性。因此,將短文本簡單標註為人類 / AI 並按照傳統的二分類問題進行文本檢測是不合適的。

針對這個問題,本研究將人類/ AI 的二分類檢測部分轉化為了一個部分PU(Positive-Unlabeled)學習問題,即在較短的句子中,人的語言為正類(Positive),機器語言為無標記類別(Unlabeled),以此對訓練的損失函數進行了改進。此改進可觀提升了偵測器在各式語料上的分類效果。

演算法細節

在傳統的 PU 學習設定下,一個二分類模型只能根據正訓練樣本和無標記訓練樣本進行學習。一個常用的 PU 學習方法是透過制定 PU loss 來估計負樣本對應的二分類損失:

辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了

其中,辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了表示正樣本與正標籤計算的二分類損失;辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了表示將無標記樣本全部假定為負標籤計算的二分類損失;辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了表示將正樣本假定為負標籤計算的二分類損失;辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了表示的是先驗正樣本機率,即正樣本在全部PU 樣本中的預估佔比。在傳統的 PU 學習中,通常會將先驗辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了設定為一個固定的超參數。然而在文字偵測的場景中,偵測器需要處理各式長度不同的文字;而對於不同長度的文字而言,其正樣本在所有和該樣本相同長度的PU 樣本中的預估佔比也是不同的。因此,本研究對 PU Loss 進行了改進,提出了長度敏感的多尺度 PU(MPU)loss 損失函數。

具體地,本研究提出了一個抽象的循環模型對較短文本檢測進行建模。傳統的 NLP 模型在處理序列時,通常是馬可夫鏈的結構,如 RNN、LSTM 等。這類循環模型的這個過程通常可以理解為一個逐漸迭代的過程,即每個 token 輸出的預測,都是由上一個 token 及之前序列的預測結果和該 token 的預測結果經過變換、融合得到的。即以下過程:

辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了

為了根據這個抽象的模型進行先驗機率的估計,需要假定該模型的輸出為某個句子為正類別(Positive)的置信度,即判定為人說出的樣本的機率。假設每個 token 的貢獻大小為句子 token 長度的反比,是非正(Positive)即無標記(Unlabeled)的,且為無標記的機率遠大於為正的機率。因為隨著大模型的詞彙量逐漸逼近人類,絕大部分詞彙會同時出現在 AI 和人類語料中。根據這個簡化後的模型和設定好的正 token 機率,透過求出不同輸入情況下模型輸出置信度的總期望,來得到最終的先驗估計。

辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了

透過理論推導與實驗,估計得到先驗機率隨著文本長度的上升而上升,最終逐漸穩定。這種現像也符合預期,因為隨著文字變長,偵測器可以捕捉的資訊更多,文字的「來源不確定性」也逐漸減弱:

辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了

##之後,對於每個正樣本,根據其樣本長度得到的獨特先驗對PU loss 進行計算。最後,由於較短文本僅有部分「不確定性」(即較短文本也會含有一些人或AI 的文本特徵),可以對二分類loss 和MPU loss 進行加權相加,作為最終的最佳化目標:

辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了

此外需要注意的是,MPU loss 適配的是長度較為多樣的訓練語料。倘若既有的訓練資料單質化明顯,大部分語料為大段冗長的文本,則無法全面發揮 MPU 方法的功效。為了使得訓練語料的長度更多樣化,本研究也引入了一個在句子層面進行多尺度化的模組。此模組隨機遮蓋訓練語料中的部分句子,並對餘下句子在保留原有順序的前提下進行重組。經過訓練語料的多尺度化操作,訓練文本得到了長度上的極大豐富,從而充分利用了 PU 學習進行 AI 文字偵測器訓練。

實驗結果

辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了

如上表所示,作者先在較短的AI 產生語料資料集Tweep-Fake 上檢驗MPU loss 的效果。此資料集中的語料均為推特上較為短小的語段。作者又在傳統的語言模型微調基礎上將傳統二分類 loss 替換為含有 MPU loss 的最佳化目標。改進之後的語言模型偵測器效果較為突出,超過了其它基線演算法。

辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了

作者又對chatGPT 生成文字進行了偵測,經過傳統微調得到的語言模型偵測器在短句上表現較差;經過MPU 方式在同等條件下訓練得到的檢測器在短句上表現良好,且同時能夠在完整語料上取得可觀的效果提升,F1-score 提升了1%,超越了OpenAI 和DetectGPT 等SOTA 演算法。

辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了

如上表所示,作者在消融實驗中觀察了每個部分所帶來的效果增益。 MPU loss 加強了長、短語料的分類效果。

辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了

作者也比較了傳統 PU 和 Multiscale PU(MPU)。由上表可見 MPU 效果更勝一籌,能更適配 AI 多尺度文字偵測的任務。

總結

作者透過提出基於多尺度PU 學習的方案,解決了文字偵測器對於短句辨識的難題,隨著未來AIGC 產生模型的氾濫,對於這類內容的檢測將會越來越重要。這項研究在 AI 文字偵測的問題上邁出了堅實的一步,希望未來會有更多類似的研究,把 AIGC 內容進行更好的管控,防止 AI 生成內容的濫用。

以上是辨識「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中