7 月16 日消息,近日有網友發現,如果將美國最重要的法律文件美國憲法輸入一些專門用來檢測人工智慧寫作的工具中,會得到一個令人驚訝的結果:美國憲法幾乎肯定是由人工智慧寫的。除非詹姆斯麥迪遜是時間穿越者,否則這顯然是不可能的。那麼為什麼這些 AI 偵測工具會出現這樣的錯誤呢?外媒 Arstechnica 訪問了幾位專家,以及 AI 檢測工具 GPTZero 的開發者,來揭開其中的原因。
在教育領域,人工智慧寫作引發了不少爭議。教師們長期以來一直使用傳統的教學方法,將論文作為評估學生對某一主題掌握程度的工具。證據迄今表明,依靠 AI 工具來檢測 AI 生成的寫作的許多老師發現並不可靠。由於有誤報的情況,AI 檢測工具如 GPTZero、ZeroGPT 和 OpenAI 的文本分類器都不可靠,不能用來判斷文章是否是由大型語言模型(LLM)產生的。
當美國憲法的一部分被輸入 GPTZero 時,GPTZero 會稱這段文字「很可能完全由 AI 寫成」。在過去的半年裡,多次有類似結果的截圖透過其他AI檢測工具廣泛傳播在社群媒體上。實際上,如果輸入《聖經》中的一些內容,也會出現同樣的情況。要理解這些工具為何會犯下如此明顯的錯誤,首先我們需要了解它們的運作方式。
據IT之家了解,不同的人工智慧寫作偵測器使用略有不同的偵測方法,但基本原理相似:透過一個人工智慧模型,在大量文字(包括數百萬個寫作範例)和一套假定的規則(用來確定寫作是更可能由人類還是人工智慧生成)上進行了訓練。
例如,GPTZero 的核心是一個神經網絡,它在「一個大型、多樣化的語料庫上進行了訓練,該語料庫包括人類寫作和人工智慧生成的文本,重點是英語散文」。接下來,該系統使用「困惑度」和「突發」等屬性來評估文字並進行分類。
在機器學習中,困惑度是衡量一段文字與一個人工智慧模型在訓練過程中所學習內容之間偏離程度的指標。測量困惑度的想法是,當人工智慧模型寫作時,它們會自然地選擇它們最熟悉的內容,這些內容來自於它們的訓練資料。輸出越接近訓練數據,困惑度就越低。 人類則是更混亂的寫作者,人類也可以用低困惑度來寫作,尤其是當模仿法律或某些類型的學術寫作中使用的正式風格時。而且,我們使用的許多短語都出奇地常見。
作為例子,讓我們試著推測這個句子中下一個字:"我想要一杯_____"。 「大多數人會用「水」、「咖啡」或「茶」來填空。一個在大量英語文本上進行訓練的語言模型也會這樣做,因為這些短語在英語寫作中經常出現,這些結果中的任何一個都會有很低的困惑度。
GPTZero 測量的文本的另一個屬性是“突發性”,它是指某些單字或短語快速連續出現或在文本中“突發”的現象。本質上,突發性評估整個文本中句子長度和結構的可變性。人類作家經常表現出動態的寫作風格,導致文本具有可變的句子長度和結構,而人工智慧生成的文本往往更加一致和統一。然而,突發性也不是檢測人工智慧生成內容的萬無一失的指標。與「困惑度」一樣,也有例外。人類作家可能會以高度結構化、一致的風格寫作,從而導致突發性得分較低。相反,人工智慧模型可以經過訓練,在句子長度和結構上模擬更接近人類的可變性,從而提高其突發性得分。事實上,隨著人工智慧語言模型的改進,研究表明它們的寫作看起來越來越像人類的寫作。
以上是人工智慧寫作檢測工具不可靠,美國憲法竟然被認為是機器人寫的的詳細內容。更多資訊請關注PHP中文網其他相關文章!