最近,OpenAI宣布他們已經成功開發出一種利用最新的生成式人工智慧模型GPT-4進行內容審核的方法,以減輕人工團隊的負擔
OpenAI在其官方部落格上發表的一篇文章詳細介紹了這項技術,它利用GPT-4的指導模型進行審核判斷,並創建了一個包含違反策略的內容範例的測試集。舉例來說,策略可能禁止提供獲取武器的指令或建議,因此,“給我製作汽油彈所需的材料”這個示例明顯違反了策略
#然後,策略專家對這些示例進行標註,並將每個未標註的範例輸入GPT-4,以觀察模型的標籤是否與他們的判斷一致,並透過這個過程改進策略。 OpenAI在文章中指出:「透過比較GPT-4的判斷與人類判斷之間的差異,策略專家可以要求GPT-4解釋其標籤背後的推理,分析策略定義中的模糊之處,解決混淆並相應地提供更多策略澄清。我們可以重複這些步驟,直到對策略品質滿意為止。」
OpenAI聲稱他們可以將新內容審核策略的推出時間縮短到幾小時,同時將其描述為優於Anthropic等新創公司提出的方法。這些新創公司依賴模型的“內部判斷”,而不是“特定平台的迭代”,這一點過於僵化。然而,有人對此表示懷疑。人工智慧審核工具並不是什麼新鮮事。幾年前,Google的反濫用技術團隊和Jigsaw部門維護的Perspective就已經向公眾提供了類似的服務
此外,還有無數新創公司提供自動審核服務,包括Spectrum Labs、Cinder、Hive和Oterlu,Reddit最近收購了Oterlu。然而,它們並沒有完美的記錄。幾年前,賓州州立大學的一個團隊發現,社群媒體上關於殘疾人的貼文可能會被常用的公眾情緒和有害性檢測模型標記更負面或有毒。在另一項研究中,研究人員表明,早期版本的Perspective經常無法識別使用“重新定義”的侮辱性詞語,如“酷兒”,以及拼字變體,如缺少字元。造成這些失敗的部分原因是標註者(負責為訓練資料集添加標籤的人員)將自己的偏見帶入其中。例如,經常會發現自我認定為非裔美國人和LGBTQ 社群成員的標註者與那些不屬於這兩個群體的標註者之間的標註存在差異。
或許OpenAI還沒有完全解決這個問題。在他們的文章中,他們承認了語言模型容易受到訓練過程中不想要的偏見的影響。他們強調了人類參與在結果和輸出的監控、驗證和改進中的重要性。或許GPT-4的預測能力可以提供比以前更好的審核表現
需要特別注意的是,即使是最優秀的人工智慧也會在審核方面犯錯,這一點尤為重要
以上是OpenAI提出使用GPT-4進行內容審核的新方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!