首頁  >  文章  >  科技週邊  >  大型語言模型要避免的六個陷阱

大型語言模型要避免的六個陷阱

王林
王林轉載
2023-05-12 13:01:351276瀏覽

從安全和隱私問題到錯誤訊息和偏見,大型語言模型帶來了風險和回報。

最近人工智慧(AI)取得了令人難以置信的進步,這主要是由於開發大型語言模型的進步。這些都是文字和程式碼產生工具的核心,例如ChatGPT、Bard和GitHub的Copilot。

這些模式正在被所有部門採用。但是,它們是如何被創造和使用的,以及它們如何被濫用,仍然令人擔憂。一些國家已經決定採取激進的方法,暫時禁止特定的大型語言模型,直到適當的法規到位。

以下來看看基於大型語言模型的工具在現實世界中的一些不利影響,以及減輕這些影響的一些策略。

1.惡意的內容

大型語言模型可以在許多方面提高生產力。它們能夠解釋人們的請求並解決相當複雜的問題,這意味著人們可以把平凡、耗時的任務交給最喜歡的聊天機器人,然後簡單地檢查結果。

當然,權力越大,責任越大。雖然大型語言模型可以創建有用的材料並加快軟體開發,但它們也可以快速存取有害訊息,加速壞人的工作流程,甚至生成惡意內容,如網路釣魚電子郵件和惡意軟體。當進入門檻低到只需編寫一個構造良好的聊天機器人提示符時,「腳本小子」一詞就有了全新的含義。

雖然有一些方法可以限制存取客觀上危險的內容,但它們並不總是可行或有效的。就像聊天機器人這樣的託管服務而言,內容過濾至少可以幫助沒有經驗的使用者減慢速度。實現強大的內容過濾器應該是必要的,但它們並不是無所不能的。

2.提示注射

特製的提示符可以迫使大型語言模型忽略內容過濾器並產生非法輸出。這個問題普遍存在於所有llm,但隨著這些模型與外部世界的聯繫,這個問題將被放大;例如,作為ChatGPT的插件。這可以使聊天機器人「eval」使用者產生的程式碼,從而導致任意程式碼的執行。從安全的角度來看,為聊天機器人配備這種功能是非常有問題的。

為了幫助緩解這種情況,了解基於llm的解決方案的功能以及它如何與外部端點互動是很重要的。確定它是否已連接到API,是否正在運行社交媒體帳戶,或者是否在沒有監督的情況下與客戶交互,並相應地評估線程模型。

雖然提示注入在過去可能看起來無關緊要,但這些攻擊現在可能會產生非常嚴重的後果,因為它們開始執行生成的程式碼,整合到外部API中,甚至讀取瀏覽器標籤。

3.隱私資料/侵犯版權

訓練大型語言模型需要大量的數據,有些模型的參數超過5000億個。在這種規模下,了解出處、作者身份和版權狀態是一項艱鉅的任務,如果不是不可能的話。未經檢查的訓練集可能導致模型洩露私有資料、錯誤地歸因於引用或剽竊受版權保護的內容。

關於大型語言模型所使用的資料隱私法也非常模糊。正如我們在社群媒體上了解到的那樣,如果某樣東西是免費的,那麼很可能用戶就是產品。值得記住的是,如果人們要求聊天機器人在我們的程式碼中找到錯誤或編寫敏感文檔,我們就會將這些資料發送給第三方,他們最終可能會將其用於模型培訓、廣告或競爭優勢。人工智慧提示的資料外洩在商業環境中尤其具有破壞性。

隨著基於大型語言模型的服務與Slack和Teams等工作場所生產力工具整合在一起,仔細閱讀提供者的隱私權政策、了解人工智慧提示的使用方式,並相應地規範大型語言模型在工作場所的使用,這一點至關重要。在版權保護方面,我們需要透過選擇加入或特殊授權來規範資料的取得和使用,而不妨礙我們今天擁有的開放和基本上自由的網路。

4.錯誤訊息

雖然大型語言模型們可以令人信服地假裝聰明,但他們並不真正「理解」他們所生產的東西。相反,他們的貨幣是單字之間的機率關係。他們無法區分事實和虛構——一些產出可能看起來非常可信,但結果是一個自信的措辭不真實。這方面的一個例子是ChatGPT篡改引文,甚至整篇論文,正如一位Twitter用戶最近直接發現的。

大型語言模型工具在大量的任務中可以證明是非常有用的,但人類必須參與驗證其回應的準確性、益處和整體合理性。

對於LLM工具的輸出,應該始終持保留態度。這些工具在大量任務中非常有用,但人類必須參與驗證其反應的準確性、益處和整體合理性。否則,我們會失望的。

5.有害的建議

在網路上聊天時,越來越難分辨你是在和人說話還是在和機器說話,有些實體可能會試圖利用這一點。例如,今年早些時候,一家心理健康科技公司承認,一些尋求線上諮詢的用戶在不知情的情況下與基於gpt3的機器人而不是人類志工進行了互動。這引起了人們對在精神健康保健和任何其他依賴解釋人類情感的環境中使用大型語言模型的倫理擔憂。

目前,幾乎沒有監管監督來確保公司在沒有最終用戶明確同意的情況下不能以這種方式利用人工智慧。此外,對手可以利用令人信服的人工智慧機器人進行間諜活動、詐騙和其他非法活動。

人工智慧沒有情感,但它的反應可能會傷害人們的感情,甚至導致更悲慘的後果。認為人工智慧解決方案可以負責任地、安全地充分解釋和回應人們的情感需求是不負責任的。

在醫療保健和其他敏感應用中使用大型語言模型應受到嚴格監管,以防止對使用者造成任何傷害的風險。基於llm的服務提供者應該始終告知使用者AI對服務的貢獻範圍,並且與bot互動應該始終是一種選擇,而不是預設設定。

6.偏見

人工智慧解決方案的好壞取決於它們所接受的訓練資料。這些數據通常反映了我們對政黨、種族、性別或其他人口統計的偏見。偏見會對受影響的群體帶來負面影響,在這種情況下,模型會做出不公平的決定,而且可能既微妙又可能難以解決。在未經審查的網路資料上訓練的模型總是會反映出人類的偏見;不斷從使用者互動中學習的模型也容易被故意操縱。

為了減少歧視的風險,大型語言模型服務提供者必須仔細評估他們的培訓資料集,以避免任何可能導致負面後果的不平衡。機器學習模型也應該定期檢查,以確保預測保持公平和準確。

大型語言模型完全重新定義了我們與軟體互動的方式,為我們的工作流程帶來了無數的改進。然而,由於目前缺乏針對人工智慧的有意義的法規,以及針對機器學習模型的安全性缺乏,廣泛而倉促的大型語言模型實施可能會出現重大挫折。因此,必須迅速監管和保護這項寶貴的技術。 ?

以上是大型語言模型要避免的六個陷阱的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除