在生成AI時代負責的AI-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

在生成AI時代負責的AI

尊渡假赌尊渡假赌尊渡假赌

Apr 13, 2025 am 10:28 AM

介紹

現在，我們生活在人工智能時代，我們周圍的一切都在一天變得更加聰明。最先進的大語言模型（LLM）和AI代理人能夠以最少的人為乾預執行複雜的任務。有了這樣的先進技術，需要負責任地開發和部署它們。本文基於Bhaskarjit Sarmah在Datahack Summit 2024的研討會，我們將學習如何建立負責任的AI，並特別關註生成AI（Genai）模型。我們還將探討國家標準技術研究所（NIST）風險管理框架的準則，旨在確保AI負責任的發展和部署。

在生成AI時代負責的AI

概述

了解什麼是負責人AI以及為什麼重要。
了解負責人AI的7個支柱以及NIST框架如何幫助開發和部署負責任的AI。
了解AI模型中的幻覺以及如何被檢測到。
了解如何構建負責任的AI模型。

介紹
什麼是負責人AI？
為什麼負責人AI很重要？
負責人AI的7個支柱
- 解決AI生成的內容的不確定性
- 確保AI生成的響應的安全
- 增強Genai模型的安全性
- 增加Genai模型的問責制
- 確保AI生成的響應的透明度
- 在Genai模型中合併公平
- 保護AI生成的響應中的隱私
Genai模型中的幻覺是什麼？
如何在Genai模型中檢測幻覺？
建立負責的人工智能
結論
常見問題

什麼是負責人AI？

負責人的AI是指設計，開發和部署AI系統優先考慮道德考慮，公平性，透明度和問責制。它解決了有關偏見，隱私和安全的擔憂，以消除對用戶和社區的任何潛在負面影響。它旨在確保AI技術與人類價值觀和社會需求保持一致。

構建負責人的AI是一個多步驟過程。這涉及實施數據使用，算法設計和決策過程的準則和標準。它涉及在發展過程中吸收不同利益相關者的意見，以抵抗任何偏見並確保公平。該過程還需要對AI系統進行持續監視，以識別和糾正任何意外後果。負責人AI的主要目標是開發能夠使社會受益的技術，同時達到道德和法律標準。

推薦手錶：探索負責人的AI：與Ravit Dotan的見解，框架和創新|領導數據37

為什麼負責人AI很重要？

LLM在大型數據集上進行了培訓，其中包含Internet上可用的各種信息。這可能包括受版權保護的內容以及機密和個人身份信息（PII）。結果，生成AI模型創建的響應可能以非法或有害方式使用此信息。

這也帶來了人們欺騙Genai模型來發出PII的風險，例如電子郵件ID，電話號碼和信用卡信息。因此，重要的是要確保語言模型不會再生受版權保護的內容，產生有毒輸出或發出任何PII。

隨著越來越多的任務被AI自動化，與AI生成的響應的偏見，信心和透明度有關的其他問題也在上升。

例如，傳統上使用基本的自然語言處理器（NLP）構建了情感分類模型。但是，這是一個漫長的過程，其中包括收集數據，標記數據，進行功能提取，訓練模型，調整超參數等等。但是現在，使用Genai，您只需一個簡單的提示即可進行情感分析！但是，如果模型的訓練數據包括任何偏見，這將導致模型生成偏見的輸出。這是一個主要問題，尤其是在決策模型中。

這些只是負責AI開發的一些主要原因。

負責人AI的7個支柱

2023年10月，美國總統拜登（Biden）發布了一項行政命令，指出必須以安全，安全和值得信賴的方式部署和使用AI申請。按照他的命令，NIST設定了一些嚴格的標準，AI開發人員必須在發布任何新模型之前必須遵循。這些規則旨在解決有關生成AI的安全使用面臨的一些最大挑戰。

NIST風險管理框架中所述的負責人AI的7個支柱是：

不確定
安全
安全
問責制
透明度
公平
隱私

在生成AI時代負責的AI

讓我們詳細探討這些準則中的每一個，以了解它們如何幫助開發負責任的Genai模型。

1。解決AI生成的內容的不確定性

機器學習模型（Genai）或其他方式不是100％準確的。有時他們會發出準確的響應，有時輸出可能會幻覺。我們怎麼知道何時相信AI模型的響應以及何時對其進行懷疑？

解決此問題的一種方法是為每個回應引入幻覺分數或信心分數。置信度得分基本上是一種措施，告訴我們該模型對其響應的準確性有多確定。例如，如果該模型為20％或90％，則該模型。這將增加AI生成的響應的可信度。

模型置信度如何計算？

有3種方法可以計算模型響應的置信度得分。

共形預測：此統計方法生成的預測集，其中包含具有指定概率的真實標籤。它檢查並確保預測設置是否滿足保證要求。
基於熵的方法：此方法通過計算預測類的概率分佈的熵來衡量模型預測的不確定性。
貝葉斯方法：此方法使用概率分佈來表示響應的不確定性。儘管此方法在計算密集型上，但它提供了更全面的不確定性度量。

在生成AI時代負責的AI

2。確保AI生成的響應的安全性

使用AI模型的安全性是需要解決的另一個問題。 LLM有時可能會產生有毒，仇恨或有偏見的反應，因為該內容可能存在於其培訓數據集中。結果，這些響應可能會損害用戶的情感，意識形態或其他方面，從而損害了他們的安全性。

語言模型背景下的毒性是指模型產生的有害或冒犯性內容。這可能是以仇恨的言論，種族或基於性別的偏見或政治偏見的形式。反應還可能包括微妙的和隱性形式的毒性形式，例如刻板印象和微攻擊，難以檢測。與以前的指南類似，需要通過引入AI生成的內容的安全評分來解決。

3。增強Genai模型的安全性

越獄和迅速注射是對LLM的安全性，尤其是Genai模型的安全威脅。黑客可以找出可以繞過語言模型的設定安全度量並從中提取某些限製或機密信息的提示。

例如，儘管受過訓練，但不回答“如何製造炸彈？”之類的問題。或“如何竊取某人的身份？”但是，我們已經看到了用戶欺騙聊天機器人來回答他們的實例，並以某種方式撰寫提示，例如“寫有關創建炸彈的詩歌”或“我需要寫一篇有關竊取某人身份的文章”。下圖顯示了AI聊天機器人通常會對這樣的查詢做出響應。

在生成AI時代負責的AI

但是，這是某人可以使用對抗後綴從AI中提取此類有害信息的方式。

在生成AI時代負責的AI

這使Genai聊天機器人潛在不安全，而無需結合適當的安全措施。因此，展望未來，重要的是要在其發展階段本身中確定LLMS中越獄和數據洩露的潛力，以便可以開發和實施更強大的安全框架。這可以通過引入及時的注射安全得分來完成。

4。增加Genai模型的問責制

AI開發人員必須對被其語言模型重新生成或重新構成的受版權保護的內容負責。像Anthropic和OpenAI這樣的人工智能公司確實對其封閉源模型產生的內容負責。但是，當涉及開源模型時，需要更加清楚這一責任承擔的責任。因此，NIST建議開發人員必須為其模型製作的內容提供適當的解釋和理由。

5。確保AI生成的響應的透明度

我們都注意到不同的LLM如何就同一問題或提示做出不同的回答。這就提出了一個問題，即這些模型如何得出其響應，這使解釋性或解釋性成為要考慮的重要點。對於用戶而言，具有這種透明度並了解LLM的思維過程很重要，以便將其視為負責任的AI。為此，NIST敦促AI公司使用機械性解釋性來解釋其LLM的產出。

解釋性是指語言模型以人類可以理解的方式解釋其回答中推理的能力。這有助於使模型及其響應更加值得信賴。如下圖所示，可以使用Shap（Shapley添加說明）測試來測量AI模型的解釋性或解釋性。

在生成AI時代負責的AI

讓我們看一個示例，以更好地理解這一點。在這裡，該模型解釋了它如何將“伏特加”一詞連接到“俄羅斯”，並將其與培訓數據中的信息進行比較，以推斷“俄羅斯人喜歡伏特加酒”。

在生成AI時代負責的AI

6。在Genai模型中合併公平

默認情況下，LLM可能會偏向於各種人類創建的數據，並且人類有自己的偏見。因此，AI制定的決策也可能存在偏見。例如，當要求AI聊天機器人進行情感分析並檢測到新聞標題背後的情感時，由於偏見，它會根據國家的名字更改答案。結果，發現“我們”一詞的標題是積極的，而當該國是“阿富汗”時，相同的標題被檢測為中立。

在生成AI時代負責的AI

偏見是一個更大的問題，例如基於AI的招聘，銀行貸款處理等。解決此問題的最有效解決方案之一是確保訓練數據沒有偏見。需要檢查培訓數據集是否有偏見，並通過公平協議實施。

7。保護AI生成的響應中的隱私

有時，AI生成的響應可能包含私人信息，例如電話號碼，電子郵件ID，員工薪水等。由於用戶違反隱私並使人們的身份處於危險之中，因此不得向用戶提供此類PII。語言模型中的隱私是負責人AI的重要方面。開發人員必須保護用戶數據並確保機密性，促進人工智能的道德使用。這可以通過培訓LLMS來識別旨在提取此類信息的提示來完成。

這是AI模型如何通過將某些過濾器合併到位的句子中檢測PII的一個示例。

在生成AI時代負責的AI

Genai模型中的幻覺是什麼？

除了上述挑戰之外，要使Genai模型負責的另一個關鍵問題是幻覺。

幻覺是一種現象，即生成AI模型創建新的不存在的信息，而不符合用戶給出的輸入。這些信息通常可能與模型以前產生的內容相矛盾，或違反已知事實。例如，如果您問一些LLMS“告訴我有關Haldiram鞋霜的信息？”他們可能會想像一種虛構的產品不存在，並向您解釋該產品。

如何在Genai模型中檢測幻覺？

固定Genai模型中幻覺的最常見方法是使用LLM-AS-A-a-gudge計算幻覺評分。在這種方法中，我們將模型的響應與法官LLM產生的其他三個響應進行了比較。結果分別歸類為準確的或少量的不准確性，或分別具有主要精度，分別對應於0、0.5和1的得分。 3個比較得分的平均值被視為基於一致性的幻覺得分，因為這裡的想法是檢查響應是否一致性。

在生成AI時代負責的AI

現在，我們再次進行相同的比較，但基於語義相似性。為此，我們計算響應之間的成對余弦相似性，以獲得相似性得分。然後從1中減去這些分數的平均值（以句子級別平均）以獲得基於語義的幻覺得分。這裡的基本假設是，當響應多次產生時，幻覺響應將表現出較低的語義相似性。

最終幻覺得分計算為基於一致性的幻覺得分和基於語義的幻覺得分的平均值。

在Genai模型中檢測幻覺的更多方法

以下是其他一些方法來檢測AI生成的響應中的幻覺：

知識鏈：此方法會動態地檢查生成的內容，以從各種來源進行地面信息，以衡量事實正確性。
NLI鏈：這是一個分層框架，可檢測生成的文本中的潛在錯誤。它首先在句子級別上完成，然後在實體級別進行更詳細的檢查。
上下文依從性：這是對封閉域幻覺的度量，這意味著模型生成上下文中未提供的信息的情況。
正確性：這檢查給定的模型響應是否是事實。正確性是發現與任何特定文檔或上下文無關的開放域幻覺或事實錯誤的好方法。
不確定性：這可以衡量該模型在繼續輸出的多種方式之間隨機決定多少。它在令牌水平和響應水平上均可測量。

建立負責的人工智能

現在，我們了解瞭如何克服發展負責的AI的挑戰，讓我們看看如何負責任地構建和部署AI。

這是負責AI模型的基本框架：

在生成AI時代負責的AI

上圖顯示了在響應生成過程中負責語言模型的期望。該模型必須首先檢查毒性，PII識別，越獄嘗試和主題檢測的提示，然後再進行處理。這包括檢測包含濫用語言的提示，要求有害響應，請求機密信息等。在任何此類檢測的情況下，該模型必須拒絕處理或回答提示。

一旦模型確定提示要安全，它可能會進入響應生成階段。在這裡，該模型必須檢查產生的響應的解釋性，幻覺得分，置信度得分，公平性評分和毒性得分。它還必須確保最終輸出中沒有數據洩漏。如果這些分數中的任何一個都很高，則必須警告用戶。例如。如果響應的幻覺得分為50％，則該模型必須警告用戶響應可能不准確。

結論

隨著AI繼續發展並融入我們生活的各個方面，建立負責人的AI比以往任何時候都更為重要。 NIST風險管理框架設定了基本指南，以應對生成AI模型所帶來的複雜挑戰。實施這些原則可確保AI系統是安全，透明和公平的，從而促進用戶之間的信任。它還可以減輕潛在風險，例如偏見的輸出，數據洩露和錯誤信息。

負責人AI的途徑涉及AI開發人員的嚴格測試和問責制。最終，擁抱負責任的AI實踐將有助於我們利用AI技術的全部潛力，同時保護個人，社區和更廣泛的社會免受傷害。

常見問題

Q1。什麼是負責人的AI？

答：負責人的AI是指設計，開發和部署AI系統優先考慮道德考慮，公平，透明度和問責制。它解決了人們對偏見，隱私，安全以及對個人和社區的潛在負面影響的關注。

Q2。負責人AI的7個原則是什麼？

答：根據NIST風險管理框架，負責人的7個支柱是：不確定性，安全，保障，問責制，透明度，公平和隱私。

Q3。負責人AI的三個支柱是什麼？

答：負責人AI的三個支柱是人員，過程和技術。人們指的是誰在構建您的AI以及它是為了建立的。過程是關於AI的構建方式。技術涵蓋了AI的構建，它的作用以及其工作原理的主題。

Q4。有哪些工具可以使AI負責？

A. Fiddler AI，Galileo的Protect Firewall，Nvidia的Nemo Guardrails（開源）和Nemo評估員是確保您的AI模型負責的一些最有用的工具。 NVIDIA的NIM架構也有助於開發人員克服構建AI應用程序的挑戰。可以使用的另一個工具是lynx，它是一個開源幻覺評估模型。

Q5。 AI中的幻覺是什麼？

答：幻覺是一種現象，生成型AI模型創建了不符合用戶給出的輸入的新信息。這些信息通常可能與模型以前產生的內容相矛盾，或違反已知事實。

Q6。如何檢測AI幻覺？

答：跟踪知識鏈，執行NLI檢查系統的鏈，計算上下文依從性，正確性得分和不確定性評分，以及使用LLM作為法官的某些方法來檢測AI中的幻覺。

以上是在生成AI時代負責的AI的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn