検索

導入

私たちは今、人工知能の時代に住んでおり、私たちの周りのすべてがその日まで賢くなっています。最先端の大規模な言語モデル(LLMS)およびAIエージェントは、最小限の人間の介入で複雑なタスクを実行できます。このような高度なテクノロジーに伴い、責任を持って開発および展開する必要があります。この記事は、2024年のDatahack SummitのBhaskarjit Sarmahのワークショップに基づいており、生成AI(Genai)モデルに特に焦点を当てて、責任あるAIを構築する方法を学びます。また、AIの責任ある開発と展開を確保するために設定された、国立標準技術研究所(NIST)リスク管理フレームワークのガイドラインも検討します。

生成AIの時代の責任AI

概要

  • 責任あるAIとは何か、そしてそれが重要である理由を理解してください。
  • 責任あるAIの7つの柱と、NISTフレームワークが責任あるAIの開発と展開にどのように役立つかについて学びます。
  • AIモデルの幻覚とそれがどのように検出されるかを理解してください。
  • 責任あるAIモデルを構築する方法を学びます。

目次

  • 導入
  • 責任あるAIは何ですか?
  • 責任あるAIが重要なのはなぜですか?
  • 責任あるAIの7つの柱
    • AIに生成されたコンテンツの不確実性の修正
    • AIに生成された応答の安全性を確保します
    • genaiモデルのセキュリティの強化
    • genaiモデルの説明責任を高めます
    • AIに生成された応答の透明性を確保します
    • genaiモデルに公平性を組み込む
    • AIに生成された応答のプライバシーの保護
  • genaiモデルの幻覚とは何ですか?
  • genaiモデルの幻覚を検出する方法は?
  • 責任あるAIの構築
  • 結論
  • よくある質問

責任あるAIは何ですか?

責任あるAIとは、倫理的な考慮事項、公平性、透明性、および説明責任を優先するAIシステムの設計、開発、展開を指します。ユーザーやコミュニティへの潜在的なマイナスの影響を排除するために、バイアス、プライバシー、セキュリティに関する懸念に対処します。 AIテクノロジーが人間の価値と社会的ニーズに合わせていることを保証することを目的としています。

責任あるAIの構築は、マルチステッププロセスです。これには、データ使用、アルゴリズムの設計、意思決定プロセスのガイドラインと標準の実装が含まれます。これには、開発プロセスにおける多様な利害関係者からの意見を取り、バイアスと戦い、公平を確保することが含まれます。また、このプロセスでは、意図しない結果を特定して修正するために、AIシステムの継続的な監視が必要です。責任あるAIの主な目標は、倫理的および法的基準を満たしながら社会に利益をもたらす技術を開発することです。

推奨ウォッチ:責任あるAIの探索:Ravit Dotanとの洞察、フレームワーク、イノベーション|データ37でリード

責任あるAIが重要なのはなぜですか?

LLMは、インターネット上で利用可能な多様な情報を含む大規模なデータセットでトレーニングされています。これには、著作権で保護されたコンテンツと、機密および個人識別可能な情報(PII)が含まれる場合があります。その結果、生成AIモデルによって作成された応答は、この情報を違法または有害な方法で使用する場合があります。

これはまた、Genaiモデルをtrickして、電子メールID、電話番号、クレジットカード情報などのPIIを提供するリスクをもたらします。したがって、言語モデルが著作権で保護されたコンテンツを再生したり、有毒な出力を生成したり、PIIを提供したりしないようにすることが重要です。

AIによってますます多くのタスクが自動化されると、AI生成された応答のバイアス、自信、および透明性に関連する他の懸念も増加しています。

たとえば、センチメント分類モデルは、基本的な自然言語プロセッサ(NLP)を使用して伝統的に構築されていました。ただし、これは、データの収集、データのラベル付け、機能抽出の実行、モデルのトレーニング、ハイパーパラメーターの調整などを含む長いプロセスでした。ただし、モデルのトレーニングデータにバイアスが含まれている場合、これによりモデルがバイアス出力を生成します。これは、特に意思決定モデルにおいて、大きな懸念事項です。

これらは、責任あるAI開発が時間の必要性である理由に関する主な理由のほんの一部です。

責任あるAIの7つの柱

2023年10月、バイデン米国大統領は、AIアプリケーションを安全で安全で信頼できる方法で展開し、使用する必要があることを示す大統領命令を発表しました。彼の注文に続いて、NISTは、新しいモデルをリリースする前にAI開発者が従わなければならないいくつかの厳しい基準を設定しました。これらのルールは、生成AIの安全な使用に関して直面している最大の課題のいくつかに対処するように設定されています。

NISTリスク管理フレームワークに記載されているように、責任あるAIの7つの柱は次のとおりです。

  1. 不確実性
  2. 安全性
  3. 安全
  4. 説明責任
  5. 透明性
  6. 公平性
  7. プライバシー

生成AIの時代の責任AI

これらのガイドラインのそれぞれを詳細に検討して、責任あるGenaiモデルの開発にどのように役立つかを確認しましょう。

1。AIに生成されたコンテンツの不確実性の修正

機械学習モデル、Genaiまたはその他は、100%正確ではありません。正確な応答を提供する場合があり、出力が幻覚になる場合があります。 AIモデルの応答をいつ信頼するか、そしてそれを疑うタイミングをどのように知ることができますか?

この問題に対処する1つの方法は、すべての応答に幻覚スコアまたは信頼スコアを導入することです。信頼性スコアは、基本的に、モデルがその応答の精度をどれだけ確実にするかを伝えるための尺度です。たとえば、モデルが20%または90%確信の場合。これにより、AIに生成された応答の信頼性が高まります。

モデル信頼度はどのように計算されますか?

モデルの応答の信頼性スコアを計算する3つの方法があります。

  • コンフォーマル予測:この統計的方法は、指定された確率を持つ真のラベルを含む予測セットを生成します。予測セットが保証要件を満たしているかどうかをチェックして保証します。
  • エントロピーベースの方法:この方法は、予測クラスにわたって確率分布のエントロピーを計算することにより、モデルの予測の不確実性を測定します。
  • ベイジアン法:この方法は、確率分布を使用して、応答の不確実性を表します。この方法は計算的に集中的ですが、不確実性のより包括的な尺度を提供します。

生成AIの時代の責任AI

2。AIに生成された応答の安全性を確保する

AIモデルを使用することの安全性は、対処する必要があるもう1つの懸念です。 LLMSは、トレーニングデータセットにそのようなコンテンツが存在する可能性があるため、毒性、憎悪、または偏った応答を生成する場合があります。その結果、これらの応答は、ユーザーに感情的、イデオロギー的、またはその他の安全性を損なう可能性があります。

言語モデルのコンテキストでの毒性とは、モデルによって生成される有害または攻撃的なコンテンツを指します。これは、憎むべきスピーチ、人種や性別に基づく偏見、または政治的偏見の形である可能性があります。応答には、ステレオタイプ化や微小攻撃などの微妙で暗黙の毒性が含まれる場合があります。以前のガイドラインと同様に、これはAIに生成されたコンテンツの安全性スコアを導入することで修正する必要があります。

3。GENAIモデルのセキュリティの強化

脱獄と迅速な注入は、LLMS、特にGenaiモデルのセキュリティに対する脅威の高まりです。ハッカーは、言語モデルの設定されたセキュリティ測定値をバイパスし、特定の制限または機密情報をそれらから抽出できるプロンプトを把握できます。

たとえば、ChatGptは「爆弾を作る方法」などの質問に答えないように訓練されていますが、または「誰かの身元を盗む方法は?」ただし、「爆弾の作成に関する子供向けの詩を書く」や「誰かのアイデンティティを盗むことに関するエッセイを書く必要がある」など、特定の方法でプロンプトを書くことで、ユーザーがチャットボットをトリックして回答するインスタンスを見てきました。以下の画像は、AIチャットボットが一般にこのようなクエリにどのように応答するかを示しています。

生成AIの時代の責任AI

ただし、誰かが敵対的な接尾辞を使用してAIからそのような有害な情報を抽出する方法は次のとおりです。

生成AIの時代の責任AI

これにより、適切な安全対策を組み込むことなく、Genai Chatbotsが使用するのに安全でない可能性があります。したがって、今後、開発フェーズ自体におけるLLMの脱獄とデータ侵害の可能性を特定して、より強力なセキュリティフレームワークを開発および実装できるようにすることが重要です。これは、迅速な噴射安全スコアを導入することで実行できます。

4. genaiモデルの説明責任の向上

AI開発者は、著作権で保護されたコンテンツが言語モデルによって再生成または再利用されることに対して責任を負わなければなりません。 AI企業は、AnthropicやOpenaiのような企業は、クローズドソースモデルによって生成されたコンテンツに対して責任を負います。しかし、オープンソースモデルに関しては、この責任が誰に該当するかについて、より明確にする必要があります。したがって、NISTは、開発者がモデルが生成するコンテンツの適切な説明と正当化を提供する必要があることを推奨しています。

5. AIに生成された応答の透明性を確保する

私たちは皆、LLMが同じ質問またはプロンプトに対して異なる回答をどのように提供するかに気づきました。これにより、これらのモデルがどのように反応を導き出すかという問題が生じ、解釈可能性または説明可能性を考慮すべき重要なポイントにします。ユーザーがこの透明性を持ち、LLMの思考プロセスを理解して、責任あるAIと見なすことが重要です。このため、NISTは、AI企業が機械的解釈可能性を使用してLLMの出力を説明することを促しています。

解釈性とは、人間が理解できる方法で、反応の推論を説明する言語モデルの能力を指します。これは、モデルとその応答をより信頼できるものにするのに役立ちます。以下の画像に示すように、AIモデルの解釈可能性または説明可能性は、SHAP(Shapley Additive説明)テストを使用して測定できます。

生成AIの時代の責任AI

これをよりよく理解するための例を見てみましょう。ここでは、モデルは「ウォッカ」という言葉を「ロシア」に結びつける方法を説明し、トレーニングデータからの情報と比較して、「ロシア人がウォッカが大好き」を推測します。

生成AIの時代の責任AI

6. genaiモデルに公平性を組み込む

LLMは、デフォルトでは、さまざまな人間によって作成されたデータで訓練されており、人間には独自の偏見があるため、偏見があります。したがって、Gen AI-Madeの決定も偏っている可能性があります。たとえば、AIチャットボットがセンチメント分析を実施し、ニュースの見出しの背後にある感情を検出するように求められた場合、バイアスのために国の名前に基づいて答えを変更します。その結果、「私たち」という言葉のタイトルは肯定的であると検出されますが、国が「アフガニスタン」であるときに同じタイトルが中立として検出されます。

生成AIの時代の責任AI

AIベースの雇用、銀行ローン処理など、AIがバイアスに基づいて選択を行う可能性のあるタスクに関しては、バイアスははるかに大きな問題です。この問題の最も効果的な解決策の1つは、トレーニングデータが偏っていないことを保証することです。トレーニングデータセットには、見た目のバイアスを確認し、公平性プロトコルで実装する必要があります。

7. AIに生成された応答のプライバシーの保護

AIに生成された回答には、電話番号、電子メールID、従業員の給与などの個人情報が含まれている場合があります。そのようなPIIは、プライバシーに違反し、人々の身元を危険にさらすため、ユーザーに配らないでください。したがって、言語モデルのプライバシーは、責任あるAIの重要な側面です。開発者は、ユーザーデータを保護し、機密性を確保し、AIの倫理的使用を促進する必要があります。これは、そのような情報を抽出することを目的としたプロンプトを特定し、応答しないLLMSをトレーニングすることで実行できます。

一部のフィルターを所定の位置に組み込むことにより、AIモデルが文でPIIを検出する方法の例を次に示します。

生成AIの時代の責任AI

genaiモデルの幻覚とは何ですか?

上記の課題とは別に、gena​​iモデルを責任を負わせるために対処する必要があるもう1つの重要な懸念は幻覚です。

幻覚は現象であり、生成AIモデルは、ユーザーが与えられた入力と一致しない新しい存在しない情報を作成します。この情報は、多くの場合、モデルが以前に生成したものと矛盾するか、既知の事実に反している場合があります。たとえば、LLMSに「Haldiram Shoe Creamについて教えてください」と尋ねると、」彼らは存在しない架空の製品を想像し、その製品について説明するかもしれません。

genaiモデルの幻覚を検出する方法は?

Genaiモデルの幻覚を修正する最も一般的な方法は、LLM-As-A-A-Judgeを使用して幻覚スコアを計算することです。この方法では、同じプロンプトについて、裁判官LLMによって生成された3つの追加の応答とモデルの応答を比較します。結果は、それぞれ0、0.5、および1のスコアに対応する、正確または軽度の不正確さのいずれか、または主要な精度で分類されます。ここでのアイデアは、一貫性があることを確認することであったため、3つの比較スコアの平均は一貫性ベースの幻覚スコアとして取得されます。

生成AIの時代の責任AI

今、私たちは再び同じ比較をしますが、セマンティックな類似性に基づいています。このため、応答間のペアワイズコサインの類似性を計算して、類似性スコアを取得します。次に、これらのスコアの平均(文レベルで平均)を1から差し引いて、セマンティックベースの幻覚スコアを取得します。ここでの根本的な仮説は、応答が複数回生成されると、幻覚応答がより低い意味類似性を示すということです。

最終的な幻覚スコアは、一貫性ベースの幻覚スコアとセマンティックベースの幻覚スコアの平均として計算されます。

genaiモデルの幻覚を検出する方法

AIに生成された応答で幻覚を検出するために採用されている他の方法を以下に示します。

  • Chain-of-knowledge:この方法は、生成されたコンテンツをさまざまなソースから情報に動的にクロスチェックして、事実上の正確性を測定します。
  • NLIのチェーン:これは、生成されたテキストの潜在的なエラーを検出する階層的なフレームワークです。最初に文レベルで行われ、次にエンティティレベルでより詳細なチェックが行われます。
  • コンテキストの順守:これは、閉じたドメインの幻覚の尺度であり、モデルがコンテキストで提供されていない情報を生成する状況を意味します。
  • 正確性:これは、特定のモデル応答が事実であるかどうかをチェックします。正確性は、特定の文書やコンテキストに関連しないオープンドメインの幻覚や事実上の誤りを明らかにする良い方法です。
  • 不確実性:これにより、モデルが出力を継続する複数の方法をランダムに決定している量を測定します。トークンレベルと応答レベルの両方で測定されます。

責任あるAIの構築

責任あるAIの開発の課題を克服する方法を理解したので、AIを責任を持って構築および展開する方法を見てみましょう。

責任あるAIモデルの基本的なフレームワークは次のとおりです。

生成AIの時代の責任AI

上の画像は、応答生成プロセス中に責任ある言語モデルに期待されることを示しています。モデルは、最初にプロンプ​​トの毒性、PIIの識別、脱獄の試み、およびそれを処理する前に、トピック外の検出をチェックする必要があります。これには、虐待的な言語を含むプロンプトの検出、有害な応答の要求、機密情報の要求などが含まれます。そのような検出の場合、モデルはプロセスの処理または応答を拒否する必要があります。

モデルが安全であるためにプロンプ​​トを特定すると、応答生成段階に移動する可能性があります。ここでは、モデルは解釈可能性、幻覚スコア、信頼性スコア、フェアネススコア、および生成された応答の毒性スコアを確認する必要があります。また、最終出力にデータリークがないことを確認する必要があります。これらのスコアのいずれかが高い場合、ユーザーに警告する必要があります。例えば。応答の幻覚スコアが50%の場合、モデルはユーザーに応答が正確でない可能性があることを警告する必要があります。

結論

AIが進化し続け、私たちの生活のさまざまな側面に統合し続けるにつれて、責任あるAIの構築はかつてないほど重要です。 NISTリスク管理フレームワークは、生成AIモデルによってもたらされる複雑な課題に対処するための重要なガイドラインを設定します。これらの原則を実装することで、AIシステムが安全で透明性があり、公平であり、ユーザー間の信頼を促進することが保証されます。また、偏った出力、データ侵害、誤った情報などの潜在的なリスクを軽減します。

責任あるAIへのパスには、AI開発者からの厳密なテストと説明責任が含まれます。最終的に、責任あるAIプラクティスを受け入れることは、個人、コミュニティ、およびより広範な社会を害から保護しながら、AIテクノロジーの最大限の可能性を活用するのに役立ちます。

よくある質問

Q1。責任あるAIとは何ですか?

A.責任あるAIとは、倫理的な考慮事項、公平性、透明性、および説明責任を優先するAIシステムの設計、開発、展開を指します。バイアス、プライバシー、セキュリティ、および個人やコミュニティへの潜在的なマイナスの影響に関する懸念に対処しています。

Q2。責任あるAIの7つの原則は何ですか?

A. NISTリスク管理フレームワークによると、責任あるAIの7つの柱は、不確実性、安全性、セキュリティ、説明責任、透明性、公平性、プライバシーです。

Q3。責任あるAIの3つの柱は何ですか?

A.責任あるAIの3つの柱は、人、プロセス、および技術です。人々は、誰があなたのAIを構築しているのか、誰のために構築されているのかを指します。プロセスとは、AIの構築方法に関するものです。テクノロジーは、AIが構築されているもの、それが何をするか、どのように機能するかのトピックをカバーしています。

Q4。 AIを責任を負わせるためのツールは何ですか?

A. Fiddler AI、Galileo's Protect Firewall、NvidiaのNemo Guardrails(オープンソース)、およびNemo評価者は、AIモデルが責任を負うための最も有用なツールの一部です。 NvidiaのNIMアーキテクチャは、開発者がAIアプリケーションを構築するという課題を克服するのにも役立ちます。使用できるもう1つのツールは、オープンソースの幻覚評価モデルであるLynxです。

Q5。 AIの幻覚とは何ですか?

A.幻覚は、生成AIモデルがユーザーが与えられた入力と一致しない新しい存在しない情報を作成する現象です。この情報は、多くの場合、モデルが以前に生成したものと矛盾するか、既知の事実に反している場合があります。

Q6。 AI幻覚を検出する方法は?

A.チェーンの追跡、NLIチェックシステムのチェーンを実行し、コンテキストの順守、正確性スコア、不確実性スコアの計算、およびJUDSとしてLLMを使用することは、AIの幻覚を検出する方法の一部です。

以上が生成AIの時代の責任AIの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
LLMSでのツール呼び出しLLMSでのツール呼び出しApr 14, 2025 am 11:28 AM

大規模な言語モデル(LLM)は人気が急増しており、ツールコール機能は単純なテキスト生成を超えて機能を劇的に拡大しています。 これで、LLMSは動的なUI作成や自律的なaなどの複雑な自動化タスクを処理できます。

ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法Apr 14, 2025 am 11:27 AM

ビデオゲームは不安を緩和したり、ADHDの子供を焦点を合わせたり、サポートしたりできますか? ヘルスケアの課題が世界的に急増しているため、特に若者の間では、イノベーターはありそうもないツールであるビデオゲームに目を向けています。現在、世界最大のエンターテイメントインダスの1つです

AIに関する国連入力:勝者、敗者、および機会AIに関する国連入力:勝者、敗者、および機会Apr 14, 2025 am 11:25 AM

「歴史は、技術の進歩が経済成長を促進する一方で、それ自体が公平な所得分布を確保したり、包括的な人間開発を促進したりしないことを示しています」とUNCTADの事務総長であるRebeca Grynspanは前文で書いています。

生成AIを介した交渉スキルを学ぶ生成AIを介した交渉スキルを学ぶApr 14, 2025 am 11:23 AM

簡単な、Generative AIを交渉の家庭教師およびスパーリングパートナーとして使用してください。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIに関する私の進行中のフォーブス列のカバレッジの一部であり、特定と説明を含む

テッドは、Openai、Google、Metaが法廷に向かい、自分自身とセルフィーから明らかにしますテッドは、Openai、Google、Metaが法廷に向かい、自分自身とセルフィーから明らかにしますApr 14, 2025 am 11:22 AM

バンクーバーで開催されたTED2025会議は、昨日4月11日の第36版を締めくくりました。サム・アルトマン、エリック・シュミット、パーマー・ラッキーを含む60か国以上の80人の講演者が登場しました。テッドのテーマ「人類が再考された」は、仕立てられたものでした

ジョセフ・スティグリッツは、AI独占権の中で迫り来る不平等を警告しているジョセフ・スティグリッツは、AI独占権の中で迫り来る不平等を警告しているApr 14, 2025 am 11:21 AM

ジョセフ・スティグリッツは、2001年にノーベル経済賞を受賞した経済学者であり、2001年にノーベル経済賞を受賞しています。スティグリッツは、AIが既存の不平等を悪化させ、いくつかの支配的な企業の手に統合した力を悪化させ、最終的に経済を損なうと仮定しています。

グラフデータベースとは何ですか?グラフデータベースとは何ですか?Apr 14, 2025 am 11:19 AM

グラフデータベース:関係を通じてデータ管理に革命をもたらす データが拡大し、その特性がさまざまなフィールドで進化するにつれて、グラフデータベースは、相互接続されたデータを管理するための変換ソリューションとして浮上しています。伝統とは異なり

LLMルーティング:戦略、テクニック、およびPythonの実装LLMルーティング:戦略、テクニック、およびPythonの実装Apr 14, 2025 am 11:14 AM

大規模な言語モデル(LLM)ルーティング:インテリジェントタスク分布によるパフォーマンスの最適 LLMSの急速に進化する風景は、それぞれが独自の長所と短所を備えた多様なモデルを提供します。 創造的なコンテンツGenに優れている人もいます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、