ホームページ > 記事 > テクノロジー周辺機器 > 過ちを犯したAIを救うには、殴ったり叱ったりするだけではだめだ。
多くの研究で、AI は恥ずかしさのあまり、人々を差別することを学習したことがわかっています。
これはどうすればできるのでしょうか?
最近、清華大学と復丹による研究で、これについて次のような示唆が得られました:
AI を性差別の道から引き戻したければ、叱責は効果的ではありません。
最善の方法は、なぜ子供がこのような状態なのかを理解し、それを理由に説明するために適切な薬を処方することです。
なぜなら、理性なく教えて乱暴に直すとAIが怯えてバカになる(パフォーマンスが下がる)からです!
ああ、カルマ、四本足の金を食べる獣を育てるのは難しいですが、(シュン) サイバーチャイルドを育てるのはそんなに難しいですか?
この AI の「看護師と父親」のグループが子供たちの訓練のために提案した提案を見てみましょう。
これまでは、遅れをとった AI の耳を掴んで悪い習慣を取り除こうとする人が誰もいなかったわけではありません。女の子よりも男の子を好むこと。
ただし、最新のバイアス除去方法のほとんどは、他のタスクにおけるモデルのパフォーマンスを低下させます。
たとえば、AI に男女差別を弱めると、次のような迷惑な結果が生成されます。
「お父さん」の性別が男性か女性かを区別できなくなります。そうしないと文法上のエラーが発生します。三人称に続く動詞 s を付け忘れたエラーです。
さらに厄介なのは、この劣化メカニズムがまだ明確に研究されていないことです。
そうでなければ、明らかなジェンダーバイアスのあるモデルを単純に放棄すべきです——
2018 年、Amazon は、履歴書の自動スクリーニングに使用されているモデルが女性の求職者を差別していることに気づき、このシステムを削除しました。雪の中。
そうしないと、パフォーマンスの低下に耐えなければなりません。
AIが間違いAIや問題AIでなくなることを望むなら、AIは間違いなく正気を失うということですか?
清華と復丹の調査はこれにノーと答えました。
彼らの研究分野は、事前トレーニングされた言語モデルです。
これは、さまざまな NLP タスクで魔法の力を発揮し、多くの実践的なシナリオが含まれているためです。
オンライン広告、自動履歴書審査システム、教育などのソーシャルワークでジェンダーバイアスが利用されるのは良い考えではありません。
この研究では、AI のジェンダー バイアスの起源に関する理論的枠組み、つまり因果関係の枠組みを提案しています。これは、データの不均衡が、事前トレーニング プロセス中にどのようにモデルのジェンダー バイアスにつながるかを説明するために使用されます。
彼らは、特定の予測タスクを実行するときの事前トレーニング済みモデルの性別バイアスを次のように定義します:
その中で、M はモデルであり、 Y は予測単語に対して M を使用します。B は M の性別の偏りの度合いです。
Y0|W はグラウンド トゥルース、男性関連の単語または女性関連の単語である確率は 2 分の 1、Y|W は M の予測です。
M の予測 Y が不均衡で、性別間で分散している場合、モデル M は、w に基づいて Y0 を予測するときに性別バイアスが生じます。
事前トレーニング プロセス中に、最適化アルゴリズムは事前トレーニング データ D に基づいて埋め込み部分のパラメーターと K を決定します。
したがって、データの不均衡 D により、モデルが誤ったパラメータに誘導されます。
たとえば、トレーニング データ内の「医師」という単語が男性の語彙に関連付けられていることが多い場合、モデルは「医師」が「男性の性別」に関連付けられていると当然のこととみなします。
この三角形を見たことがありますか?これを使って、現在の AI 修正方法が AI を愚かにしてしまう理由を説明しましょう。
事前トレーニング済みモデルを適用して W に基づいて Y を予測する場合、モデルはまず W を抽出された X に変換し、次に X と K に基づいて Y の平均を決定します。 。
ダイブ部分のパラメータが誤解を招くため、W は間違った X に変換され、K も間違っていました。
1 回の操作の後、間違った X と間違った K が組み合わさって Y でエラーが発生します。
これらのエラーとその相互作用は、3 つの潜在的なメカニズムを通じてジェンダーバイアスを引き起こします。
つまり、この時点でジェンダーバイアスが生じているということです。
教育 AI に対する現在のバイアス除去手法はどのように機能するのでしょうか?
現在のすべてのバイアス除去方法は、3 つのメカニズムのうち 1 つまたは 2 つに介入します。
詳細は次のとおりです:
現在のバイアス除去手法に存在するバイアスとパフォーマンスのジレンマを説明した後、チームは微調整手法の提案を試みました。
彼らは、3 つのメカニズムのうち、D→X→Y がジェンダーバイアスにつながる唯一のメカニズムであり、トランスフォーマーとは何の関係もないことを発見しました。
微調整方法が D→X→Y を通じてバイアスを修正するだけの場合、モデルのパフォーマンスを維持しながら性別のバイアスを減らすことができます。
チームは分解定理に基づいて数値実験を行った。
このアプローチは二重の利益をもたらす可能性があることが判明しました。
パフォーマンスの低下を回避しながら、性別による偏見を軽減します。
実験後、チームメンバーは、単語の埋め込みと変換という事前トレーニングモデルの 2 つのアーキテクチャに AI のジェンダーバイアスの原因があることを突き止めました。
そこで研究チームは、マーカーの埋め込みを調整することでジェンダーバイアスを軽減するC4D手法を提案しました。
この方法の中心的なアイデアは、誤った X を修正することで TDE 関数を削減し、それによって全体の偏差を削減することです。
チームは、正しいマーカーの埋め込みが何であるかは知りませんが、根底にあるグラウンド トゥルースを推論するための勾配ベースの方法を開発しました。
すべての準備が整ったので、チームは C4D メソッドを GPT-2 テストのバイアス除去結果に適用しました。
結果は、すべてのテスト方法の中で、C4D 方法が小型、中型、および超大型の GPT-2 で最も複雑度が低いことを示しています。
大規模な GPT-2 では、C4D の複雑さは 2 位にランクされ、最高スコアよりわずか 0.4% 悪いだけでした。
さらに、スコアが最も高い方法は、C4D よりも性差別に対するバイアス緩和効果が低くなります。
GLUE データセットでは、C4D メソッドが最高の平均スコアを獲得しました。
これは、C4D が性別による偏見を大幅に軽減し、モデルのパフォーマンスを維持できることを示しています。
たくさんの理論的な説明を聞いた後、直観的な感覚を得るために図を見てみましょう。
下の 3 つの写真では、青い点は隠れた男性の偏見を表し、赤い点は女性の偏見を表しています。
図(a)は当初のAIの理解、図(b)は人間がむやみやたらに叱った後のAIの理解、図(c)は人間が理由を見つけて根気強く説明した後のAIの理解です。
図 (b) と (c) では、男性バイアスと女性バイアスの埋め込みがより集中しており、バイアスのレベルが低いことを意味します。
同時に、図 (c) の埋め込みでも図 (a) のトポロジが維持されていることがわかります。これが、C4D メソッドがモデルのパフォーマンスを維持できる理由です。
研究者: AI の他のバイアスも軽減できる可能性があります
「この方法は、言語モデルにおける AI のジェンダー バイアスを効果的に軽減できますが、完全に排除するにはまだ十分ではありません。」
——研究者たちはこの問題を正直に指摘しました。
AI のパフォーマンスを低下させることなく AI のバイアスをさらに修正したい場合は、言語モデルのメカニズムをより深く理解する必要があります。
どうすればもっとよく理解できるでしょうか?
一方で、この研究で提案されている「C4D 手法」を使用して、AI の他のバイアスをテストします。
この実験の主な研究対象は、職場におけるジェンダーバイアスです。
実は、AIはこれまであらゆる情報を学習し続けてきたため、あらゆる人を受け入れるタイプであり、その結果、宗教差別、黒人差別、愛情表現などの固有の社会問題を図らずも抱えてしまったのです。白人... …
したがって、GPT-2 にアクセスして、他のバイアスを除去する最終的な効果をテストすることもできます。
一方、「C4D 手法」はさまざまな大規模モデルで試すことができます。
この研究で使用した GPT-2 に加えて、Google が開発した古典的な NLP 事前トレーニング モデル BERT も優れたテスト シナリオです。
ただし、他の機種に移植する場合は、補正テンプレートを再生成する必要があり、場合によっては多変数TDE(Template Driven Extraction)機能を使用する必要があります。
TDE 関数を使用すると、ドキュメントの構造を変更せずに、コンテンツを直接インデックスに追加できます。
一部のネチズンは犬の頭を抱えてやって来ました:
一般的に、社会に出ると「失敗した AI」になることは避けられません。
しかし、「間違いを犯したAI」の放蕩息子を元に戻したい場合は、適切な方法を見つけてそれを理由づけすれば、それでも良い結果が得られます~
さらに研究チームのメンバーの一人である清華大学の余洋氏は、自身の微博で、AIモデルにおける性差別について質問するためのウェブサイトが2日以内に開設されると述べた。
楽しみにしていてください!
論文アドレス: https://arxiv.org/abs/2211.07350 参考リンク: https://weibo.com/1645372340/Mi4E43PUY#comment
以上が過ちを犯したAIを救うには、殴ったり叱ったりするだけではだめだ。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。