ホームページ > 記事 > テクノロジー周辺機器 > GPT-4 のリリース前に、OpenAI はさまざまな業界の専門家を雇い、差別などの問題を回避するために「敵対的テスト」を実施しました。
4 月 17 日、大規模言語モデル GPT-4 のリリース前に、人工知能の新興企業である OpenAI があらゆる分野の専門家を雇用して、 「ブルーアーミー」チームがモデルを評価「敵対的テスト」でどのような問題が発生する可能性があるか。専門家は AI がどのように反応するかをテストするためにさまざまな探索的または危険な質問をし、OpenAI はこれらの結果を使用して GPT-4 を再トレーニングし、問題を解決します。
アンドリュー ホワイトは、人工知能チャットボットの背後にある新しいモデルである GPT-4 にアクセスした後、それを使用してまったく新しい神経剤を提案しました。
ロチェスター大学の化学工学教授であるホワイト氏は、昨年 OpenAI に採用され、OpenAI の「ブルー アーミー」チームを形成する 50 人の学者や専門家のうちの 1 人でした。 「ブルー・アーミー」のメンバーは6か月かけて、新型モデルの「定性的検出と敵対的テスト」を実施し、GPT-4を突破できるかどうかを確認する予定だ。
ホワイト氏は、化学毒として使用できる化合物を提案するためにGPT-4を使用したと述べ、科学論文などの新しい言語モデルの情報源を提供できるさまざまな「プラグイン」も導入したと述べた。および化学メーカー名。」 AIチャットボットは化学毒を製造する場所さえ見つけたことが判明した。
「人工知能は、化学実験をより速く、より正確に行うためのツールを誰にでも提供すると思います。しかし、人々が人工知能を使用して危険な化学実験を行うリスクもあります…」とホワイト氏は語った。さて、この状況は実際に存在します。」
「Blue Army Testing」の導入により、OpenAI は GPT-4 のリリース時にこの結果が発生しないことを保証できます。
「Blue Force Test」の目的は、強力な人工知能システムを社会に導入することに危険があるという懸念を払拭することです。 「ブルーチーム」チームの仕事は、さまざまな突っ込んだ質問や危険な質問をし、人工知能がどのように反応するかをテストすることです。
OpenAI は、新しいモデルが悪い問題にどのように反応するかを知りたいと考えています。そこでブルースのチームは嘘、言語操作、そして危険な科学的常識をテストした。彼らはまた、この新しいモデルが盗作、金融犯罪、サイバー攻撃などの違法行為を幇助・扇動する可能性についても調査した。
GPT-4「ブルーアーミー」チームは、学者、教師、弁護士、リスクアナリスト、セキュリティ研究者など、あらゆる分野の出身者で構成されており、主な活動拠点は米国とヨーロッパです。
彼らは調査結果を OpenAI にフィードバックし、OpenAI はチーム メンバーの調査結果を使用して GPT-4 を再トレーニングし、GPT-4 を一般公開する前に問題を解決しました。数か月にわたって、メンバーはそれぞれ 10 ~ 40 時間をかけて新しいモデルをテストします。インタビュー対象者の多くは、時給は約 100 ドルだったと述べています。
「Blue Army」チーム メンバーの多くは、大規模な言語モデルの急速な開発を懸念しており、さまざまなプラグインを介して外部の知識ソースに接続するリスクについてさらに心配しています。
「現在、システムはフリーズしています。つまり、システムは学習できなくなり、メモリもなくなりました」と、GPT-4「ブルーチーム」のメンバーでバレンシア大学教授のホセ・E氏は語った。人工知能ホセ・エルナンデス=オラロ氏はこう語った。 「しかし、これを使ってオンラインに接続したらどうなるでしょうか? これは全世界につながる非常に強力なシステムになる可能性があります。」
OpenAI は、同社はセキュリティを非常に重視しており、リリース前にさまざまなプラグインをテストする予定であると述べました。 。また、GPT-4 を使用する人が増えるにつれて、OpenAI はモデルを定期的に更新します。
テクノロジーと人権の研究者であるロヤ・パクザド氏は、英語とペルシャ語の質問を使用して、GPT-4 モデルが性別、人種、宗教の観点から偏っているかどうかをテストしました。
Pakzad は、更新後であっても、GPT-4 には、後のバージョンであっても、疎外されたコミュニティに関する明確な固定観念があることを発見しました。
彼女はまた、ペルシャ語の質問でモデルをテストしたところ、質問に答えるために情報をでっち上げているというチャットボットの「幻想」がより深刻であることにも気づきました。このロボットは、英語よりもペルシャ語で多くの名前、数字、出来事を構成しました。
パクザデ氏は「言語の多様性とその言語の背後にある文化が弱まるのではないかと心配している。」
ナイロビに拠点を置く弁護士ボル・ゴロ氏は、アフリカ出身の唯一の試験官であることにも気づいた新しいモデルには差別的な雰囲気があると。 「モデルをテストしていたとき、まるで白人男性が私に話しかけているようでした」とゴロ氏は語った。 「特定のグループに質問すると、偏った見解や非常に偏った回答が得られるでしょう。」 OpenAIはまた、GPT-4には依然として偏りが存在することを認めた。
セキュリティの観点からモデルを評価する「ブルーアーミー」のメンバーは、新しいモデルのセキュリティについて異なる見解を持っています。外交問題評議会の研究者ローレン・カーン氏は、この手法がサイバー攻撃に利用できる可能性があるかどうかの研究を始めたとき、「実装が微調整できるほど詳細なものになるとは予想していなかった」と述べた。 。しかし、カーン氏と他のテスト担当者は、新しいモデルの応答が時間の経過とともにかなり安全になったことを発見しました。 OpenAIは、GPT-4のリリース前に、悪意のあるネットワークセキュリティ要求を拒否する訓練を行ったと述べた。
「Blue Army」の多くのメンバーは、OpenAI はリリース前に厳格なセキュリティ評価を実施したと述べました。カーネギーメロン大学の言語モデルの毒性の専門家であるマーテン・サップ氏は、「彼らは、システム内の明白な毒性を排除するという点で、非常に良い仕事をした。」と述べた。テクノロジー倫理団体は、GPT-4 は「偏っていて欺瞞的であり、プライバシーと公共の安全に対する脅威である」と米国連邦取引委員会 (FTC) に苦情を申し立てました。
最近、OpenAI は ChatGPT プラグインと呼ばれる機能もリリースしました。これにより、Expedia、OpenTable、Instacart などのパートナー アプリケーションが ChatGPT にサービスへのアクセスを提供し、人間のユーザーに代わって商品を注文できるようになります。
「ブルー・アーミー」チームの人工知能セキュリティ専門家ダン・ヘンドリックス氏は、こうしたプラグインは人間そのものを「部外者」にしてしまう可能性があると述べた。
「チャットボットがあなたの個人情報をオンラインに投稿したり、銀行口座にアクセスしたり、誰かを自宅に送ったりできるとしたらどう思いますか?」とヘンドリックス氏は言いました。 「全体として、AI にサイバーパワーを引き継がせる前に、より強力なセキュリティ評価が必要です。」
「ブルーアーミー」のメンバーも、ソフトウェアがリアルタイムで応答するからといって OpenAI を止めることはできないと警告しました。ジョージタウン大学のセキュリティおよび新興技術センターで働くヘザー・フレーゼ氏も、GPT-4が犯罪行為を支援できるかどうかをテストした。同氏は、より多くの人がこのテクノロジーを使用するにつれて、リスクは増大し続けるだろうと述べた。
実際に実行テストを行う理由は、実際の環境で使用すると動作が異なるためです。彼女は、大規模な言語モデルによって引き起こされるイベントの種類を報告するための公共システムを開発する必要があると信じています。
労働経済学者で研究者のサラ・キングスリー氏は、最良の解決策は食品パッケージの「栄養成分表示」のようなものだと示唆しています。「そうすれば、危険性とリスクについて直接話すことができます。
」重要なのは、安全弁を備えられるようにフレームワークを構築し、一般的な問題が何であるかを知ることです」と彼女は言いました。 「だからこそ、私は仕事は決して終わっていないと言っているのです。 「
以上がGPT-4 のリリース前に、OpenAI はさまざまな業界の専門家を雇い、差別などの問題を回避するために「敵対的テスト」を実施しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。