ホームページ  >  記事  >  テクノロジー周辺機器  >  LLM エージェントが科学者になった場合: イェール大学、NIH、ミラ、SJTU、その他の学者が共同でセキュリティ予防措置の重要性を呼び掛ける

LLM エージェントが科学者になった場合: イェール大学、NIH、ミラ、SJTU、その他の学者が共同でセキュリティ予防措置の重要性を呼び掛ける

WBOY
WBOY転載
2024-02-20 15:27:09371ブラウズ

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

大規模言語モデル (LLM) の開発は近年目覚ましい進歩を遂げ、私たちは革命の時代に突入しています。 LLM 主導のインテリジェント エージェントは、さまざまなタスクにおいて多用途性と効率性を発揮します。 「AI 科学者」として知られるこれらのエージェントは、生物学や化学などの分野で自律的な科学的発見を行う可能性を探求し始めています。これらのエージェントは、タスクに適したツールを選択し、環境条件を計画し、実験を自動化する能力を実証しています。

その結果、エージェントは本物の科学者に変身し、効果的に実験を設計して実施できるようになります。化学設計などの一部の分野では、エージェントはほとんどの非専門家の能力を超える能力を実証しています。ただし、このような自動エージェントの利点を享受する一方で、その潜在的なリスクにも注意する必要があります。彼らの能力が人間の能力に近づくか超えるにつれて、彼らの行動を監視し、危害を及ぼさないようにすることがますます重要かつ困難になります。

LLM を利用したインテリジェント エージェントが科学分野でユニークなのは、目標を達成するために必要なアクションを自動的に計画し実行できることです。これらのエージェントは、特定の生物学的データベースに自動的にアクセスし、化学実験などの活動を実行できます。たとえば、エージェントに新しい化学反応を探索させます。彼らは、まず生物学的データベースにアクセスして既存のデータを取得し、次に LLM を使用して新しい経路を推測し、ロボットを使用して反復実験検証を実行する可能性があります。このような科学探査エージェントはドメイン機能と自律性を備えているため、さまざまなリスクに対して脆弱になります。

最新の論文では、イェール大学、NIH、ミラ、上海交通大学およびその他の機関の学者らが「科学的発見に使用されるエージェントのリスク」を明確にし、輪郭を描き、将来の監督メカニズムの基礎を築きました。 LLM 主導の科学エージェントが実際のアプリケーションで安全、効率的、倫理的であることを保証するためのリスク軽減戦略の開発に関するガイダンス。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

論文のタイトル: 自律性よりも保護の優先: 科学のための LLM エージェントのリスク
論文のリンク: https:/ /arxiv.org/abs/2402.04247

まず、著者らは、ユーザーの意図、特定の科学分野、外部環境に対する潜在的なリスクなど、科学的 LLM エージェントの潜在的なリスクの包括的な概要を提供します。危険。次に、これらの脆弱性の原因を詳しく調査し、より限定的な関連研究をレビューします。これらの研究の分析に基づいて、著者らは、これらの特定されたリスクに対処するために、人間の制御、エージェントの調整、および環境フィードバックの理解(エージェントの制御)からなるフレームワークを提案しました。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

このポジション ペーパーでは、科学分野におけるインテリジェント エージェントの乱用によって引き起こされるリスクとそれに対応する対策を詳細に分析します。大規模な言語モデルを備えたインテリジェント エージェントが直面する主なリスクには、主にユーザー意図のリスク、ドメイン リスク、環境リスクが含まれます。ユーザー意図のリスクには、科学研究における非倫理的または違法な実験を実行するためにインテリジェント エージェントが不適切に使用される可能性が含まれます。エージェントの知能は設計された目的によって異なりますが、人間による適切な監督がない場合、エージェントは依然として人間の健康に有害な実験や環境に損害を与える実験を行うために悪用される可能性があります。

科学的発見に使用されるエージェントは、ここでは実践者が独立して実験できる機能を持つシステムとして定義されます。特に、この論文は、実験を処理し、環境条件を計画し、実験に適したツールを選択し、独自の実験結果を分析および解釈できる大規模言語モデル (LLM) を備えた科学的発見のためのエージェントに焦点を当てています。たとえば、より自律的な方法で科学的発見を推進できる可能性があります。

この記事で説明されている「科学的発見のためのエージェント」には、1 つ以上の事前トレーニングされた LLM を含む 1 つ以上の機械学習モデルが含まれる場合があります。この文脈では、リスクは人間の幸福や環境の安全に害を及ぼす可能性のあるあらゆる潜在的な結果として定義されます。この記事の議論を考慮すると、この定義には 3 つの主要なリスク領域があります。

  • ユーザー意図のリスク: エージェントは、悪意のあるユーザーの非倫理的または違法な目的を達成しようとする可能性があります。
  • 現場リスク: エージェントによる高リスク物質への曝露またはその操作により、特定の科学分野 (生物学や化学など) に存在する可能性のあるリスクが含まれます。
  • 環境リスク: これは、エージェントが環境に直接的または間接的な影響を与える可能性がある、または予測できない環境反応を引き起こす可能性があるという事実を指します。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

上の図に示すように、科学エージェントの潜在的なリスクを示しています。サブ図 a は、直接的および間接的な悪意や意図しない結果を含む、ユーザーの意図の起源に基づいてリスクを分類します。サブ図 b は、化学、生物学、放射線、物理、情報、新興技術など、エージェントが適用される科学分野に従ってリスクの種類を分類しています。サブ図 c は、自然環境、人間の健康、社会経済環境などの外部環境への影響に応じてリスクの種類を分類しています。サブ図 d は、a、b、c に示されている対応するアイコンに従って、特定のリスク インスタンスとその分類を示しています。

ドメイン リスクには、科学的発見のために LLM が使用するエージェントが特定の科学的ドメイン内で動作するときに発生する可能性のある悪影響が含まれます。たとえば、生物学や化学で AI を使用している科学者は、放射性元素や生体危険物質などの高リスク物質の取り扱い方法を偶然、または知らなかった可能性があります。これは過剰な自律性をもたらし、個人的または環境的な災害につながる可能性があります。

環境への影響は、特定の科学分野以外でも潜在的なリスクです。科学的発見に使用されるエージェントの活動が人間または人間以外の環境に影響を与える場合、新たなセキュリティ上の脅威が生じる可能性があります。たとえば、AI 科学者は、環境に対する非効果的または有害な影響を防ぐようにプログラムされていない場合、水源を汚染したり、生態系のバランスを破壊したりするなど、環境に対して無益で有害な撹乱を行う可能性があります。

この記事では、著者らは、他のタイプのエージェント (統計モデルによって駆動されるエージェントなど) や一般的な科学実験によって引き起こされる既存のリスクではなく、LLM 科学エージェントによって引き起こされるまったく新しいリスクに焦点を当てています。この論文では、これらの新たなリスクを明らかにするとともに、効果的な保護措置を設計する必要性を強調しています。著者らは、考えられるリスク源を 14 個挙げており、これらを総称して科学エージェントの脆弱性と呼びます。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

これらの自律エージェントには通常、LLM、プラン、アクション、外部ツール、メモリ、ナレッジという 5 つの基本モジュールが含まれています。これらのモジュールは、順次パイプラインで動作します。タスクまたはユーザーから入力を受け取り、記憶または知識を使用して計画を立て、小規模な計画的なタスク (科学分野ではツールやロボットが関与することがよくあります) を実行し、最後に結果またはフィードバックをメモリに保存します。図書館。広く使用されているにもかかわらず、これらのモジュールには重大な脆弱性がいくつかあり、特有のリスクや実際的な課題を引き起こします。このセクションでは、各モジュールの高レベルの概念の概要を示し、それらに関連する脆弱性を要約します。

1. LLM (基本モデル)

LLM はエージェントに基本的な機能を提供します。ただし、これらには独自のリスクがいくつかあります。

事実上の誤り: LLM は、合理的であるように見えても間違っている情報を生成する傾向があります。

脱獄攻撃に対して脆弱: LLM は、セキュリティ対策を回避する操作に対して脆弱です。

推論スキルの欠陥: LLM は、多くの場合、深い論理的推論を処理したり、複雑な科学的議論を処理したりすることが困難です。これらのタスクを実行できない場合、不適切なツールを使用する可能性があるため、計画や対話に欠陥が生じる可能性があります。

最新の知識の欠如: LLM は既存のデータセットに基づいてトレーニングされているため、最新の科学的発展が欠けている可能性があり、最新の科学知識とのずれが生じる可能性があります。検索拡張生成 (RAG) が登場しましたが、最先端の知識を見つけるには課題が残っています。

2. 計画モジュール

タスクの場合、計画モジュールは、タスクをより小さく管理しやすいコンポーネントに分割するように設計されています。ただし、次の脆弱性が存在します。

長期計画におけるリスクの認識の欠如: エージェントは、長期的な行動計画がもたらす可能性のある潜在的なリスクを完全に理解し、検討するのに苦労することがよくあります。

リソースの無駄と無限ループ: エージェントは非効率的な計画プロセスに従事し、その結果リソースが無駄になり、非生産的なループに陥る可能性があります。

マルチタスクの計画が不十分: エージェントは、単一のタスクを完了するように最適化されているため、複数の目的や複数のツールを使用するタスクに苦労することがよくあります。

3. アクション モジュール

タスクが分解されると、アクション モジュールは一連のアクションを実行します。ただし、このプロセスではいくつかの特定の脆弱性が発生します。

脅威の特定: エージェントは多くの場合、微妙な間接的な攻撃を見落とし、脆弱性につながります。

人間とコンピューターの相互作用に対する規制の欠如: 科学的発見におけるエージェントの出現により、特に遺伝学などのデリケートな領域における人間との相互作用における倫理ガイドラインの必要性が強調されています。

4. 外部ツール

タスクの実行プロセスにおいて、ツール モジュールはエージェントに貴重なツールのセット (例: ケモインフォマティクス ツールキット、RDKit) を提供します。これらのツールはエージェントに優れた機能を提供し、タスクをより効率的に処理できるようにします。ただし、これらのツールにはいくつかの脆弱性も導入されています。

ツールの使用における監督が不十分: エージェントがツールをどのように使用するかについて効果的な監督が不足しています。

潜在的に危険な状況。たとえば、ツールの誤った選択や誤用は、危険な反応や爆発を引き起こす可能性があります。エージェントは、特にこうした特殊な科学ミッションにおいて、使用するツールによってもたらされるリスクを十分に認識していない可能性があります。したがって、実際のツールの使用状況から学習して安全保護対策を強化することが重要です (OpenAI、2023b)。

5. 記憶と知識のモジュール

LLM の知識は、人間の記憶障害と同じように、実際には混乱する可能性があります。メモリと知識モジュールは、知識の検索と統合に外部データベースを活用して、この問題の軽減を試みます。ただし、いくつかの課題が残っています:

ドメイン固有のセキュリティ知識の制限: バイオテクノロジーや原子力工学などの特殊な分野におけるエージェントの知識不足は、セキュリティ クリティカルな推論の穴につながる可能性があります。

人間によるフィードバックの限界: 人間によるフィードバックが不十分、不均一、または低品質であると、エージェントと人間の価値観や科学的目標との整合性が妨げられる可能性があります。

不十分な環境フィードバック: エージェントは、世界の状態や他のエージェントの行動などの環境フィードバックを受信できないか、正しく解釈できない可能性があります。

信頼性の低い研究情報源: エージェントは、古いまたは信頼性の低い科学情報を利用したり、それに基づいて訓練を受けたりする可能性があり、誤った知識や有害な知識の拡散につながる可能性があります。

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

この記事では、LLM とエージェントのセキュリティ保護に関連する作業についても調査し、要約します。この分野の限界と課題に関しては、多くの研究が科学エージェントの機能を強化してきましたが、セキュリティメカニズムを考慮した取り組みはわずかで、リスク管理に特化したエージェントを開発したのは SciGuard だけです。ここで、この記事では 4 つの主な課題を要約します。

(1) リスク管理に特化したモデルの欠如。

(2) ドメイン固有の専門知識の欠如。

(3) ツールの使用によって生じるリスク。

(4) これまでのところ、科学分野のセキュリティを評価するためのベンチマークが不足しています。

したがって、これらのリスクに対処するには、特に人間の監督と組み合わせて、エージェントの理解と環境フィードバックの理解をより正確に調整する体系的な解決策が必要です。この枠組みの 3 つの部分は、独立した科学的研究を必要とするだけでなく、保護効果を最大化するために相互に交差する必要もあります。

このような措置は科学的発見に使用されるエージェントの自律性を制限する可能性がありますが、セキュリティと倫理原則はより広範な自律性よりも優先されるべきです。結局のところ、人々や環境への影響を元に戻すのは難しい可能性があり、科学的発見に使用されるエージェントに対する国民の過度の不満は、エージェントの将来の受け入れに悪影響を与える可能性があります。より多くの時間と労力がかかりますが、この記事では、包括的なリスク管理とそれに対応する保護手段の開発のみが、科学的発見のためのエージェントの理論から実践への変革を真に実現できると考えています。

さらに、彼らは、科学的発見に使用されるエージェントを保護する際の限界と課題を強調し、これらの問題を効果的に軽減するための、より強力なモデル、より堅牢な評価基準、およびより包括的なルールの開発を提唱しています。最後に、科学的発見のためにエージェントを開発および使用する際に、より優れた自律機能よりもリスク管理を優先するよう求めています。

自律性は価値のある目標であり、さまざまな科学分野で生産性を大幅に向上させることができますが、より自律的な機能を追求する中で深刻なリスクや脆弱性を生み出してはなりません。したがって、自律性とセキュリティのバランスをとり、科学的発見のためにエージェントの安全な展開と使用を確保するための包括的な戦略を採用する必要があります。また、出力の安全性を重視するのではなく、行動の安全性を重視することに移行し、エージェントの出力の正確性を評価しながら、エージェントの行動や意思決定も考慮する必要があります。

一般に、この記事「自律性よりも保護を優先する: 科学における LLM エージェントのリスク」は、大規模言語モデル (LLM) によって駆動されるインテリジェント エージェントの自律的な使用についての包括的なレビューです。さまざまな科学分野で、実験を実施し、科学的発見を推進する可能性を徹底的に分析します。これらの機能は将来性を秘めていますが、セキュリティについて慎重な考慮が必要となる新たな脆弱性も生じます。ただし、これらの脆弱性は包括的に調査されていないため、現時点では文献に明らかなギャップがあります。このギャップを埋めるために、このポジション ペーパーでは、科学分野における LLM ベースのエージェントの脆弱性を徹底的に調査し、悪用の潜在的なリスクを明らかにし、セキュリティ対策の実装の必要性を強調しています。

まず、この記事では、ユーザーの意図、特定の科学分野、外部環境への影響の可能性など、科学的 LLMAgents の潜在的なリスクの包括的な概要を説明します。次に、この記事ではこれらの脆弱性の原因を詳しく調べ、限られた既存の研究をレビューします。

これらの分析に基づいて、この論文は、これらの明示的なリスクを軽減するために、人間の監督、エージェントの調整、環境フィードバックの理解 (エージェントの監督) から構成される 3 つの枠組みを提案します。さらに、この論文は、科学的発見に使用されるエージェントを保護する際に直面する限界と課題を特に強調し、より良いモデル、より堅牢なベンチマークの開発、およびこれらの問題に効果的に対処するための包括的な規制の確立を提唱しています。

最後に、この記事では、科学的発見のためにエージェントを開発および使用する場合、より強力な自律機能の追求よりもリスク管理を優先することを求めています。

自律性は価値のある目標ですが、さまざまな科学分野で生産性を向上させる大きな可能性を秘めています。しかし、深刻なリスクや脆弱性を生み出すことを犠牲にして、自律性の向上を追求することはできません。したがって、自律性とセキュリティのバランスを見つけ、科学的発見のためにエージェントの安全な展開と使用を保証するための包括的な戦略を採用する必要があります。また、私たちの焦点は、出力のセキュリティから動作のセキュリティに移るべきです。つまり、科学的発見に使用されるエージェントを包括的に評価し、出力の正確性をレビューするだけでなく、エージェントの運用方法や意思決定の方法もレビューする必要があります。行動の安全性は科学において非常に重要です。なぜなら、異なる状況下では、同じ行動が全く異なる結果を招く可能性があり、その中には有害な結果が含まれる可能性があるからです。したがって、この記事では、人間、機械、環境の関係、特に堅牢で動的な環境フィードバックに焦点を当てることをお勧めします。

以上がLLM エージェントが科学者になった場合: イェール大学、NIH、ミラ、SJTU、その他の学者が共同でセキュリティ予防措置の重要性を呼び掛けるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。