LLM エージェントが科学者になった場合: イェール大学、NIH、ミラ、SJTU、その他の学者が共同でセキュリティ予防措置の重要性を呼び掛ける-AI-php.cn

ホームページ

テクノロジー周辺機器

LLM エージェントが科学者になった場合: イェール大学、NIH、ミラ、SJTU、その他の学者が共同でセキュリティ予防措置の重要性を呼び掛ける

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 20, 2024 pm 03:27 PM

機械学習言語モデル理論

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

大規模言語モデル (LLM) の開発は近年目覚ましい進歩を遂げ、私たちは革命の時代に突入しています。 LLM 主導のインテリジェントエージェントは、さまざまなタスクにおいて多用途性と効率性を発揮します。「AI 科学者」として知られるこれらのエージェントは、生物学や化学などの分野で自律的な科学的発見を行う可能性を探求し始めています。これらのエージェントは、タスクに適したツールを選択し、環境条件を計画し、実験を自動化する能力を実証しています。

その結果、エージェントは本物の科学者に変身し、効果的に実験を設計して実施できるようになります。化学設計などの一部の分野では、エージェントはほとんどの非専門家の能力を超える能力を実証しています。ただし、このような自動エージェントの利点を享受する一方で、その潜在的なリスクにも注意する必要があります。彼らの能力が人間の能力に近づくか超えるにつれて、彼らの行動を監視し、危害を及ぼさないようにすることがますます重要かつ困難になります。

LLM を利用したインテリジェントエージェントが科学分野でユニークなのは、目標を達成するために必要なアクションを自動的に計画し実行できることです。これらのエージェントは、特定の生物学的データベースに自動的にアクセスし、化学実験などの活動を実行できます。たとえば、エージェントに新しい化学反応を探索させます。彼らは、まず生物学的データベースにアクセスして既存のデータを取得し、次に LLM を使用して新しい経路を推測し、ロボットを使用して反復実験検証を実行する可能性があります。このような科学探査エージェントはドメイン機能と自律性を備えているため、さまざまなリスクに対して脆弱になります。

最新の論文では、イェール大学、NIH、ミラ、上海交通大学およびその他の機関の学者らが「科学的発見に使用されるエージェントのリスク」を明確にし、輪郭を描き、将来の監督メカニズムの基礎を築きました。 LLM 主導の科学エージェントが実際のアプリケーションで安全、効率的、倫理的であることを保証するためのリスク軽減戦略の開発に関するガイダンス。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

論文のタイトル: 自律性よりも保護の優先: 科学のための LLM エージェントのリスク

論文のリンク: https:/ /arxiv.org/abs/2402.04247

まず、著者らは、ユーザーの意図、特定の科学分野、外部環境に対する潜在的なリスクなど、科学的 LLM エージェントの潜在的なリスクの包括的な概要を提供します。危険。次に、これらの脆弱性の原因を詳しく調査し、より限定的な関連研究をレビューします。これらの研究の分析に基づいて、著者らは、これらの特定されたリスクに対処するために、人間の制御、エージェントの調整、および環境フィードバックの理解（エージェントの制御）からなるフレームワークを提案しました。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

このポジションペーパーでは、科学分野におけるインテリジェントエージェントの乱用によって引き起こされるリスクとそれに対応する対策を詳細に分析します。大規模な言語モデルを備えたインテリジェントエージェントが直面する主なリスクには、主にユーザー意図のリスク、ドメインリスク、環境リスクが含まれます。ユーザー意図のリスクには、科学研究における非倫理的または違法な実験を実行するためにインテリジェントエージェントが不適切に使用される可能性が含まれます。エージェントの知能は設計された目的によって異なりますが、人間による適切な監督がない場合、エージェントは依然として人間の健康に有害な実験や環境に損害を与える実験を行うために悪用される可能性があります。

科学的発見に使用されるエージェントは、ここでは実践者が独立して実験できる機能を持つシステムとして定義されます。特に、この論文は、実験を処理し、環境条件を計画し、実験に適したツールを選択し、独自の実験結果を分析および解釈できる大規模言語モデル (LLM) を備えた科学的発見のためのエージェントに焦点を当てています。たとえば、より自律的な方法で科学的発見を推進できる可能性があります。

この記事で説明されている「科学的発見のためのエージェント」には、1 つ以上の事前トレーニングされた LLM を含む 1 つ以上の機械学習モデルが含まれる場合があります。この文脈では、リスクは人間の幸福や環境の安全に害を及ぼす可能性のあるあらゆる潜在的な結果として定義されます。この記事の議論を考慮すると、この定義には 3 つの主要なリスク領域があります。

ユーザー意図のリスク: エージェントは、悪意のあるユーザーの非倫理的または違法な目的を達成しようとする可能性があります。
現場リスク: エージェントによる高リスク物質への曝露またはその操作により、特定の科学分野 (生物学や化学など) に存在する可能性のあるリスクが含まれます。
環境リスク: これは、エージェントが環境に直接的または間接的な影響を与える可能性がある、または予測できない環境反応を引き起こす可能性があるという事実を指します。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

上の図に示すように、科学エージェントの潜在的なリスクを示しています。サブ図 a は、直接的および間接的な悪意や意図しない結果を含む、ユーザーの意図の起源に基づいてリスクを分類します。サブ図 b は、化学、生物学、放射線、物理、情報、新興技術など、エージェントが適用される科学分野に従ってリスクの種類を分類しています。サブ図 c は、自然環境、人間の健康、社会経済環境などの外部環境への影響に応じてリスクの種類を分類しています。サブ図 d は、a、b、c に示されている対応するアイコンに従って、特定のリスクインスタンスとその分類を示しています。

ドメインリスクには、科学的発見のために LLM が使用するエージェントが特定の科学的ドメイン内で動作するときに発生する可能性のある悪影響が含まれます。たとえば、生物学や化学で AI を使用している科学者は、放射性元素や生体危険物質などの高リスク物質の取り扱い方法を偶然、または知らなかった可能性があります。これは過剰な自律性をもたらし、個人的または環境的な災害につながる可能性があります。

環境への影響は、特定の科学分野以外でも潜在的なリスクです。科学的発見に使用されるエージェントの活動が人間または人間以外の環境に影響を与える場合、新たなセキュリティ上の脅威が生じる可能性があります。たとえば、AI 科学者は、環境に対する非効果的または有害な影響を防ぐようにプログラムされていない場合、水源を汚染したり、生態系のバランスを破壊したりするなど、環境に対して無益で有害な撹乱を行う可能性があります。

この記事では、著者らは、他のタイプのエージェント (統計モデルによって駆動されるエージェントなど) や一般的な科学実験によって引き起こされる既存のリスクではなく、LLM 科学エージェントによって引き起こされるまったく新しいリスクに焦点を当てています。この論文では、これらの新たなリスクを明らかにするとともに、効果的な保護措置を設計する必要性を強調しています。著者らは、考えられるリスク源を 14 個挙げており、これらを総称して科学エージェントの脆弱性と呼びます。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

これらの自律エージェントには通常、LLM、プラン、アクション、外部ツール、メモリ、ナレッジという 5 つの基本モジュールが含まれています。これらのモジュールは、順次パイプラインで動作します。タスクまたはユーザーから入力を受け取り、記憶または知識を使用して計画を立て、小規模な計画的なタスク (科学分野ではツールやロボットが関与することがよくあります) を実行し、最後に結果またはフィードバックをメモリに保存します。図書館。広く使用されているにもかかわらず、これらのモジュールには重大な脆弱性がいくつかあり、特有のリスクや実際的な課題を引き起こします。このセクションでは、各モジュールの高レベルの概念の概要を示し、それらに関連する脆弱性を要約します。

1. LLM (基本モデル)

LLM はエージェントに基本的な機能を提供します。ただし、これらには独自のリスクがいくつかあります。

事実上の誤り: LLM は、合理的であるように見えても間違っている情報を生成する傾向があります。

脱獄攻撃に対して脆弱: LLM は、セキュリティ対策を回避する操作に対して脆弱です。

推論スキルの欠陥: LLM は、多くの場合、深い論理的推論を処理したり、複雑な科学的議論を処理したりすることが困難です。これらのタスクを実行できない場合、不適切なツールを使用する可能性があるため、計画や対話に欠陥が生じる可能性があります。

最新の知識の欠如: LLM は既存のデータセットに基づいてトレーニングされているため、最新の科学的発展が欠けている可能性があり、最新の科学知識とのずれが生じる可能性があります。検索拡張生成 (RAG) が登場しましたが、最先端の知識を見つけるには課題が残っています。

2. 計画モジュール

タスクの場合、計画モジュールは、タスクをより小さく管理しやすいコンポーネントに分割するように設計されています。ただし、次の脆弱性が存在します。

長期計画におけるリスクの認識の欠如: エージェントは、長期的な行動計画がもたらす可能性のある潜在的なリスクを完全に理解し、検討するのに苦労することがよくあります。

リソースの無駄と無限ループ: エージェントは非効率的な計画プロセスに従事し、その結果リソースが無駄になり、非生産的なループに陥る可能性があります。

マルチタスクの計画が不十分: エージェントは、単一のタスクを完了するように最適化されているため、複数の目的や複数のツールを使用するタスクに苦労することがよくあります。

3. アクションモジュール

タスクが分解されると、アクションモジュールは一連のアクションを実行します。ただし、このプロセスではいくつかの特定の脆弱性が発生します。

脅威の特定: エージェントは多くの場合、微妙な間接的な攻撃を見落とし、脆弱性につながります。

人間とコンピューターの相互作用に対する規制の欠如: 科学的発見におけるエージェントの出現により、特に遺伝学などのデリケートな領域における人間との相互作用における倫理ガイドラインの必要性が強調されています。

4. 外部ツール

タスクの実行プロセスにおいて、ツールモジュールはエージェントに貴重なツールのセット (例: ケモインフォマティクスツールキット、RDKit) を提供します。これらのツールはエージェントに優れた機能を提供し、タスクをより効率的に処理できるようにします。ただし、これらのツールにはいくつかの脆弱性も導入されています。

ツールの使用における監督が不十分: エージェントがツールをどのように使用するかについて効果的な監督が不足しています。

潜在的に危険な状況。たとえば、ツールの誤った選択や誤用は、危険な反応や爆発を引き起こす可能性があります。エージェントは、特にこうした特殊な科学ミッションにおいて、使用するツールによってもたらされるリスクを十分に認識していない可能性があります。したがって、実際のツールの使用状況から学習して安全保護対策を強化することが重要です (OpenAI、2023b)。

5. 記憶と知識のモジュール

LLM の知識は、人間の記憶障害と同じように、実際には混乱する可能性があります。メモリと知識モジュールは、知識の検索と統合に外部データベースを活用して、この問題の軽減を試みます。ただし、いくつかの課題が残っています:

ドメイン固有のセキュリティ知識の制限: バイオテクノロジーや原子力工学などの特殊な分野におけるエージェントの知識不足は、セキュリティクリティカルな推論の穴につながる可能性があります。

人間によるフィードバックの限界: 人間によるフィードバックが不十分、不均一、または低品質であると、エージェントと人間の価値観や科学的目標との整合性が妨げられる可能性があります。

不十分な環境フィードバック: エージェントは、世界の状態や他のエージェントの行動などの環境フィードバックを受信できないか、正しく解釈できない可能性があります。

信頼性の低い研究情報源: エージェントは、古いまたは信頼性の低い科学情報を利用したり、それに基づいて訓練を受けたりする可能性があり、誤った知識や有害な知識の拡散につながる可能性があります。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

この記事では、LLM とエージェントのセキュリティ保護に関連する作業についても調査し、要約します。この分野の限界と課題に関しては、多くの研究が科学エージェントの機能を強化してきましたが、セキュリティメカニズムを考慮した取り組みはわずかで、リスク管理に特化したエージェントを開発したのは SciGuard だけです。ここで、この記事では 4 つの主な課題を要約します。

(1) リスク管理に特化したモデルの欠如。

(2) ドメイン固有の専門知識の欠如。

(3) ツールの使用によって生じるリスク。

(4) これまでのところ、科学分野のセキュリティを評価するためのベンチマークが不足しています。

したがって、これらのリスクに対処するには、特に人間の監督と組み合わせて、エージェントの理解と環境フィードバックの理解をより正確に調整する体系的な解決策が必要です。この枠組みの 3 つの部分は、独立した科学的研究を必要とするだけでなく、保護効果を最大化するために相互に交差する必要もあります。

このような措置は科学的発見に使用されるエージェントの自律性を制限する可能性がありますが、セキュリティと倫理原則はより広範な自律性よりも優先されるべきです。結局のところ、人々や環境への影響を元に戻すのは難しい可能性があり、科学的発見に使用されるエージェントに対する国民の過度の不満は、エージェントの将来の受け入れに悪影響を与える可能性があります。より多くの時間と労力がかかりますが、この記事では、包括的なリスク管理とそれに対応する保護手段の開発のみが、科学的発見のためのエージェントの理論から実践への変革を真に実現できると考えています。

さらに、彼らは、科学的発見に使用されるエージェントを保護する際の限界と課題を強調し、これらの問題を効果的に軽減するための、より強力なモデル、より堅牢な評価基準、およびより包括的なルールの開発を提唱しています。最後に、科学的発見のためにエージェントを開発および使用する際に、より優れた自律機能よりもリスク管理を優先するよう求めています。

自律性は価値のある目標であり、さまざまな科学分野で生産性を大幅に向上させることができますが、より自律的な機能を追求する中で深刻なリスクや脆弱性を生み出してはなりません。したがって、自律性とセキュリティのバランスをとり、科学的発見のためにエージェントの安全な展開と使用を確保するための包括的な戦略を採用する必要があります。また、出力の安全性を重視するのではなく、行動の安全性を重視することに移行し、エージェントの出力の正確性を評価しながら、エージェントの行動や意思決定も考慮する必要があります。

一般に、この記事「自律性よりも保護を優先する: 科学における LLM エージェントのリスク」は、大規模言語モデル (LLM) によって駆動されるインテリジェントエージェントの自律的な使用についての包括的なレビューです。さまざまな科学分野で、実験を実施し、科学的発見を推進する可能性を徹底的に分析します。これらの機能は将来性を秘めていますが、セキュリティについて慎重な考慮が必要となる新たな脆弱性も生じます。ただし、これらの脆弱性は包括的に調査されていないため、現時点では文献に明らかなギャップがあります。このギャップを埋めるために、このポジションペーパーでは、科学分野における LLM ベースのエージェントの脆弱性を徹底的に調査し、悪用の潜在的なリスクを明らかにし、セキュリティ対策の実装の必要性を強調しています。

まず、この記事では、ユーザーの意図、特定の科学分野、外部環境への影響の可能性など、科学的 LLMAgents の潜在的なリスクの包括的な概要を説明します。次に、この記事ではこれらの脆弱性の原因を詳しく調べ、限られた既存の研究をレビューします。

これらの分析に基づいて、この論文は、これらの明示的なリスクを軽減するために、人間の監督、エージェントの調整、環境フィードバックの理解 (エージェントの監督) から構成される 3 つの枠組みを提案します。さらに、この論文は、科学的発見に使用されるエージェントを保護する際に直面する限界と課題を特に強調し、より良いモデル、より堅牢なベンチマークの開発、およびこれらの問題に効果的に対処するための包括的な規制の確立を提唱しています。

最後に、この記事では、科学的発見のためにエージェントを開発および使用する場合、より強力な自律機能の追求よりもリスク管理を優先することを求めています。

自律性は価値のある目標ですが、さまざまな科学分野で生産性を向上させる大きな可能性を秘めています。しかし、深刻なリスクや脆弱性を生み出すことを犠牲にして、自律性の向上を追求することはできません。したがって、自律性とセキュリティのバランスを見つけ、科学的発見のためにエージェントの安全な展開と使用を保証するための包括的な戦略を採用する必要があります。また、私たちの焦点は、出力のセキュリティから動作のセキュリティに移るべきです。つまり、科学的発見に使用されるエージェントを包括的に評価し、出力の正確性をレビューするだけでなく、エージェントの運用方法や意思決定の方法もレビューする必要があります。行動の安全性は科学において非常に重要です。なぜなら、異なる状況下では、同じ行動が全く異なる結果を招く可能性があり、その中には有害な結果が含まれる可能性があるからです。したがって、この記事では、人間、機械、環境の関係、特に堅牢で動的な環境フィードバックに焦点を当てることをお勧めします。

以上がLLM エージェントが科学者になった場合: イェール大学、NIH、ミラ、SJTU、その他の学者が共同でセキュリティ予防措置の重要性を呼び掛けるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

10生成AIコーディング拡張機能とコードのコードを探る必要がありますApr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング！その日はどのようなコーディング関連のタスクを計画していますか？このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。終わり？ - ＆＃8217を見てみましょう

革新を調理する：人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Dreamweaver Mac版

ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。