ホームページ  >  記事  >  テクノロジー周辺機器  >  ChatGPT と大規模言語モデル: リスクは何ですか?

ChatGPT と大規模言語モデル: リスクは何ですか?

PHPz
PHPz転載
2023-04-08 10:41:051209ブラウズ

大規模言語モデル (LLM) と AI チャットボットは、2022 年後半の ChatGPT のリリースと、それが提供するクエリの利便性により、世界中の関心を集めています。これは現在、史上最も急速に成長している消費者向けアプリケーションの 1 つであり、その人気により、多くの競合他社が独自のサービスやモデルを開発したり、社内で開発したサービスやモデルを迅速に展開したりするようになっています。

他の新興テクノロジーと同様、これがセキュリティにとって何を意味するかという懸念が常にあります。このブログでは最近、ChatGPT と LLM のサイバーセキュリティの側面の一部をより一般的に検討しました。

ChatGPT と LLM とは何ですか?

ChatGPT は、アメリカのテクノロジースタートアップ OpenAI によって開発された人工知能チャットボットです。これは、深層学習を使用して人間のようなテキストを生成する 2020 年にリリースされた言語モデルである GPT-3 に基づいていますが、基礎となる LLM テクノロジーは長い間存在していました。

LLM では、多くの場合オープン インターネットから収集された大量のテキストベースのデータに基づいてアルゴリズムがトレーニングされるため、Web ページと、LLM によっては、科学研究、書籍、これは大量のデータを対象としているため、取り込み時にすべての不快なコンテンツまたは不正確なコンテンツをフィルタリングすることは不可能であるため、「物議を醸す」コンテンツがモデルに含まれる可能性があります。

これらのアルゴリズムは、さまざまな単語間の関係を分析し、それらを確率モデルに変換します。その後、アルゴリズムに (たとえば、質問することによって) 「ヒント」を与えると、モデル内の単語の関係に基づいて答えが提供されます。

通常、モデル内のデータはトレーニング後は静的ですが、「微調整」 (追加データによるトレーニング) や「ヒント拡張」 (問題に関するコンテキスト情報の提供) を通じて改善できます。プロンプト拡張の例は次のとおりです。

以下の情報を考慮して、どのように説明しますか...

次に、大量のテキスト (または文書全体) をプロンプト/質問。

ChatGPT を使用すると、チャットボットとの会話と同じように、ユーザーが LLM について質問できるようになります。 LLM の他の最近の例には、Google の Bard および Meta の LLaMa (科学論文用) からの発表が含まれます。

LL.M. は、さまざまな人間言語やコンピューター言語で豊富な魅力的なコンテンツを生成する能力を備えているため、確かに印象的です。ただし、それらは魔法でも汎用人工知能でもありません。次のようないくつかの重大な欠陥が含まれています。偏見があり、だまされやすい(主な質問に答えるときなど)

    ゼロからトレーニングするには膨大なコンピューティング リソースと大量のデータが必要です
  • 誘導されて有害なコンテンツを作成する可能性があり、脆弱です「インジェクション攻撃」へ
  • #LLM は私の情報を漏洩しますか?
  • 一般的な懸念は、LLM がプロンプトから「学習」し、関連コンテンツをクエリする他のユーザーにその情報を提供する可能性があることです。ここには懸念すべき理由がいくつかありますが、多くの人が考えているような理由ではありません。現在、LLM がトレーニングされてから、結果のモデルがクエリされます。 LLM は、(この記事の執筆時点では) 他のユーザーがクエリできるように、クエリからの情報をそのモデルに自動的に追加しません。つまり、クエリに情報を含めても、そのデータは LLM に組み込まれません。
  • ただし、クエリは LLM (ChatGPT 用、OpenAI 用) を提供する組織に表示されます。これらのクエリは保存され、LLM サービスまたはモデルを開発するためにある時点でほぼ確実に使用されます。これは、LLM プロバイダー (またはそのパートナー/請負業者) がクエリを読み取り、何らかの方法でクエリを将来のリリースに組み込むことができることを意味する場合があります。したがって、デリケートな質問をする前に、利用規約とプライバシー ポリシーをよく理解する必要があります。

質問は、クエリに含まれるデータ、または誰が (いつ) 質問したかによって機密性が高くなる場合があります。後者の例としては、CEO が「従業員を解雇する最善の方法は?」と質問したことが判明した場合、または誰かが健康状態や人間関係を暴露する質問をした場合などが考えられます。また、複数のクエリにわたる情報を集計するには、必ず同じログインを使用してください。

LLM を作成する組織が増えるにつれて増大するもう 1 つのリスクは、オンラインに保存されているクエリがハッキングされたり、漏洩されたり、あるいは誤って一般公開される可能性があることです。これには、ユーザーを特定できる情報が含まれる可能性があります。もう 1 つのリスクは、LLM の運営者が、ユーザーがデータを入力したときとは異なるプライバシーへのアプローチを採用する組織に後で買収されてしまうことです。

したがって、NCSC は次のことを推奨します:

  • パブリック LLM へのクエリには機密情報を含めないでください
  • 問題を引き起こす可能性があるパブリック LLM にクエリを送信しないでください

クエリを安全に送信するにはどうすればよいですか? LLM 機密情報?

LLM の台頭により、多くの組織は、LLM を使用して特定のビジネス タスクを自動化できないか疑問に思うかもしれません。これには、微調整やジャストインタイムの拡張による機密情報の提供が含まれる場合があります。このアプローチはパブリック LLM には推奨されませんが、「プライベート LLM」はクラウド プロバイダー (たとえば) によって提供される場合もあれば、完全に自己ホストされる場合もあります。

  • クラウド提供 LLM の場合、利用規約とプライバシー ポリシーも (パブリック LLM の場合と同様に) 重要ですが、クラウド サービスの既存の規約と一致する可能性が高くなります。組織は、微調整または迅速な拡張に使用されるデータを管理する方法を理解する必要があります。ベンダーの研究者やパートナーはそれを使用できますか?もしそうなら、どのような形で?データは個別に共有されますか、それとも他の組織とまとめて共有されますか?プロバイダーの従業員はどのような状況でクエリを閲覧できますか?
  • セルフホスト LLM は非常に高価になる可能性があります。ただし、セキュリティ評価の後、組織データの処理に適している可能性があります。特に、組織はインフラストラクチャとデータ サプライ チェーンの保護に関する当社のガイダンスを参照する必要があります。

LLM はサイバー犯罪者の生活を楽にしますか?

LLM がマルウェアの作成にどのように役立つかについて、驚くべきデモンストレーションがいくつか行われています。懸念されるのは、LLM が、悪意のある (しかし熟練していない) 個人が、他の方法では展開できないツールを作成するのを手助けする可能性があることです。現在の状態では、LLM は説得力があるように見えます (実際であるかどうかは関係ありません)。複雑なタスクよりも単純なタスクに適しています。これは、専門家が LLM の出力を検証できるため、LLM を使用して「専門家の時間を節約する」ことができることを意味します。

より複雑なタスクの場合、現在、専門家にとっては、LLM が生成するものを修正するのに時間を費やすよりも、マルウェアをゼロから作成する方が簡単です。ただし、強力なマルウェアを作成できる専門家であれば、LLM をだまして強力なマルウェアを作成させることができる可能性があります。 「LLM を使用してマルウェアを最初から作成する」ことと「LLM で作成されたマルウェアを検証する」ことの間のトレードオフは、LLM が改善されるにつれて変化します。

技術的な問題について LLM にアドバイスを求めることもできます。犯罪者は、特に攻撃者がネットワークにアクセスした後、LLM を使用して、現在の能力を超えたサイバー攻撃を実行する可能性があります。たとえば、攻撃者が権限の昇格やデータの検索を行っている場合、LLM に問い合わせると、検索エンジンの結果とは異なる、より詳しいコンテキストを伴う回答を受け取る可能性があります。現在の LLM は、説得力があるように聞こえる回答を提供しますが、特にトピックがよりニッチになるにつれて、部分的にしか正しくない可能性があります。その回答は、犯罪者が他の方法では実行できない攻撃を実行するのに役立つ場合や、犯罪者の検出を迅速化するための行動を提案する場合があります。いずれの場合でも、攻撃者のクエリは LLM オペレーターによって保存され、保持される可能性があります。

LLM はオンデマンドで記述スタイルを複製することに優れているため、犯罪者が LLM を使用して、複数の言語で書かれた電子メールなど、説得力のあるフィッシング メールを作成する危険性があります。これは、高い技術能力はあるものの言語スキルに欠けている攻撃者にとって、ターゲットの母国語で説得力のあるフィッシングメールを作成する (またはソーシャル エンジニアリングを行う) のに役立ちます。

要約すると、短期的には次のことが起こる可能性があります:

  • LLM により、より説得力のあるフィッシングメールが登場
  • 攻撃者は、使い慣れたテクノロジー以前にはやらなかったことを試みる

スキルの低い攻撃者が強力なマルウェアを作成するリスクも低くなります。

概要

今は LLM にとって刺激的な時期であり、特に ChatGPT が世界の想像力を捉えているためです。すべての技術開発と同様に、それを使用してその機能を研究することに熱心な人もいれば、まったく使用しない人もいるでしょう。

上で概説したように、パブリック LLM の無制限の使用には間違いなくリスクが伴います。個人や組織は、プロンプトで送信するデータについて細心の注意を払う必要があります。 LLM を試したい人が、組織のデータを危険にさらすことなく試すことができるようにする必要があります。

NCSC は、サイバーセキュリティと LLM の導入に関連する他の新たな脅威 (および機会) を認識しており、これらについては今後のブログ投稿でお知らせする予定です。

David C - プラットフォーム リサーチのテクニカル ディレクター Paul J - データ サイエンス リサーチのテクニカル ディレクター

——英国 NCSC より編集

以上がChatGPT と大規模言語モデル: リスクは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。