ホームページ  >  記事  >  テクノロジー周辺機器  >  大規模なモデルをトレーニングするための高品質のデータが不足していますか?新しい解決策を見つけました

大規模なモデルをトレーニングするための高品質のデータが不足していますか?新しい解決策を見つけました

WBOY
WBOY転載
2023-09-18 17:37:01769ブラウズ

機械学習モデルのパフォーマンスを決定する 3 つの主要要素の 1 つであるデータが、大規模なモデルの開発を制限するボトルネックになりつつあります。 「ガベージイン、ガベージアウト」[1] ということわざがあるように、アルゴリズムがどれほど優れていても、コンピューティング リソースがどれほど強力であっても、モデルの品質はモデルのトレーニングに使用するデータに直接依存します。

さまざまなオープンソースの大規模モデルの出現により、データ、特に高品質の業界データの重要性がさらに強調されています。ブルームバーグは、オープンソースの GPT-3 フレームワークに基づいて大規模な財務モデル BloombergGPT を構築しています。これは、オープンソースの大規模モデル フレームワークに基づいて垂直産業向けの大規模モデルを開発する実現可能性を証明しています。実際、垂直産業向けのクローズドソースの軽量大型モデルの構築またはカスタマイズは、中国の大規模モデルのスタートアップのほとんどが選択する道です。

このトラックでは、高品質の垂直業界データ、専門知識に基づく微調整および調整機能が重要です。BloombergGPT は、Bloomberg が蓄積した財務文書に基づいて構築およびトレーニングされています。 40 年以上 コーパスには 7,000 億以上のトークンがあります [2]。

しかし、高品質のデータを取得するのは簡単ではありません。一部の研究では、大規模モデルがデータを食い尽くす現在の速度では、書籍、ニュースレポート、科学論文、Wikipedia などの高品質なパブリックドメイン言語データが 2026 年頃に枯渇すると指摘しています [3]。

一般に公開されている高品質な中国のデータ リソースは比較的少なく、国内の専門的なデータ サービスはまだ初期段階にあり、データの収集、クリーニング、注釈付け、検証には多大な投資が必要です。人的資源と物的資源。国内大学の大規模モデルチーム向けに3TBの高品質の中国データを収集してクリーニングするコストには、ダウンロードデータ帯域幅、データストレージリソース(クリーニングされていない元のデータは約100TB)、クリーニングに必要なCPUリソースコストが含まれると報告されています。データの合計は約数十万元です。

大規模モデルの開発がさらに深くなるにつれて、業界のニーズを満たし、非常に高い精度を持つ垂直型インダストリー モデルをトレーニングするには、より多くの業界の専門知識や商業機密情報さえも必要になります。 。しかし、プライバシー保護の要件や、権利の確認や利益の分配が難しいため、企業はデータを共有したくない、共有できない、または共有することを恐れていることがよくあります。

データのオープン性と共有のメリットを享受できるだけでなく、データのセキュリティとプライバシーも保護できるソリューションはありますか?

プライバシー コンピューティングはジレンマを打破できるでしょうか?

プライバシー保護計算は、データ提供者が元のデータを開示しないことを保証することなく、データを分析、加工、利用することができ、データ要素の流通とトランザクションを促進するとみなされます。 4] したがって、大規模モデルのデータ セキュリティを保護するためにプライバシー コンピューティングを使用するのは自然な選択であると思われます。

大規模なモデルをトレーニングするための高品質のデータが不足していますか?新しい解決策を見つけました

#プライバシー コンピューティングはテクノロジーではなく、技術システムです。具体的な実装によれば、プライバシー コンピューティングは主に、マルチパーティ セキュア コンピューティングに代表される暗号化パス、信頼できる実行環境に代表される機密コンピューティング パス、フェデレーテッド ラーニングに代表される人工知能パスに分類されます [5]。

ただし、実際のアプリケーションでは、プライバシー コンピューティングにはいくつかの制限があります。たとえば、プライバシー コンピューティング SDK の導入は、通常、元のビジネス システムに対するコード レベルの変更につながります [6]。暗号化に基づいて実装すると、暗号化と復号化の演算量が指数関数的に増加し、暗号文の計算にはより多くのコンピューティング リソースとストレージ リソース、および通信負荷が必要になります [7]。

さらに、既存のプライバシー コンピューティング ソリューションは、非常に大量のデータを含む大規模なモデルのトレーニング シナリオにおいて、いくつかの新たな問題に直面することになります。

フェデレーション ラーニング ベースのソリューション

まず、フェデレーテッド ラーニングの難しさを見てみましょう。 。フェデレーテッド ラーニングの核となるアイデアは、「データは移動しないが、モデルは移動する」です。この分散型アプローチにより、機密データはローカルに残り、公開または送信する必要がなくなります。各デバイスまたはサーバーは、モデルの更新を中央サーバーに送信することでトレーニング プロセスに参加し、中央サーバーはこれらの更新を集約して融合してグローバル モデルを改善します [8]。

ただし、大規模なモデルの集中トレーニングはすでに非常に困難であり、分散トレーニング方法ではシステムの複雑さが大幅に増加します。また、モデルがさまざまなデバイスでトレーニングされるときのデータの不均一性と、すべてのデバイスにわたって学習の重みを安全に集約する方法を考慮する必要もあります。大規模なモデルのトレーニングでは、モデルの重み自体が重要な資産です。さらに、攻撃者が単一のモデル更新からプライベート データを推測することを防ぐ必要があり、対応する防御によりトレーニングのオーバーヘッドがさらに増加し​​ます。

暗号ベースのスキーム

準同型暗号化は、暗号化されたデータを直接計算し、データを「利用可能かつ不可視」にすることができます [9]。準同型暗号化は、機密データが処理または分析され、その機密性が保証されるシナリオでプライバシーを保護するための強力なツールです。この手法は、大規模モデルのトレーニングだけでなく、ユーザー入力 (プロンプト) の機密性を保護しながらの推論にも適用できます。

ただし、大規模モデルのトレーニングや推論に暗号化されたデータを使用することは、暗号化されていないデータを使用するよりもはるかに困難です。同時に、暗号化されたデータの処理にはより多くの計算が必要となり、処理時間が指数関数的に増加し、大規模モデルのトレーニングに必要なすでに非常に高い計算能力がさらに増加し​​ます。

#信頼できる実行環境に基づくソリューション

信頼できる実行環境に基づくソリューションについて話しましょう実行環境 (TEE) ソリューション。ほとんどの TEE ソリューションまたは製品では、マルチパーティ セキュア コンピューティング ノード、信頼できる実行環境機器、暗号化アクセラレータ カードなどの追加の特殊機器を購入する必要があり、既存のコンピューティング リソースやストレージ リソースに適応できないため、このソリューションは多くの人には適していません。中小企業、企業にとっては現実的ではありません。さらに、現在の TEE ソリューションは主に CPU に基づいていますが、大規模なモデルのトレーニングは GPU に大きく依存しています。現段階では、プライバシー コンピューティングをサポートする GPU ソリューションはまだ成熟していませんが、代わりに追加のリスクが生じます [10]。

一般的に、マルチパーティの協調コンピューティングのシナリオでは、元のデータが物理的な意味で「不可視」であることを要求するのは不合理な場合が多いです。さらに、暗号化プロセスによってデータにノイズが追加されるため、暗号化されたデータに対するトレーニングや推論もモデルのパフォーマンスの低下を引き起こし、モデルの精度を低下させます。既存のプライバシー コンピューティング ソリューションは、パフォーマンスと GPU サポートの点で大規模モデルのトレーニング シナリオにあまり適していないだけでなく、高品質のデータ リソースを持つ企業や機関が情報を公開して共有し、大規模モデル業界に参加することを妨げています。

制御可能なコンピューティング、プライバシー コンピューティングの新しいパラダイム

「大規模モデル業界をデータからアプリケーション チェーンまでのプロセスとして見ると、この連鎖は、実際にはさまざまなエンティティ間でのさまざまなデータ(元のデータ、モデル内のパラメータの形で存在するデータも含む)の循環チェーンであり、この業界のビジネスモデルはこれらの循環の上に構築される必要があることがわかります。データ (またはモデル) は取引できる資産に基づいています」と YiZhi Technology の CEO である Tang Zaiyang 博士は述べています。

「データ要素の流通には複数のエンティティが関与しており、業界チェーンのソースはデータプロバイダーでなければなりません。言い換えれば、すべてのビジネスは実際にはデータプロバイダーによって開始されます。データプロバイダーの許可があれば取​​引を続行できるため、データプロバイダーの権利と利益を確保することを優先する必要があります。」

現在市場に出ている主流のプライバシー保護ソリューション、マルチパーティ セキュア コンピューティング、情報実行環境、フェデレーション ラーニングなどは、どちらもデータ ユーザーがデータを処理する方法に焦点を当てていますが、Tang Zaiyang 氏は、この問題をデータ プロバイダーの観点から見る必要があると考えています。

Yizhi Technology は 2019 年に設立され、データ連携のためのプライバシー保護ソリューション プロバイダーとして位置付けられています。 2021年、同社は中国情報通信技術院が開始した「データセキュリティイニシアチブ(DSI)」の第1期参加部門の1つに選ばれ、DSIから代表的なプライバシーコンピューティング9社の1つとして認定された。エンタープライズベンダー。 2022 年、YiZhi Technology は、中国初の国際的な独立した制御可能なプライバシー コンピューティング オープンソース コミュニティである Open Islands オープンソース コミュニティのメンバーとなり、データ要素の流通のための主要なインフラストラクチャの構築を共同で推進します。

大規模なモデルのトレーニングとデータ要素の広範な流通による現在のデータのジレンマに対応して、YiZhi Technology は、制御計算の実践に基づいた新しいプライバシー コンピューティング ソリューションを提案しました。

「制御可能なコンピューティングの中心的な焦点は、プライバシーを保護しながら情報を発見し、共有することです。私たちが解決する問題は、データのセキュリティを確保することです。トレーニング プロセスを強化し、トレーニング済みモデルが悪意を持って盗まれることはありません。」と Tang Zaiyang 氏は言いました。

具体的には、制御可能なコンピューティングでは、データ ユーザーがデータ プロバイダーによって定義されたセキュリティ ドメイン内でデータを処理および処理する必要があります。

大規模なモデルをトレーニングするための高品質のデータが不足していますか?新しい解決策を見つけました

#データ流通シナリオにおけるセキュリティ ドメインの例

セキュリティ ドメインは、対応するキーと暗号化アルゴリズムによって保護されるストレージとコンピューティング ユニットを指す論理概念です。セキュリティ ドメインはデータ プロバイダーによって定義および制約されますが、対応するストレージおよびコンピューティング リソースはデータ プロバイダーによって提供されません。物理的には、セキュリティ ドメインはデータ ユーザー側にありますが、データ プロバイダーによって制御されます。生データに加えて、処理および処理された中間データと結果データも同じセキュリティ ドメインに含まれます。

セキュリティ ドメインでは、データは暗号文 (不可視) または平文 (可視) のいずれかになります。平文の場合、データの可視範囲が制御されるため、データが保証されます。使用中のセキュリティ。

複雑な暗号文の計算によって引き起こされるパフォーマンスの低下は、プライバシー コンピューティング アプリケーションの範囲を制限する重要な要因です。やみくもに不可視性を追求するのではなく、データの制御可能性を重視することで、データを制御できます。コンピューティングは、元のビジネスに対する従来のプライバシー コンピューティング ソリューションの侵入性を解決するため、超大規模データを処理する必要がある大規模モデルのトレーニング シナリオに非常に適しています。

企業は、複数の異なるセキュリティ ドメインにデータを保存し、これらのセキュリティ ドメインに対して異なるセキュリティ レベル、使用許可、またはホワイトリストを設定することを選択できます。分散アプリケーションの場合、セキュリティ ドメインを複数のコンピュータ ノードまたはチップ上に設定することもできます。

「セキュリティ ドメインは連結することができます。データ流通の各リンクで、データ プロバイダーは複数の異なるセキュリティ ドメインを定義して、データがこれらのセキュリティ ドメインにのみ保存されるようにすることができます。最終的には、これら直列に接続されたセキュリティドメインがデータネットワークを構築し、このネットワーク上でデータを制御したり、データの流れ、分析、処理を計測・監視したり、データの流通を計測・監視したりすることができます。対応する認識です」とTang Zaiyang氏は説明した。

制御可能なコンピューティングのアイデアに基づいて、YiZhi Technology は「DataVault」を立ち上げました。

大規模なモデルをトレーニングするための高品質のデータが不足していますか?新しい解決策を見つけました

DataVault の原則: Linux メトリック スタートアップと Linux フルディスク暗号化テクノロジを組み合わせて、セキュリティ ドメイン内でデータの制御と保護を実現します。

DataVault は、システムの整合性を保護するための信頼のルートとして Trusted Platform Module TPM (Trusted Platform Module、そのコアはハードウェア ベースのセキュリティ関連機能を提供することです) を使用します。 Linux セキュリティ モジュール LSM (Linux セキュリティ モジュール、さまざまなコンピュータ セキュリティ モデルをサポートするために使用される Linux カーネル内のフレームワーク。個々のセキュリティ実装とは何の関係もありません) テクノロジを使用すると、セキュリティ ドメイン内のデータを制御可能な制限内でのみ使用できるようになります。

これに基づいて、DataVault は、Linux が提供するフルディスク暗号化テクノロジを使用して、データを安全なドメインに配置します。YiZhi Technology は、キーの配布や署名などの完全な暗号化プロトコルを独自に開発しました。データの制御性をさらに確保するために、多数のエンジニアリングの最適化が行われています。

DataVault は、さまざまな CPU、GPU、FPGA、その他のハードウェアを含むさまざまな専用アクセラレータ カードをサポートし、複数のデータ処理フレームワークとモデル トレーニング フレームワークもサポートし、バイナリ互換性があります。

さらに重要なのは、他のプライバシー コンピューティング ソリューションよりもパフォーマンスの損失がはるかに少ないことです。ほとんどのアプリケーションでは、ネイティブ システム (つまり、プライバシー コンピューティング テクノロジを使用しないシステム) と比較して、 、全体的なパフォーマンスの損失は 5% を超えません。

大規模なモデルをトレーニングするための高品質のデータが不足していますか?新しい解決策を見つけました

DataVault 導入後のパフォーマンス損失は、LLaMA に基づく評価 (Evaluation) および即時評価 (Prompt Evaluation) で 1 パーセント未満です。 65B。

データ流通とモデル資産を保護する DataVault の事例

現在、YiZhi Technology は、スーパーコンピューティング センターを構築するために国家スーパーコンピューティング センターと協力関係に達しました。プラットフォーム AI アプリケーション向けに、プライバシーを保護する高性能コンピューティング プラットフォームを展開します。 DataVault に基づいて、コンピューティングのパワー ユーザーは、コンピューティング プラットフォーム上にセキュリティ ドメインを設定して、ストレージ ノードからコンピューティング ノードへのデータ転送プロセス全体がセキュリティ ドメイン間でのみ移動でき、設定範囲から外れないようにすることができます。

DataVault ソリューションに基づいて、モデルのトレーニング中にデータを確実に制御できることに加えて、トレーニングされた大規模モデル自体もデータ資産として保護し、安全に取引することもできます。

現在、金融、医療、その他の機密性の高いデータ機関など、大規模なモデルをローカルに展開したい企業は、大規模なモデルをローカルで実行するためのインフラストラクチャの不足に悩まされています。 - 大規模なモデルをトレーニングするためのパフォーマンス ハードウェア、および大規模なモデルの展開に伴うその後の運用とメンテナンスの経験。大規模なインダストリ モデルを構築する企業は、モデルが顧客に直接提供された場合、モデル自体やモデル パラメータの背後に蓄積された業界データや専門知識が再販売される可能性があることを懸念しています。

垂直産業における大規模モデルの実装の検討として、YiZhi Technology は広東・香港・マカオ大湾区デジタル経済研究所 (IDEA Research) とも協力しています。両者は共同で、モデル安全保護機能を備えた大型モデル一体型マシンを開発しました。このオールインワン マシンには、垂直産業向けの大規模モデルがいくつか組み込まれており、大規模モデルのトレーニングとプロモーションに必要な基本的なコンピューティング リソースが装備されており、すぐに顧客のニーズを満たすことができます。 Yizhi の制御可能なコンピューティング コンポーネントは、これらの組み込みモデルを認証付きで使用した場合にのみ、モデルとすべての中間データが外部環境によって盗まれないようにすることができます。

YiZhi Technology は、新しいプライバシー コンピューティング パラダイムとして、制御可能なコンピューティングが大規模モデル業界とデータ要素の流通に変化をもたらすことを期待しています。

「DataVault は単なる軽量の実装ソリューションです。テクノロジーとニーズが変化するにつれて、私たちは更新を続け、データ要素の流通市場でのさらなる試みと貢献を続けていきます。また、より多くのユーザーを歓迎します」業界パートナーが私たちに参加し、制御可能なコンピューティング コミュニティを構築してくれることを願っています」と Tang Zaiyang 氏は述べています。

以上が大規模なモデルをトレーニングするための高品質のデータが不足していますか?新しい解決策を見つけましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。