大規模なモデルをトレーニングするための高品質のデータが不足していますか?新しい解決策を見つけました-AI-php.cn

ホームページ

テクノロジー周辺機器

大規模なモデルをトレーニングするための高品質のデータが不足していますか?新しい解決策を見つけました

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 18, 2023 pm 05:37 PM

モデル知的

機械学習モデルのパフォーマンスを決定する 3 つの主要要素の 1 つであるデータが、大規模なモデルの開発を制限するボトルネックになりつつあります。「ガベージイン、ガベージアウト」[1] ということわざがあるように、アルゴリズムがどれほど優れていても、コンピューティングリソースがどれほど強力であっても、モデルの品質はモデルのトレーニングに使用するデータに直接依存します。

さまざまなオープンソースの大規模モデルの出現により、データ、特に高品質の業界データの重要性がさらに強調されています。ブルームバーグは、オープンソースの GPT-3 フレームワークに基づいて大規模な財務モデル BloombergGPT を構築しています。これは、オープンソースの大規模モデルフレームワークに基づいて垂直産業向けの大規模モデルを開発する実現可能性を証明しています。実際、垂直産業向けのクローズドソースの軽量大型モデルの構築またはカスタマイズは、中国の大規模モデルのスタートアップのほとんどが選択する道です。

このトラックでは、高品質の垂直業界データ、専門知識に基づく微調整および調整機能が重要です。BloombergGPT は、Bloomberg が蓄積した財務文書に基づいて構築およびトレーニングされています。 40 年以上コーパスには 7,000 億以上のトークンがあります [2]。

しかし、高品質のデータを取得するのは簡単ではありません。一部の研究では、大規模モデルがデータを食い尽くす現在の速度では、書籍、ニュースレポート、科学論文、Wikipedia などの高品質なパブリックドメイン言語データが 2026 年頃に枯渇すると指摘しています [3]。

一般に公開されている高品質な中国のデータリソースは比較的少なく、国内の専門的なデータサービスはまだ初期段階にあり、データの収集、クリーニング、注釈付け、検証には多大な投資が必要です。人的資源と物的資源。国内大学の大規模モデルチーム向けに3TBの高品質の中国データを収集してクリーニングするコストには、ダウンロードデータ帯域幅、データストレージリソース（クリーニングされていない元のデータは約100TB）、クリーニングに必要なCPUリソースコストが含まれると報告されています。データの合計は約数十万元です。

大規模モデルの開発がさらに深くなるにつれて、業界のニーズを満たし、非常に高い精度を持つ垂直型インダストリーモデルをトレーニングするには、より多くの業界の専門知識や商業機密情報さえも必要になります。。しかし、プライバシー保護の要件や、権利の確認や利益の分配が難しいため、企業はデータを共有したくない、共有できない、または共有することを恐れていることがよくあります。

データのオープン性と共有のメリットを享受できるだけでなく、データのセキュリティとプライバシーも保護できるソリューションはありますか?

プライバシーコンピューティングはジレンマを打破できるでしょうか?

プライバシー保護計算は、データ提供者が元のデータを開示しないことを保証することなく、データを分析、加工、利用することができ、データ要素の流通とトランザクションを促進するとみなされます。 4] したがって、大規模モデルのデータセキュリティを保護するためにプライバシーコンピューティングを使用するのは自然な選択であると思われます。

大規模なモデルをトレーニングするための高品質のデータが不足していますか?新しい解決策を見つけました

#プライバシーコンピューティングはテクノロジーではなく、技術システムです。具体的な実装によれば、プライバシーコンピューティングは主に、マルチパーティセキュアコンピューティングに代表される暗号化パス、信頼できる実行環境に代表される機密コンピューティングパス、フェデレーテッドラーニングに代表される人工知能パスに分類されます [5]。

ただし、実際のアプリケーションでは、プライバシーコンピューティングにはいくつかの制限があります。たとえば、プライバシーコンピューティング SDK の導入は、通常、元のビジネスシステムに対するコードレベルの変更につながります [6]。暗号化に基づいて実装すると、暗号化と復号化の演算量が指数関数的に増加し、暗号文の計算にはより多くのコンピューティングリソースとストレージリソース、および通信負荷が必要になります [7]。

さらに、既存のプライバシーコンピューティングソリューションは、非常に大量のデータを含む大規模なモデルのトレーニングシナリオにおいて、いくつかの新たな問題に直面することになります。

フェデレーションラーニングベースのソリューション

まず、フェデレーテッドラーニングの難しさを見てみましょう。。フェデレーテッドラーニングの核となるアイデアは、「データは移動しないが、モデルは移動する」です。この分散型アプローチにより、機密データはローカルに残り、公開または送信する必要がなくなります。各デバイスまたはサーバーは、モデルの更新を中央サーバーに送信することでトレーニングプロセスに参加し、中央サーバーはこれらの更新を集約して融合してグローバルモデルを改善します [8]。

ただし、大規模なモデルの集中トレーニングはすでに非常に困難であり、分散トレーニング方法ではシステムの複雑さが大幅に増加します。また、モデルがさまざまなデバイスでトレーニングされるときのデータの不均一性と、すべてのデバイスにわたって学習の重みを安全に集約する方法を考慮する必要もあります。大規模なモデルのトレーニングでは、モデルの重み自体が重要な資産です。さらに、攻撃者が単一のモデル更新からプライベートデータを推測することを防ぐ必要があり、対応する防御によりトレーニングのオーバーヘッドがさらに増加します。

暗号ベースのスキーム

準同型暗号化は、暗号化されたデータを直接計算し、データを「利用可能かつ不可視」にすることができます [9]。準同型暗号化は、機密データが処理または分析され、その機密性が保証されるシナリオでプライバシーを保護するための強力なツールです。この手法は、大規模モデルのトレーニングだけでなく、ユーザー入力 (プロンプト) の機密性を保護しながらの推論にも適用できます。

ただし、大規模モデルのトレーニングや推論に暗号化されたデータを使用することは、暗号化されていないデータを使用するよりもはるかに困難です。同時に、暗号化されたデータの処理にはより多くの計算が必要となり、処理時間が指数関数的に増加し、大規模モデルのトレーニングに必要なすでに非常に高い計算能力がさらに増加します。

#信頼できる実行環境に基づくソリューション

信頼できる実行環境に基づくソリューションについて話しましょう実行環境 (TEE) ソリューション。ほとんどの TEE ソリューションまたは製品では、マルチパーティセキュアコンピューティングノード、信頼できる実行環境機器、暗号化アクセラレータカードなどの追加の特殊機器を購入する必要があり、既存のコンピューティングリソースやストレージリソースに適応できないため、このソリューションは多くの人には適していません。中小企業、企業にとっては現実的ではありません。さらに、現在の TEE ソリューションは主に CPU に基づいていますが、大規模なモデルのトレーニングは GPU に大きく依存しています。現段階では、プライバシーコンピューティングをサポートする GPU ソリューションはまだ成熟していませんが、代わりに追加のリスクが生じます [10]。

一般的に、マルチパーティの協調コンピューティングのシナリオでは、元のデータが物理的な意味で「不可視」であることを要求するのは不合理な場合が多いです。さらに、暗号化プロセスによってデータにノイズが追加されるため、暗号化されたデータに対するトレーニングや推論もモデルのパフォーマンスの低下を引き起こし、モデルの精度を低下させます。既存のプライバシーコンピューティングソリューションは、パフォーマンスと GPU サポートの点で大規模モデルのトレーニングシナリオにあまり適していないだけでなく、高品質のデータリソースを持つ企業や機関が情報を公開して共有し、大規模モデル業界に参加することを妨げています。

制御可能なコンピューティング、プライバシーコンピューティングの新しいパラダイム

「大規模モデル業界をデータからアプリケーションチェーンまでのプロセスとして見ると、この連鎖は、実際にはさまざまなエンティティ間でのさまざまなデータ（元のデータ、モデル内のパラメータの形で存在するデータも含む）の循環チェーンであり、この業界のビジネスモデルはこれらの循環の上に構築される必要があることがわかります。データ (またはモデル) は取引できる資産に基づいています」と YiZhi Technology の CEO である Tang Zaiyang 博士は述べています。

「データ要素の流通には複数のエンティティが関与しており、業界チェーンのソースはデータプロバイダーでなければなりません。言い換えれば、すべてのビジネスは実際にはデータプロバイダーによって開始されます。データプロバイダーの許可があれば取引を続行できるため、データプロバイダーの権利と利益を確保することを優先する必要があります。」

現在市場に出ている主流のプライバシー保護ソリューション、マルチパーティセキュアコンピューティング、情報実行環境、フェデレーションラーニングなどは、どちらもデータユーザーがデータを処理する方法に焦点を当てていますが、Tang Zaiyang 氏は、この問題をデータプロバイダーの観点から見る必要があると考えています。

Yizhi Technology は 2019 年に設立され、データ連携のためのプライバシー保護ソリューションプロバイダーとして位置付けられています。 2021年、同社は中国情報通信技術院が開始した「データセキュリティイニシアチブ（DSI）」の第1期参加部門の1つに選ばれ、DSIから代表的なプライバシーコンピューティング9社の1つとして認定された。エンタープライズベンダー。 2022 年、YiZhi Technology は、中国初の国際的な独立した制御可能なプライバシーコンピューティングオープンソースコミュニティである Open Islands オープンソースコミュニティのメンバーとなり、データ要素の流通のための主要なインフラストラクチャの構築を共同で推進します。

大規模なモデルのトレーニングとデータ要素の広範な流通による現在のデータのジレンマに対応して、YiZhi Technology は、制御計算の実践に基づいた新しいプライバシーコンピューティングソリューションを提案しました。

「制御可能なコンピューティングの中心的な焦点は、プライバシーを保護しながら情報を発見し、共有することです。私たちが解決する問題は、データのセキュリティを確保することです。トレーニングプロセスを強化し、トレーニング済みモデルが悪意を持って盗まれることはありません。」と Tang Zaiyang 氏は言いました。

具体的には、制御可能なコンピューティングでは、データユーザーがデータプロバイダーによって定義されたセキュリティドメイン内でデータを処理および処理する必要があります。

大規模なモデルをトレーニングするための高品質のデータが不足していますか?新しい解決策を見つけました

#データ流通シナリオにおけるセキュリティドメインの例

セキュリティドメインは、対応するキーと暗号化アルゴリズムによって保護されるストレージとコンピューティングユニットを指す論理概念です。セキュリティドメインはデータプロバイダーによって定義および制約されますが、対応するストレージおよびコンピューティングリソースはデータプロバイダーによって提供されません。物理的には、セキュリティドメインはデータユーザー側にありますが、データプロバイダーによって制御されます。生データに加えて、処理および処理された中間データと結果データも同じセキュリティドメインに含まれます。

セキュリティドメインでは、データは暗号文 (不可視) または平文 (可視) のいずれかになります。平文の場合、データの可視範囲が制御されるため、データが保証されます。使用中のセキュリティ。

複雑な暗号文の計算によって引き起こされるパフォーマンスの低下は、プライバシーコンピューティングアプリケーションの範囲を制限する重要な要因です。やみくもに不可視性を追求するのではなく、データの制御可能性を重視することで、データを制御できます。コンピューティングは、元のビジネスに対する従来のプライバシーコンピューティングソリューションの侵入性を解決するため、超大規模データを処理する必要がある大規模モデルのトレーニングシナリオに非常に適しています。

企業は、複数の異なるセキュリティドメインにデータを保存し、これらのセキュリティドメインに対して異なるセキュリティレベル、使用許可、またはホワイトリストを設定することを選択できます。分散アプリケーションの場合、セキュリティドメインを複数のコンピュータノードまたはチップ上に設定することもできます。

「セキュリティドメインは連結することができます。データ流通の各リンクで、データプロバイダーは複数の異なるセキュリティドメインを定義して、データがこれらのセキュリティドメインにのみ保存されるようにすることができます。最終的には、これら直列に接続されたセキュリティドメインがデータネットワークを構築し、このネットワーク上でデータを制御したり、データの流れ、分析、処理を計測・監視したり、データの流通を計測・監視したりすることができます。対応する認識です」とTang Zaiyang氏は説明した。

制御可能なコンピューティングのアイデアに基づいて、YiZhi Technology は「DataVault」を立ち上げました。

大規模なモデルをトレーニングするための高品質のデータが不足していますか?新しい解決策を見つけました

DataVault の原則: Linux メトリックスタートアップと Linux フルディスク暗号化テクノロジを組み合わせて、セキュリティドメイン内でデータの制御と保護を実現します。

DataVault は、システムの整合性を保護するための信頼のルートとして Trusted Platform Module TPM (Trusted Platform Module、そのコアはハードウェアベースのセキュリティ関連機能を提供することです) を使用します。 Linux セキュリティモジュール LSM (Linux セキュリティモジュール、さまざまなコンピュータセキュリティモデルをサポートするために使用される Linux カーネル内のフレームワーク。個々のセキュリティ実装とは何の関係もありません) テクノロジを使用すると、セキュリティドメイン内のデータを制御可能な制限内でのみ使用できるようになります。

これに基づいて、DataVault は、Linux が提供するフルディスク暗号化テクノロジを使用して、データを安全なドメインに配置します。YiZhi Technology は、キーの配布や署名などの完全な暗号化プロトコルを独自に開発しました。データの制御性をさらに確保するために、多数のエンジニアリングの最適化が行われています。

DataVault は、さまざまな CPU、GPU、FPGA、その他のハードウェアを含むさまざまな専用アクセラレータカードをサポートし、複数のデータ処理フレームワークとモデルトレーニングフレームワークもサポートし、バイナリ互換性があります。

さらに重要なのは、他のプライバシーコンピューティングソリューションよりもパフォーマンスの損失がはるかに少ないことです。ほとんどのアプリケーションでは、ネイティブシステム (つまり、プライバシーコンピューティングテクノロジを使用しないシステム) と比較して、、全体的なパフォーマンスの損失は 5% を超えません。

大規模なモデルをトレーニングするための高品質のデータが不足していますか?新しい解決策を見つけました

DataVault 導入後のパフォーマンス損失は、LLaMA に基づく評価 (Evaluation) および即時評価 (Prompt Evaluation) で 1 パーセント未満です。 65B。

データ流通とモデル資産を保護する DataVault の事例

現在、YiZhi Technology は、スーパーコンピューティングセンターを構築するために国家スーパーコンピューティングセンターと協力関係に達しました。プラットフォーム AI アプリケーション向けに、プライバシーを保護する高性能コンピューティングプラットフォームを展開します。 DataVault に基づいて、コンピューティングのパワーユーザーは、コンピューティングプラットフォーム上にセキュリティドメインを設定して、ストレージノードからコンピューティングノードへのデータ転送プロセス全体がセキュリティドメイン間でのみ移動でき、設定範囲から外れないようにすることができます。

DataVault ソリューションに基づいて、モデルのトレーニング中にデータを確実に制御できることに加えて、トレーニングされた大規模モデル自体もデータ資産として保護し、安全に取引することもできます。

現在、金融、医療、その他の機密性の高いデータ機関など、大規模なモデルをローカルに展開したい企業は、大規模なモデルをローカルで実行するためのインフラストラクチャの不足に悩まされています。 - 大規模なモデルをトレーニングするためのパフォーマンスハードウェア、および大規模なモデルの展開に伴うその後の運用とメンテナンスの経験。大規模なインダストリモデルを構築する企業は、モデルが顧客に直接提供された場合、モデル自体やモデルパラメータの背後に蓄積された業界データや専門知識が再販売される可能性があることを懸念しています。

垂直産業における大規模モデルの実装の検討として、YiZhi Technology は広東・香港・マカオ大湾区デジタル経済研究所 (IDEA Research) とも協力しています。両者は共同で、モデル安全保護機能を備えた大型モデル一体型マシンを開発しました。このオールインワンマシンには、垂直産業向けの大規模モデルがいくつか組み込まれており、大規模モデルのトレーニングとプロモーションに必要な基本的なコンピューティングリソースが装備されており、すぐに顧客のニーズを満たすことができます。 Yizhi の制御可能なコンピューティングコンポーネントは、これらの組み込みモデルを認証付きで使用した場合にのみ、モデルとすべての中間データが外部環境によって盗まれないようにすることができます。

YiZhi Technology は、新しいプライバシーコンピューティングパラダイムとして、制御可能なコンピューティングが大規模モデル業界とデータ要素の流通に変化をもたらすことを期待しています。

「DataVault は単なる軽量の実装ソリューションです。テクノロジーとニーズが変化するにつれて、私たちは更新を続け、データ要素の流通市場でのさらなる試みと貢献を続けていきます。また、より多くのユーザーを歓迎します」業界パートナーが私たちに参加し、制御可能なコンピューティングコミュニティを構築してくれることを願っています」と Tang Zaiyang 氏は述べています。

以上が大規模なモデルをトレーニングするための高品質のデータが不足していますか?新しい解決策を見つけましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AI内部展開の隠された危険：ガバナンスのギャップと壊滅的なリスクApr 28, 2025 am 11:12 AM

Apollo Researchの新しいレポートによると、高度なAIシステムの未確認の内部展開は、重大なリスクをもたらします。主要なAI企業の間で一般的なこの監視の欠如は、Uncontに及ぶ潜在的な壊滅的な結果を可能にします

AIポリグラフの構築Apr 28, 2025 am 11:11 AM

従来の嘘検出器は時代遅れです。リストバンドで接続されたポインターに依存すると、被験者のバイタルサインと身体的反応を印刷する嘘発見器は、嘘を識別するのに正確ではありません。これが、嘘の検出結果が通常裁判所で採用されない理由ですが、多くの罪のない人々が投獄されています。対照的に、人工知能は強力なデータエンジンであり、その実用的な原則はすべての側面を観察することです。これは、科学者がさまざまな方法で真実を求めるアプリケーションに人工知能を適用できることを意味します。 1つのアプローチは、嘘発見器のように尋問されている人の重要な符号応答を分析することですが、より詳細かつ正確な比較分析を行います。別のアプローチは、言語マークアップを使用して、人々が実際に言うことを分析し、論理と推論を使用することです。ことわざにあるように、ある嘘は別の嘘を繁殖させ、最終的に

AIは航空宇宙産業の離陸のためにクリアされていますか？Apr 28, 2025 am 11:10 AM

イノベーションの先駆者である航空宇宙産業は、AIを活用して、最も複雑な課題に取り組んでいます。近代的な航空の複雑さの増加は、AIの自動化とリアルタイムのインテリジェンス機能を必要とします。

北京の春のロボットレースを見ていますApr 28, 2025 am 11:09 AM

ロボット工学の急速な発展により、私たちは魅力的なケーススタディをもたらしました。 NoetixのN2ロボットの重量は40ポンドを超えており、高さは3フィートで、逆流できると言われています。 UnitreeのG1ロボットの重量は、N2のサイズの約2倍で、高さは約4フィートです。また、競争に参加している多くの小さなヒューマノイドロボットがあり、ファンによって前進するロボットさえあります。データ解釈ハーフマラソンは12,000人以上の観客を惹きつけましたが、21人のヒューマノイドロボットのみが参加しました。政府は、参加しているロボットが競争前に「集中トレーニング」を実施したと指摘したが、すべてのロボットが競争全体を完了したわけではない。チャンピオン - 北京ヒューマノイドロボットイノベーションセンターによって開発されたティアンゴニ

ミラートラップ：AI倫理と人間の想像力の崩壊Apr 28, 2025 am 11:08 AM

人工知能は、現在の形式では、真にインテリジェントではありません。既存のデータを模倣して洗練するのに熟達しています。私たちは人工知能を作成するのではなく、人工的な推論を作成しています。情報を処理するマシン、人間は

新しいGoogleリークは、便利なGoogle写真機能の更新を明らかにしますApr 28, 2025 am 11:07 AM

レポートでは、更新されたインターフェイスがGoogle Photos Androidバージョン7.26のコードに隠されていることがわかり、写真を見るたびに、新しく検出された顔のサムネイルの行が画面の下部に表示されます。新しいフェイシャルサムネイルには名前タグが欠落しているため、検出された各人に関する詳細情報を見るには、個別にクリックする必要があると思います。今のところ、この機能は、Googleフォトが画像で見つけた人々以外の情報を提供しません。この機能はまだ利用できないため、Googleが正確にどのように使用するかはわかりません。 Googleはサムネイルを使用して、選択した人のより多くの写真を見つけるためにスピードアップしたり、編集して個人を選択するなど、他の目的に使用することもできます。待って見てみましょう。今のところ