ホームページ >テクノロジー周辺機器 >AI >Linyu が初の産業グレードのマルチパーティセキュアデータ分析システムをオープンソース化 SCQL: SQL を書くような「使いやすい」プライベートコンピューティング

Linyu が初の産業グレードのマルチパーティセキュアデータ分析システムをオープンソース化 SCQL: SQL を書くような「使いやすい」プライベートコンピューティング

王林
王林転載
2023-04-04 12:45:06930ブラウズ

Linyu がオープンソース化した初の産業グレードのマルチパーティ セキュア データ分析システム SCQL は、業界のギャップを埋め、データ セキュリティ コラボレーションのリンクをさらに拡張し、データ価値流通のシナリオを拡大します。

大規模モデルの台頭により、新たな生産要素としてのデータの重要性が改めて深く認識され、データ利用とデータセキュリティのバランスをとるための重要な道として、プライバシーコンピューティングの学術的価値と応用的価値がさらに強調されています。 。近年、政策や市場の需要に牽引され、プライベートコンピューティング技術と産業は着実に発展し、金融、通信、インターネット、行政、医療などの多くの分野に応用されています。しかし全体として、技術的な限界や建設コストなどの問題により、実際に大規模な運用アプリケーションは存在しますが、その数は非常に少数です。

3 月 29 日、最初の Hidden Language オープンソース コミュニティ オープン デイで、Hidden Language SecretFlow オープン ソース フレームワークが新しいバージョンをリリースし、業界が期待している重要な機能であるマルチパーティ セキュア機能を開始しました。データ分析システム SCQL (Secure Collaborative Query Language)。これは、マルチパーティ セキュア コンピューティング (MPC) テクノロジに SQL を適用した業界初のアプリケーションで、産業グレードのマルチパーティ セキュア データ分析機能を実現しており、現在 Linguo GitHub コミュニティでオープンソース化されており、世界中の開発者に公開されています。世界を無料で。

Linyu が初の産業グレードのマルチパーティセキュアデータ分析システムをオープンソース化 SCQL: SQL を書くような「使いやすい」プライベートコンピューティング

Hidden Language フレームワーク SecretFlow の責任者 Wang Lei が、Hidden Language オープンソース コミュニティ オープン デーで Hidden Language SCQL システムをリリースしました

これは、Hidden Language チームが 3 年を費やし、複数のテクノロジーのラウンドを経た理由でもあり、重要な製品機能がオープンソース化され、パフォーマンスとセキュリティの面で産業グレードのアプリケーション シナリオを満たした後にリリースされることが確認されています。特にロングテール企業や大多数の中小規模の機関のニーズを満たすために、データ セキュリティ コラボレーションのリンクをさらに拡張し、データ価値流通のシナリオを拡大します。

言語フレームワークの責任者であり、アント グループのプライバシー インテリジェント コンピューティング テクノロジー部門のゼネラル マネージャーである Wang Lei 氏は、Machine Heart との独占インタビューで、プライバシー コンピューティングが業界に参入し、大規模な現実的な問題を解決するときは次のように述べています。 AIデータ分析と比較してユーザーの利用シーンが広がり、BIの活用シーンが広がる 現在SQLは最も身近なBI分析ツールである Linyuは、ユーザーが使い慣れたワークフローに基づいてプライバシーを理解し、低コストで利用できることを期待して、今回SCQLシステムをリリースした. コンピューティング技術。

現在、プライバシー コンピューティングは新たな段階に入っています。シングルポイント テクノロジーのセキュリティ コンプライアンスはパイロットによって検証されています。特にデータ 20 条の公布以来、ビッグ データとプライバシー コンピューティングの組み合わせは、コンピューティング BI の可用性と使いやすさ、および技術的敷居を下げることが現段階の中心的な課題となっています。テクノロジー アプリケーションの幅と深さを拡大し続けることによってのみ、将来の包括的な時代を真に受け入れることができます。大規模なデータ要素の高密度化。

Wang Lei 氏は、Linyu チームは SQL 言語解析、MPC コンピューティング パフォーマンスの最適化、結果反転のセキュリティにおいて技術的なブレークスルーを達成し、いくつかの問題に対して非常に優れた新しいソリューションを提供したと述べました。そして良い結果を達成しました。同氏はまた、より困難で未解決の問題が存在することを強調し、より多くの人々がプライベートコンピューティングのオープンソースコミュニティの構築に参加し、より多くのアプリケーションシナリオを一緒に探索することを期待していると述べた。

Lingu SCQL: 初のオープンソース産業グレード

マルチパーティセキュリティデータ分析システム

中国学院が発表した「中国企業の知能成熟度」による今年1月の情報通信技術報告書(2022年)」によると、現在84%の企業がまだデジタル構築の基礎段階にあり、インテリジェントな運用や革新的な開発の実現にはまだ一定の距離がある。企業のこの部分には、多くの BI ビジネス ニーズがあります。

現在利用可能な BI テクノロジのほとんどは、データの保存または送信時にデータを保護できますが、データ計算プロセスのセキュリティを保護する機能がありません。プライバシーとセキュリティ関連の要求がある組織にとって、これは従来の BI テクノロジーの境界を打ち破り、より多くのシナリオに適用できるようになります。データ要素の市場化が進むにつれて、プライバシー コンピューティングの BI 分析において業界で深刻なギャップが生じることになります。

これに関連して、Linyu は、業界にプライバシー コンピューティングをもたらす方法として、BI 分析で最も一般的に使用される SQL とプライバシー コンピューティングのマルチパーティ セキュア コンピューティング (MPC) を組み合わせた SCQL プロジェクトを立ち上げました。大規模で複雑なエコシステムにおける大規模アプリケーションへの第一歩。

信頼された実行環境 (TEE) の技術的ルートと比較して、ハードウェアの信頼のルートが必要であり、ローカリゼーションの現在の成熟度を検証するのにまだ時間がかかるため、マルチパーティ データの共同分析のシナリオに焦点を当てます。マルチパーティ セキュリティ コンピューティング (MPC) テクノロジ ルートには、より強力なデータ制御、特別なハードウェアに依存しないなど、独自の利点があります。さらに、一当事者のデータが比較的希薄な一部のシナリオでは、サンプルまたはデータの次元を拡張することによって、つまり共同意思決定のために複数の当事者のデータを組み合わせることによって、データ分析の品質を向上させることもできます。ビジネス効果分析、ビジネス戦略のアップグレード、ビジネス モデルの革新により、より良い結果が得られます。例えば:###

  • 金融シナリオ: さまざまな金融機関が協力して、ユーザーのプライバシーを明らかにすることなく、融資件数、融資額、信頼できる記録、その他のルールを照会することで、潜在的な顧客が高リスク顧客であるかどうかを特定します。 # マーケティング シナリオ: 異なるプラットフォーム間で連携して、相補的なユーザー プロファイルを実現し、コンテンツに対するユーザーの好みを分析し、より合理的なコンテンツの推奨を通じてユーザー アクティビティを増加させます。
  • 医療シナリオ下: 異なる病院、または同じ内の異なる部門病院は共同で患者の医療記録を分析し、登録や事前診断に関する意思決定のガイダンスを提供し、医療サービスの効率を向上させます。
  • しかし、SQL と MPC の組み合わせを実現するには、大きな技術的な課題があります。まず第一に、SQL は複雑なアーキテクチャです。プライベート コンピューティングのシナリオで SQL を使用する場合、アーキテクチャ設計の複雑さを解決するには SQL 言語の解析が必要ですが、この解析の技術的敷居は非常に高くなります。第 2 に、SQL 使用シナリオでは、ユーザーはクエリ送信後の応答時間に対して非常に高い要件を持っており、一般に結果がすぐに表示されることを期待していますが、MPC のコンピューティング パフォーマンスは非常に低いです。これを最適化するにはどうすればよいでしょうか? 3 番目に、柔軟な SQL クエリ言語による、ユーザーが見たくない機密情報のクエリを回避する方法です。

MPC テクノロジー コアの基礎となる抽象 SPU デバイス (SecretFlow Processing Unit、略して SPU) に基づいて、Linyu チームは Lingu プラットフォームの高密度状態コンピューティング ユニットであり、Lingu フレームワークに安全なコンピューティング サービスを提供します。マルチパーティセキュリティデータ分析を革新的に実現するシステムSCQL。 SCQL は、SQL に似たクエリ言語をサポートしています。この言語は、一般的に使用されるデータ分析言語としての SQL の人気、学習のしやすさ、成熟度の高さを継承しています。ユーザーがマルチパーティ セキュア コンピューティングのセマンティクスをほとんど意識することなく、共同分析の統計を完了できます。 . 結果が生成されました。

SCQL アーキテクチャは次の図に示されています。これは 2 つの部分に分かれています。上部の SCDB は SCQL のデータベースとみなすことができます。クエリを密な状態の実行グラフに変換し、発行する役割を担います。データ参加者にデプロイされたデータベースへのデータの転送 SCQL エンジンの実行; SCQL エンジンは SCQL の実行エンジンです。他の参加者の SCQL エンジンと連携して密な状態グラフの実行を完了し、結果を SCDB に報告します。

Linyu が初の産業グレードのマルチパーティセキュアデータ分析システムをオープンソース化 SCQL: SQL を書くような「使いやすい」プライベートコンピューティング 具体的には、外部ユーザーは従来の SQL リクエストを直接開始できます。このリクエストは、まず Parser を通過して抽象構文ツリーに変換され、次に Planner を通過します。論理的な計画になります。最大の課題は、論理プランから実行グラフに至るまでで、トランスレーターは複数の制約の下で最適なプロトコルの選択を実行する必要があります。計算全体にはセキュリティ制約があるため、これが SQL プライベート計算を行うための鍵となります。データの種類、データ ソース、データの状態を総合的に考慮する必要があります。データの状態はコンピューティング プロセスに応じて移行および変化し続けます。

ここで、Linyu チームは、マルチパーティ セキュア コンピューティング シナリオにおける SQL の柔軟性と機能性に対する独創的なソリューションとして、CCL (列制御リスト) メカニズムを革新的に実装しました。 CCL は、データ所有者が CCL を使用して、事前レビューの前にデータの各列の使用に関する制約を記述することができる補助ツールを提供します。制約が厳密に満たされた場合にのみ、データ分析エンジンがその制約を実行します。

Linyu が初の産業グレードのマルチパーティセキュアデータ分析システムをオープンソース化 SCQL: SQL を書くような「使いやすい」プライベートコンピューティング 現在、6 種類の制約が提供されていますが、この点に関して lingo フレームワークは今後も改善され、洗練されていく予定です。

要約すると、lingo SCQL ソリューションは、正確性、適時性、セキュリティなどの技術的課題に対処するために非常に優れた試みを行い、次の機能的特徴を実現しました。

  • 使いやすく統合も簡単: SCQL は SQL に似たクエリ言語をサポートしており、使いやすく低コストで開始できます。さらに、SCQL は、統合とカプセル化が簡単なシンプルで使いやすい API インターフェイスを提供し、一般的に使用されるデータ ソースをサポートします (現在 MySQL をサポートしており、CSV、Postgres、Hive、およびその他のデータ ソースもサポートする予定です)。共同分析要件;
  • 細かいデータ認証メカニズム: SCQL は CCL (Column Control List) を革新的に提案します。メカニズムにより、データ当事者がデータの使用方法を承認できるようになります。制御の粒度はデータ テーブルのフィールド (列) と同じくらい細かく設定できます。
  • 豊富な機能と柔軟なシナリオ: 最も一般的に使用される機能をサポートほとんどのシナリオの共同分析ニーズを満たすことができる SQL 構文と関数。
  • 実際の運用パフォーマンス要件を満たす: データ プライバシーの保護を前提として、マルチレベルの最適化が実行されています。密な状態での計算量をできるだけ減らすという最適化の考え方を採用しています。

現在、Ant Insurance は保険会社と協力して、保険金請求検証シナリオに lingo SCQL 関数を使用しています。保険金請求技術プラットフォームと lingo フレームワークに基づいて、「Claims Brain」インテリジェント保険金請求システムが構築され、システム全体の中で、多者間データ共同分析ソリューションがコアモジュールの 1 つとなり、保険会社とその外部医療データを支援します。 ISVは現地に出ずにオリジナルデータを収集し、データ価値の保護を前提に共同分析を実施します。

このプランでは、保険会社から保険疾病の種類、保険の有効期間、事故発生時期などを含む「利用者補償データ」が提供されます。また、「既往症免除規定」も提供されます。保険会社が提供するデータには、保険対象の疾病の種類も含まれており、ISV は、それに対応する免除規定とともに、診断された疾病の種類、治療時間などを含む「ユーザーの医療データ」を提供します。共同分析では、保険会社やISVのデータプライバシーを確​​保しながら、「SELECT FROM」「INNER JOIN」「Where」句と比較式の組み合わせで共同分析タスクの記述と実行を完了できます。 , ユーザーが請求条件を満たしているかどうかを分析します。

健康保険向けにカスタマイズされたこの多者データ共同分析ソリューションは、デジタル調査とレビューを通じて、前向きな手がかりを効果的に発見し、誤った請求のリスクを軽減し、請求の運用コストを制御するのに役立ちます。

将来的には、Linyu オープン ソース コミュニティは、データ ソースの強化 (CSV ファイルのサポートなど)、文法と機能の改善、使いやすさの向上などを含む SCQL 共同構築タスクもリリースする予定です。引き続き Linyu GitHub コミュニティにご注目ください。プル リクエストを通じて共同構築計画を送信して、共同構築タスクの不可欠な部分にすることもできます。私たちは引き続きこの機能を一緒に構築および改善していきます。

データ流通アプリケーション シナリオの拡大

使いやすく使いやすいプライバシー コンピューティングが必要

Wang Lei 氏は、現在のプライバシー コンピューティング技術と市場全体は、プライバシー コンピューティング テクノロジについては、まだ初期段階にあり、業界もまだ初期段階にあり、理解が不十分です。 Linyu は、使いやすい普遍的なベンチマークを設定し、プライベート コンピューティング業界全体でアプリケーションの活性化を支援したいと考えています。もちろん、「セキュリティはプライバシー コンピューティングの中核です。セキュリティの確保を前提としてのみ、精度、パフォーマンス、使いやすさについて話すことができます。そうでない場合は、他のテクノロジで実現できます。」

一般的なコンセプトは、Argot の研究開発を最初から最後まで貫いています。

Wang Lei 氏は、Ant Group が 2016 年にプライバシー コンピューティングの探求を開始し、社内のビジネスと業界の調査を通じて実践と思考を行ったことを紹介しました。このプロセス中に、技術者は、多くのプライバシー コンピューティング テクノロジのルートと異なるアーキテクチャが存在することを発見しました。そのため、理想的なプライバシー コンピューティング アーキテクチャは、まず完成し、主流のテクノロジ フレームワークをサポートし、新しいテクノロジの開発を考慮する必要があります。第 2 に、継続的な反復を容易にするために、アーキテクチャを最下位層から上位層に分離する必要があります。さらに、アーキテクチャは、セキュリティとアルゴリズムを分離し、アプリケーションを容易にし、アプリケーションの幅とプライバシー コンピューティング テクノロジの参加閾値を高めるために、優れた階層型設計を備えている必要があります。ビジネスの統合と大規模な制作機能も重要であり、優れたインターフェイス設計と、グレースケール、ロールバック、柔軟な拡張、マルチバージョン管理などの大規模な制作機能が必要です。

この概念に基づいて、言語フレームワーク SecretFlow は、一般的なプライバシー コンピューティング フレームワークとして提案されており、将来のプライバシー コンピューティング テクノロジとアプリケーションに対応できるようにフレームワークを最も包括的かつスケーラブルにするために次の原則に準拠して開発されています。

  • 完全性: さまざまなプライバシー コンピューティング テクノロジをサポートし、さまざまなシナリオのニーズを満たすために柔軟に組み立てることができます。
  • 透明性: 統一された技術フレームワークを構築し、基盤となるテクノロジーを反復可能にし、高い凝集性と低い結合性で上位層に対して透過的にするように努めます。
  • オープン性: 専門的な方向性が異なる人々がフレームワークの構築に簡単に参加でき、プライバシー コンピューティング テクノロジーの開発を共同で加速できます。
  • 接続性: さまざまな基盤テクノロジーによってサポートされるシナリオ内のデータは相互に接続できます。

lingo フレームワークは、現在の主流のプライバシー コンピューティング テクノロジ ルートをサポートし、さまざまなシナリオのニーズによりよく適応します。これにより、複数のテクノロジ ルートの統合と移行が容易になり、互いの長所を学ぶことができます。同時に、より高い計画レベルで、Yaoyu は、データ 20 条で提案されているデータ所有権を技術的に実現するために、データ要素の所有権、使用権、操作権の「3 つの権利の分離」をサポートする技術ソリューションを設計しています。権利、使用権、管理権の「三権分離」を理念としています。

プライバシー コンピューティングは派手な仕事ではありませんが、業界が何を求めているかを真剣に考えています。Wang Lei のチームは、より安全で、より効率的で、強力なパフォーマンスと、より柔軟なソリューションを提供する方法を考えてきました。現在、業界の大規模アプリケーションは主に BI と AI の 2 つのカテゴリに分類されており、BI は従来の SQL データ分析や Python ベースのデータ分析だけでなく、ビッグ データ処理、ストリーム バッチなど、多くのサブカテゴリに細分化できます。加工などAI シナリオ向けのプライバシー保護機械学習の業界は現在比較的成熟しており、市場には多くのオプションの技術ソリューションや製品が存在します。

私が思い浮かべるのは、数百万または数千万の小規模なデータ量から開始する傾向がある小規模のデータ機関です。なぜなら、そのような処理は多くのアプリケーション シナリオをカバーできるためであり、投資やコストの面でも、より多くのデータを処理できるからです。出力的には実現可能。

「中小規模の機関のデジタル化レベルは初期段階にあり、データ量もサンプルの段階にあるため、AI 機械学習手法は不要であり、費用対効果が低く、BI

大規模データのシナリオでは、BI データ分析も不可欠かつ重要な分析手法です。 「ビッグデータからスモールデータまで、SCQL は高密度データセキュリティ分析のニーズを満たすことができます」と Wang Lei 氏は強調しました。

もちろん、AI アプリケーションの場合、lingo は反復を続けます。たとえば、XGB アルゴリズムが業界で広く使用されれば、より高速なバージョンがリリースされるでしょう。

Wang Lei 氏は、プライバシー コンピューティングの将来のトレンドには、技術統合が含まれる必要があると述べました。これには、異なる技術分野間の統合だけでなく、技術ツール間の統合も含まれます。プライバシー コンピューティング テクノロジ スタック全体の観点から見ると、最終的なソリューションは、さまざまな問題を解決するための複数のテクノロジの横断面である必要があり、導入シナリオの適用性とセキュリティ要件に基づいて、さまざまなシナリオに適したプライバシー コンピューティング テクノロジが選択されます。

Lingyu は、テクノロジーを活用してデータ要素の流通インフラとしてのプライバシー コンピューティングに対する業界の信頼を築き、ハブ モデルとパイプライン モデルを通じてさまざまなアプリケーションを共同でサポートし、大規模な拡張をサポートしたいと考えています。将来的には業界全体。

Linyu が初の産業グレードのマルチパーティセキュアデータ分析システムをオープンソース化 SCQL: SQL を書くような「使いやすい」プライベートコンピューティング

この隠語オープン ソースには 2 つの目的があります: 1 つは、より多くの人がプライベート コンピューティングを使用できるようになることを期待すること、もう 1 つは、より多くの人々が一緒にコミュニティを構築できることを期待することです。現在、共同構築に参加する人の数は比較的少ないですが、Linyu は今年、共同構築の方向性を高め、共同構築プロセスを改善する予定であり、皆様とプライバシー コンピューティングのさらなる可能性を積極的に模索することを楽しみにしています。

Lingyu 公式 Web サイト:

https://www.secretflow.org.cn

Lingyu コミュニティ:

https://github.com/secretflow

https://gitee.com/secretflow

以上がLinyu が初の産業グレードのマルチパーティセキュアデータ分析システムをオープンソース化 SCQL: SQL を書くような「使いやすい」プライベートコンピューティングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。