首頁  >  文章  >  科技週邊  >  隱語開源首個工業級多方安全資料分析系統SCQL:像寫SQL一樣「易用」隱私權計算

隱語開源首個工業級多方安全資料分析系統SCQL:像寫SQL一樣「易用」隱私權計算

王林
王林轉載
2023-04-04 12:45:06887瀏覽

隱語開源首個工業級多方安全資料分析系統 SCQL,填補了產業空白,將進一步延展資料安全協同的連結、拓展資料價值流通的場景。

大模型的興起,讓資料作為新型生產要素的重要性被再一次深刻認知,而隱私運算作為平衡資料利用和資料安全的重要路徑,學術價值和應用價值進一步凸顯。近年來,在政策驅動和市場需求的雙重作用下,隱私計算技術和產業穩步發展,在金融、通訊、互聯網、政務、醫療等許多領域得到應用。但整體來看,由於技術門檻和建設成本等問題,真正規模化的生產落地應用有,但數量非常少。

3 月29 日,首屆隱語開源社群開放日上,隱語SecretFlow 開源框架發布了新版本,推出了一項業界期待的重要功能—多方安全資料分析系統SCQL(Secure Collaborative Query Language )。這是業界首個把 SQL 做到多方安全運算(MPC)技術上的應用,實現了工業級的多方安全資料分析功能,目前在隱語 GitHub 社群中開源,面向全球開發者免費開放。

隱語開源首個工業級多方安全資料分析系統SCQL:像寫SQL一樣「易用」隱私權計算

隱語框架SecretFlow 負責人王磊在隱語開源社群開放日現場發布隱語SCQL 系統

這也是隱語團隊歷時三年,經歷多輪技術驗證,在效能、安全性上滿足工業級應用場景之後才開源釋放的重要產品功能,希望進一步延展資料安全協同的鏈路、拓展資料價值流通的場景,特別是滿足長尾的和廣大中小機構的數據分析需求。

隱語框架負責人、螞蟻集團隱私智能計算技術部總經理王磊在接受機器之心專訪時表示,當隱私計算落到行業中,解決大規模的用戶的實際問題時,相比AI 資料分析,BI 的應用場景會更廣,SQL 是目前大家最熟悉的BI 分析工具,隱語這次發布SCQL 系統,就是希望使用者能夠在熟悉的工作流程基礎上,低成本的去理解和使用隱私計算技術。

目前,隱私計算正在進入一個新的階段,單點技術的安全合規已經經過了試點驗證,特別是數據二十條頒布以來,實現大數據和隱私計算的結合,實現隱私計算BI 的可用和易用,降低技術門檻,成為當前階段的核心挑戰,只有持續拓展技術應用的廣度和深度,才能夠真正迎接未來大規模資料要素全面密態化的時代。

王磊表示,隱語團隊在SQL 語言解析、MPC 計算效能最佳化和結果反推的安全性方面取得了技術上的突破,在一些問題上提供了一些非常好的新的解決思路,並且做了工程實現,取得了不錯的效果。他同時強調,還有更多具有挑戰性的和開放性的問題,期待更多人參與共建隱私運算開源社區,共同探索更多應用場景。

隱語SCQL:第一個開源的工業級

多方安全資料分析統 

根據中國資訊通訊研究院今年1 月發布的《中國企業智慧化成熟度報告(2022)》,目前有84% 的企業仍處於數位化建設的基礎階段,距離實現智慧營運和創新發展有一段距離。對於這部分企業而言,存在大量的 BI 業務需求。

目前可用的大多數BI 技術都能夠在儲存或傳輸資料時保護數據,但缺乏保護資料運算流程安全性的功能,對於有隱私和安全相關訴求的機構而言,這恰好拓寬了傳統BI 技術的邊界,可以適用更多場景。隨著資料要素市場化進程的推進,隱私計算 BI 分析將出現嚴重的產業空白。

在這樣的背景下,隱語啟動了SCQL 項目,將BI 分析中最常用的SQL 和隱私計算中的多方安全計算(MPC)結合起來,作為讓隱私計算落到行業,在整個大的複雜生態中大規模應用化的第一步。

聚焦多方資料聯合分析的場景,是因為相比於可信任執行環境(TEE)技術路線對硬體信任根有要求,而且目前國產化的成熟度尚需時間驗證打磨,多方安全計算(MPC)技術路線有特有的優勢:資料控制力更強、不依賴特殊硬體等。此外,在一些單方資料比較單薄的場景,也可以透過樣本或資料維度的擴充來提升資料分析的質量,也即結合多方資料進行共同決策,最終在業務效果分析、業務策略升級、業務模式創新中取得更優的效益。例如:

  • 金融場景下:不同金融機構間合作,在不洩露用戶隱私的前提下,透過貸款次數、貸款額度、守信記錄等規則的查詢,來辨別潛在客群是否為高風險客戶;
  • 行銷場景下:不同平台之間進行合作,實現用戶畫像互補,分析用戶對內容的偏好,透過更合理的內容推薦提升用戶的活躍度;
  • 醫療場景下:不同醫院甚至同家醫院內的不同科室之間,共同分析病人的就醫記錄,對掛號或預診提供決策指導,提升醫療服務效率。

然而,要實作 SQL 與 MPC 的結合有很大的技術挑戰。首先 SQL 作為一個複雜的架構,將其引用到隱私運算場景,如何解決架構設計上的複雜性問題,這就涉及到對 SQL 語言進行解析,而這個解析的技術門檻是非常高的。其次,在 SQL 使用情境下,使用者對 query 提交後的回應時間有很高的要求,一般都期望立刻看到結果,而 MPC 的運算效能很低,如何針對這一點做最佳化?第三,如何避免靈活的 SQL 查詢語言導致查詢出使用者不希望看到的敏感資訊。

隱語團隊基於MPC 技術核心的底層抽象SPU 設備(SecretFlow Processing Unit,簡稱SPU,是隱語平台的密態運算單元,為隱語框架提供安全運算服務),創新實現了多方安全資料分析系統SCQL。 SCQL 支援類別SQL的查詢語言,這種語言繼承了SQL 作為常用資料分析語言的普及性、易學性和高成熟度,在使用者幾乎不感知多方安全計算語意的情況下,即可完成聯合分析的統計結果生成。

SCQL 架構如下圖所示,總體分為兩個部分,上層的SCDB 可以被視為SCQL 的資料庫,負責將query 翻譯成密態執行圖,下發給部署在資料參與者的SCQL Engine 執行;SCQL Engine 是SCQL 的執行引擎,將協同其他參與者的SCQL Engine 一起完成密態圖的執行,並將結果回報至SCDB。

隱語開源首個工業級多方安全資料分析系統SCQL:像寫SQL一樣「易用」隱私權計算

具體地說,外部使用者可以直接發起一個傳統的SQL 請求,這個請求首先會經過Parser,轉換成一個抽象的語法樹,透過Planner,變成Logical plan。最大的一個挑戰是Logical plan 到Execution Graph,Translator 在這裡需要執行一個多約束條件下最優協定的選擇,這是將SQL 做到隱私計算的一個關鍵,因為整個計算中有安全性的約束,需要綜合考慮資料類型、資料來源、資料狀態,資料狀態也會隨著計算過程不斷發生遷移和改變。

在這裡,隱語團隊創新地實現了 CCL(Column Control List)機制,作為多方安全計算場景下對 SQL 靈活性和功能性的一種巧妙的解決思路。 CCL 提供了一個輔助性的工具,使得資料擁有者可以在事前審核之前,使用 CCL 描述每列資料在使用過程中的約束,只有嚴格滿足約束條件的,資料分析引擎才會執行。

隱語開源首個工業級多方安全資料分析系統SCQL:像寫SQL一樣「易用」隱私權計算

目前提供了 6 種約束條件,未來隱語框架也將在這方面繼續完善和細化。

總結來說,針對正確性、及時性和安全性等技術挑戰,隱語  SCQL 方案都做了非常好的嘗試,在功能特性上實現了:

  • 易於使用與整合:SCQL 支援類別 SQL的查詢語言,簡單易用,上手成本低。除此之外,SCQL 提供簡單易用的API 接口,便於整合封裝,且支援常用的資料來源(目前支援MySQL,未來計劃支援CSV、Postgres、Hive 等資料來源),可以低成本滿足業務的多方數據協同分析需求;
  • 精細的資料授權機制:SCQL 創新地提出了CCL(Column Control List) 機制,讓資料方可以對自己的資料如何被使用進行授權,控製粒度可精細至資料表欄位(列);
  • 功能豐富場景靈活:支援大部分常用的SQL語法和函數,可滿足大部分場景的共同分析需求;
  • 滿足實際生產效能需求:在保護資料隱私的前提下,以盡可能減少密態下的運算量為最佳化思路,進行了多層次的最佳化。

目前,螞蟻保就已經在與保險公司的合作中,面向核賠勘查場景,使用了隱語 SCQL 功能。基於理賠科技平台和隱語框架,打造了「理賠大腦」智慧理賠系統,在整個系統中,多方數據聯合分析解決方案是核心模組之一,幫助保險公司及其外部醫療數據ISV在原始數據不離開本地、資料價值有保護的前提下,進行聯合分析。

在這個方案中,保司提供「用戶賠償金」,包含了出險疾病類型、保單生效時間、出險時間等維度,此外保司提供的「既往症免責規則」還包含了出險疾病類型及其對應的免責規則,ISV 提供「使用者就醫資料」包含確診疾病類型、就診時間等維度。在聯合分析中,透過「SELECT FROM」、「INNER JOIN」、「Where」 子句,以及比較運算表達式等組合搭配,即可完成聯合分析任務的描述以及執行,在保障保司和ISV 資料隱私的前提下,分析使用者是否符合理賠條件。

這個健康險客製化多方資料聯合分析解決方案,能夠幫助有效發現陽性線索、降低錯賠風險,透過數位化調查審核控制了理賠營運成本。

未來,隱語開源社群也將發布SCQL 的共建任務,包括豐富資料來源(如支援csv 檔案)、完善語法和功能,增強易用性等,歡迎大家持續關注隱語GitHub 社區,甚至將你的共建計畫透過pull request 的方式提交,成為共建任務的組成部分,共同持續建設完善這項功能。

拓展資料流通應用場景

需要易用、好用的隱私計算

王磊認為,目前隱私運算整體技術和市場仍處在起步階段,產業對隱私計算技術的認知不夠充分。隱語希望能夠樹立一個易用、通用的標桿,希望能夠幫助啟動整個隱私計算行業的應用。當然,「安全是隱私運算的核心,只有在確保安全的前提下,才能夠去談精度、性能、好用,不然完全可以用其他的技術實現。」

通用的理念貫穿在隱語研發的始終。

王磊介紹,螞蟻集團從 2016 年開始探索隱私計算,並透過內部業務和行業調查進行實踐和思考。在此過程中,技術人員發現隱私運算技術路線多且架構不同,因此,一個理想的隱私運算架構首先應具備完備性,支援主流技術框架,並考慮到新技術的發展。其次,為了方便持續迭代,架構上要做到底層和上層解耦。此外,架構也應具備良好的分層設計,使安全性和演算法分開,方便應用,提高隱私運算技術的應用廣泛度和參與門檻。業務整合和規模化生產能力也很重要,需要有良好的介面設計和規模化生產的能力,如灰階、回滾、彈性擴容和多版本管理。

在這樣的理念下,隱語框架SecretFlow 作為一種通用的隱私計算框架被提出,堅持以下原則,使框架具有最大的包容性和可擴展性,以應對未來隱私計算技術和應用的發展。

  • 完備性:支援多種隱私運算技術,可靈活組裝,滿足不同場景需求。
  • 透明性:建構統一的技術框架,盡量讓底層技術迭代對上層透明應用,具有高內聚和低耦合。
  • 開放性:不同專業方向的人可以輕鬆參與框架的建設,共同加速隱私運算技術的發展。
  • 連接性:不同底層技術支援的場景中的資料可以相互連接。

隱語框架支援目前主流的隱私運算技術路線,以便更好地適應不同的場景需求,這樣也可以更方便地進行多技術路線的整合和遷移,取長補短。同時,在一個更高的規劃層面,隱語正在設計支持資料要素持有權、使用權、經營權「三權分置」的技術方案,以從技術上實現資料二十條裡提出的資料持有權、使用權、經營權「三權分置」的指導思想。

隱私運算不是繡花功夫,而是真正想產業所想,王磊團隊也一直在琢磨如何提供更安全、更有效率、效能更強、更靈活的解決方案。目前產業中的大型應用主要分為 BI 和 AI 兩大類,BI 又可細分為許多子類,例如針對傳統 SQL 資料分析和基於 Python 的資料分析,以及大數據處理、流批次處理等。針對 AI 場景的隱私保護機器學習,目前產業已經較成熟,且市面上有許多可選的技術解決方案和產品。

隱語想到了那些小規模資料機構,傾向於優先從規模較小的、百萬或千萬級別的資料量開始入手,因為這樣的處理能夠覆蓋許多應用場景,並且在投入和產出方面也更有可行性。

「由於中小機構的數位化程度處於初期,資料量屬於小樣本階段,Al 機器學習的方式不必要也不具性價比,而以SQL 語言為主要手段的BI 分析是最具可行性的方案。」

對於大規模資料場景來說,BI 資料分析也是不可或缺的重要分析手段。 「從大數據到小數據,SCQL 都能滿足密態資料安全分析的需求,」王磊強調。

當然,對於 AI 應用,隱語也會持續進行迭代,如業界廣泛應用 XGB演算法,也會有更快的版本開放出來。

王磊表示,隱私運算未來的趨勢一定是包含技術融合的,這不僅包含不同技術領域之間的融合,也包括技術工具之間的融合。從整個隱私運算的技術堆疊來看,最終的解決方案一定是多種技術交叉解決各種不同的問題,根據部署場景的適用性,根據安全要求,選擇不同場景的隱私計算技術。

隱語希望透過科技的方式,建構起產業對隱私運算作為資料要素流通基礎設施的信任,透過樞紐模式和管道模式共同支撐各種應用,以期在未來支撐全產業的規模擴展。

隱語開源首個工業級多方安全資料分析系統SCQL:像寫SQL一樣「易用」隱私權計算

隱語開源有兩個目的:一是希望更多人能夠使用隱私計算;二是希望有更多人能夠共建社群。目前參與共建的人數相對較少,隱語計畫在今年增加共建方向和完善共建流程,期待與大家積極探索隱私計算更多可能。

隱語官網:

https://www.secretflow.org.cn

隱語社群:

https://github.com/secretflow

#https://gitee.com/secretflow

以上是隱語開源首個工業級多方安全資料分析系統SCQL:像寫SQL一樣「易用」隱私權計算的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除