首頁  >  文章  >  科技週邊  >  如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢

如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢

王林
王林轉載
2023-04-08 17:31:111654瀏覽

前言

在過去的幾年裡,以神經網路為首的人工智慧技術透過對不同類型資料的深入挖掘已經深刻地改變了人類的生活並極大地推動了社會發展的進程[1]。作為人工智慧領域最活躍的研究方向之一,圖神經網路(GNNs)憑藉其卓越的性能已被廣泛應用於個人化推薦等日常生活中,在如新冠藥物研發等科學前沿領域也不乏其身影。隨著圖神經網路技術的蓬勃發展,人們發現以任務效能為單一設計目標的圖神經網路系統中仍有譬如面對惡意攻擊的脆弱性等問題。因此,人們愈發渴望建立起可信的圖神經網路。

近年來,建構可信任人工智慧系統已成為了世界各國的普遍共識 [2][3]。如何全面地建立起可信圖神經網路已經成為了一個亟待解決的重大問題。該文是由Monash團隊(Shirui Pan, Xingliang Yuan,Bang Wu, He Zhang)聯合Hanghang Tong (UIUC) 以及Jian Pei (SFU,即將入職Duke)對可信圖神經網絡的最新綜述(雙欄36頁, 299篇文獻)。

該綜述從研究背景與特徵出發,提出了一個可信圖神經網路的開放框架,著重闡述了「可信GNN」的六大維度(穩健性、可解釋性、隱私、公平性、問責性、環境福祉)及其技術方法。同時,該綜述探討了不同可信維度之間的交互關係,並提出了可信圖神經網路未來的研究方向,為建立起可信圖神經網路描繪了一幅細緻而全面的技術路線圖。

如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢

綜述名稱:Trustworthy Graph Neural Networks: Aspects, Methods and Trends

全文連結:https://arxiv.org/pdf/2205.07424. pdf

Github: https://github.com/Radical3-HeZhang/Awesome-Trustworthy-GNNs 

1 緒論

#圖作為一種具有極強表示能力的資料類型,透過描述實體特徵和刻畫實體之間的關係,已被廣泛應用於描述生物學、化學、物理學、語言學和社會科學等許多領域的資料。近年來,圖神經網路技術的蓬勃發展已經革命性地提升了各種圖計算任務的效能,並促進了其在現實生活中的廣泛應用。

在日常生活中,圖神經網路透過考慮使用者與使用者/服務內容之間的互動關係,可以在資訊串流、線上購物、社群軟體等消費應用中為使用者提供個人化搜尋與推薦服務。在科學前沿中,透過使用圖數據來表示複雜的系統,研究者可以使用圖神經網路來發現天體運動背後隱藏的規律。透過將其應用於假新聞檢測與新冠藥物研發,圖神經網路大大提升了我們的社會福祉。

雖然研究者們已經從很多角度(如自監督學習,提升模型深度等)設計出了進一步提升圖神經網絡性能的方法,但是在一些關鍵領域中任務性能不是設計圖神經網絡的唯一目標。例如,基於圖神經網路的異常檢測系統需要對惡意攻擊具有穩健性,基於圖神經網路的信用評分系統不應該因為使用者的年齡、性別等因素拒絕其貸款申請,基於圖神經網路的藥物發現應用應向研發人員提供其結果的全面解釋。

基於上述需求,人們愈發渴望基於圖神經網路系統是可信的。在這樣的背景下,這篇綜述旨在總結「可信圖神經網路(Trustworthy GNNs)」的最新進展,為相關研究人員和從業人員提供技術路線圖,並為可信圖神經網路的未來研究與產業化發展提供方向。

這篇綜述的主要貢獻有:1)以包含諸多可信維度的開放框架描述了可信圖神經網絡,並提出了圖神經網絡與其他常見人工智能技術(如CNN)在可信研究中的典型差異;2)針對圖神經網路的不同可信維度,對現有方法進行了綜合且全面的總結;3)提出了不同可信維度之間的關係對於構建可信圖神經網路系統至關重要,並從方法和成效兩個層面總結了現有的研究工作;4)透過將可信圖神經網路的概念作為一個整體,提出了未來的潛在研究方向。

2 圖神經網路與可信任

為了便於讀者理解,本文首先對以下核心概念進行介紹。

圖資料(graph data):圖如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢一般由節點集合如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢和邊集合如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢構成。此圖中節點的個數為如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢,節點之間邊的個數為如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢。給定圖如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢,對應的拓撲結構可以用鄰接矩陣如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢表示,其中如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢表示了節點如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢和節點如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢之間的連接關係。即,如果節點如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢相互連接,則如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢,否則如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢。如果圖如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢中節點具有屬性,可用一個特徵矩陣如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢來描述這些屬性資訊。因此,圖如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢也可以表示為如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢

圖神經網路(GNNs):圖神經網路是一系列可用於圖資料上運算任務(如節點分類、連結預測、圖分類)的神經網路的總稱。圖神經網路中一個典型的運算步驟是訊息傳播(message passaging)。在訊息傳播的過程中,圖神經網路透過聚合所有鄰居節點的資訊來更新目前節點的表示。在與其他運算結合(如非線性激勵)的基礎上,經過多次表示更新迭代後,圖神經網路可以計算得到對應的資料表示。

可信(trustworthiness):可信賴性用來形容一個系統是值得被信任的,它描述了信任發起者(the trustor)與信任接收者(the trustee)之間的信任(trust)關係。在可信圖神經網路的脈絡中,信任接收者(the trustee)是圖神經網路系統,信任發起者(the trustor)可以是用戶,開發者,監管部門甚至整個社會。

可信任圖神經網路(Trustworthy GNNs)被定義為兼顧可信任和卓越效能的圖神經網絡,這些可信任維度包含但不限於圖神經網路的穩健性、可解釋性、隱私、公平性、責任和福祉。原文定義如下:「In this survey, we define trustworthy GNNs as competent GNNs that incorporate core aspects of trustworthiness, including robustness, explainability, privacy, fairness, accountability, text-usting and explaint. ”

如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢

#

3 綜述架構

此綜述在第一章主要介紹了研究背景、可信賴圖神經網路的定義、不同可信賴維度的定義、測量和研究差異、與已有綜述的關係及其主要貢獻。在第二章,它介紹了圖神經網路的基本概念和計算任務。在第三至八章,它分別從魯棒性(robustness)、可解釋性(explainability)、隱私(privacy)、公平性(fairness)、問責(accountability)、環境福祉(environmental well-being)這六個面向介紹、總結了典型的技術方法並討論了未來的研究方向。在第九章,這篇綜述從方法和成效兩個層面,總結了上述六個可信維度之間的複雜關係。最後,綜述的第十章將可信圖神經網路看成一個整體,為全面建構可信圖神經網路系統提出了未來研究與產業化的五個方向。

4 穩健性(Robustness)

穩健性是指圖神經網路面臨幹擾時維持穩定預測結果的能力。圖神經網路的預測結果可以被多種擾動(尤其是各類針對圖神經網路的攻擊)所影響。這給圖神經網路在這為圖神經網路在銀行金融系統的詐欺偵測、自動駕駛系統的交通預測及規劃等涉及人身財產安全的場景中的應用帶來了較為嚴峻的挑戰。因此,針對穩健性的研究是可信圖神經網路中不可或缺的關鍵環節。

這篇綜述總結了目前圖神經網路穩健性研究的相關工作,並分別介紹了對抗攻擊、防禦的分類和一些典型方法。其中,對抗攻擊的分類源自於對攻擊威脅模型(threat model)的分析,如下圖所示;對防禦的分類則更多基於該技術的具體執行階段(target phase)。

在介紹不同類別的方法時,作者對這些方法的特點與用於其他常見的人工技術(如CNN)的方法的差異進行了討論。例如,特定擾動操作類型(perturbation operations)和攻擊者目的(attack goals)的不同分類和名稱變化。

如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢

此外,作者也對這些攻擊、防禦方法的適用性進行了討論和總結。例如,對不同類型的防禦方法,作者從應用階段(stage of application)、模組化(modularity)、部署的兼容性(deployment compatibility)三個角度進行了比較和分析。

最後,該綜述根據目前現狀提出了未來的兩個研究方向,分別是製定標準化的穩健性評估方法(robustness evaluations)和提高現有防禦方法的可擴展性(defence scalability) 。

5 可解釋性(Explainability)

可解釋性是指使圖神經網路的預測結果可以被人理解的能力。如果其預測結果不能夠被人所理解,那麼人們就不會信任圖神經網路。信任的缺失會進一步限制其在涉及公平(如信用風險預測)、資訊安全(如晶片設計)、生命安全(如自動駕駛)的場景中的應用。因此,可信的圖神經網路系統需要對其預測結果做出解釋。

在介紹了解釋形式、解釋方法的類別等基本概念後,該綜述將涉及圖神經網路可解釋性的工作分成了自解釋(interpretable GNNs)和事後解釋(post-hoc explainers)兩類。自解釋(Interpretable GNNs)主要包含了貢獻估計(contribution estimation)、引入可解釋模​​組( introduction of interpretable module)、嵌入空間原型學習(embedding prototype learning) 和依據生成方法(rationale generation methods)。事後解釋(post-hoc explainers)主要包含了基於梯度/特徵的方法(gradient/feature-based methods)、基於擾動的方法(perturbation-based methods)、代理模型方法(surrogate methods)、分解方法(decomposition methods )、生成方法(generation methods)和其他方法(other methods)。

如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢

該綜述在介紹了典型方法的原理後,對這些方法進行了全面的比較,如下表所示:

如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢

此外,該綜述從自解釋與事後解釋(interpretability and explainability)、提供解釋時所需的背景知識(white/grey/black-box knowledge)、獲得解釋的推理原理(reasoning rationale)、其他局限性(other limitations)這四個面向對目前的工作進行了總結。最後,該綜述提出建立嚴格的模型不可知的解釋方法(strictly model-agnostic methods)和用於真實應用的評估基準(evaluation benchmark for real applications)是圖神經網路的可解釋性未來研究的兩個方向。

6 隱私(Privacy)

#隱私也是建構可信任圖神經網路時不可忽略的可信維度。在建構和維護可信任圖神經網路系統的過程中,模型本身或圖資料等敏感、隱私的資訊都面臨洩漏的風險。因此,該綜述首先對當前隱私資料外洩相關的研究進行了總結,然後介紹了多種隱私保護方法。

針對隱私洩漏問題,該綜述從當前隱私攻擊的威脅模型入手,首先介紹了潛在威脅的目標和能力,然後介紹了模型提取(model extraction attack)、成員推斷(membership inference attack) 、模型逆向(model inversion attack)這三個常見的隱私攻擊和其他場景中存在的隱私外洩隱患。

隨後,該綜述介紹了在圖神經網路場景下的聯邦學習(federated learning)、差分隱私(differential privacy)、脫敏訓練(insusceptible training)、安全計算(security computation)這四種隱私保護技術。此外,作者在對上述技術進行了分類介紹後,也對它們的具體應用場景和隱私保護結束所帶來的隱私保護、模型精度、實行效率之間的權衡問題進行了討論。

如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢

在章節末尾,針對當前研究的現狀,作者認為目前對梯度資訊導致的洩漏(leakage from gradient)隱患、隱私攻擊的防御手段(defence against privacy attacks)的研究仍綺短汲深,未來仍需要進一步關注與探討。

7 公平性(Fairness)

#透過保護弱勢群體或個人的關鍵利益,公平的系統可以贏得人們的信任。公平的圖神經網路系統意味著其預測結果中排除了對於某些群體或個人的偏見。目前,圖神經網路主要以數據驅動的方式來完成圖計算任務。然而,圖神經網路中的消息傳播機制可能會進一步放大已經存在於數據中的偏見。此後,由於個人喜好或行為偏差等因素,人們在與圖神經網路服務互動的過程中將進一步加深圖數據中的偏見。

如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢

在介紹了公平性定義(group fairness,individual fairness, counterfactual fairness)、使用階段(pre-processing, in-processing, post-processing)等基本概念後,該綜述將目前的用於圖神經網路公平性研究的方法分成了公平表示學習方法(fair representation learning methods)和公平預測增強方法(fair prediction enhancement methods)。在介紹這些方法的基本原理後,對這些方法進行了全面的比較,如下表所示。

如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢

最後,這篇綜述提出探討公平性的定義與評估(fairness definition and evaluation)、對任務表現的影響(influence on task performance)、解釋不公平的來源(revealing unfairness)是未來圖神經網路公平性研究中需要重點關注的研究方向。

8 問責(Accountability)

隨著愈加廣泛的應用場景和複雜的系統結構的出現,個人、企業和政府機構都​​對可信圖神經網路中的有效問責提出了更高的要求。近年來,中、美、歐的企業和政府機構關於如何建構人工智慧的問責框架提出了各自的規劃和指導意見。這篇綜述基於上述內容,歸納了對圖神經網路問責框架的三個要求:

(1) 應設計合理的評估和認證機制(assessment and certification processes),並使其伴隨整個圖神經網路系統的開發與運作週期;

(2) 應保證開發和運作過程的可審計性(assurance of auditability);

(3) 應建立足夠的協調和回饋機制,以方便人類對系統實施幹預(adjusting) 、補救(remediating)等措施,並可以對不當行為進行懲罰(punishing)。

隨後,這篇綜述介紹了目前可用於建立可信任圖神經網路系統中問責框架的兩大類工作:基準化分析(benchmarking)和安全性評估(security evaluation)。

這篇綜述根據圖神經網路不同的開發階段—模型設計(architecture design)、模型訓練(model training)、模型驗證(model validation)—對基準化分析的研究進行了介紹。對於安全性評估,作者主要介紹了驗證系統完整性(integrity verification)的相關研究,並根據驗證對象的不同分別介紹了資料完整性(data integrity)、程序完整性(procedure integrity)的驗證。

最後,這篇綜述為可信圖神經網路的問責提出了三個研究方向。第一,提供更多不同性質踰矩行為的檢測(violation detection);第二,覆蓋全過程的程序完整性檢測和全部件的資料完整性檢測;第三,繼續提高系統的可審計性和建立更多的協調回饋機制。

9 環境福祉(Environmental well-being)

可信圖神經網路應符合其部署環境的社會價值。目前,全球暖化是人類社會亟需解決的重大環境問題,而實現碳中和的雄偉目標需要各行各業的共同努力。為了降低圖神經網路系統的環境影響,在介紹了節點數每焦耳等相關的測量後,該綜述總結了提升圖神經網路效率的多種方法。

(1) 可擴展的圖神經網路和高效的資料通訊:隨著圖資料的爆炸性成長,大規模資料集對於圖神經網路的高效運作提出了挑戰。為了應對這項挑戰,目前的技術主要包含了採樣方法(sampling method)、可拓展架構(scalable architectures)、產業應用(industrial applications)、高效數據通訊(efficient data communication)等。

(2) 模型壓縮技術:隨著技術的發展,研究人員提出了更深且更複雜的圖神經網路模型來提升其效能。然而,這些模型的規模限制了其在只具備有限運算資源的邊緣運算設備上的部署。因此,模型壓縮技術是解決這項挑戰的有效方法。相關的技術包含了知識蒸餾(knowledge distillation)、模型剪枝(model pruning)、減少參數規模(reducing parameter size)、模型量化(model quantisation)等。

(3) 發展框架與加速器:圖資料的不規則性、模型中稀疏與稠密計算的相互交替、模型與應用的多樣性等特點使得圖神經網路系統需要使用專門設計的框架與加速器來提升其效率。為了解決這個問題,目前的方法主要有軟體框架(SW frameworks)、硬體加速器(HW accelerators)、效率瓶頸分析(analysing the efficiency bottleneck)、軟硬體協同設計(SW-HW co-design)等。

最後,該綜述提出探索高效的圖神經網路(exploration of efficient GNNs)和研究用於圖神經網路的加速器(accelerators for GNNs)是未來促進圖神經網路環境福祉的兩個研究方向。

10 不同可信面向之間的關係

目前促進圖神經網路可信任性的研究主要集中在上述六個維度中的一個,該綜述提出建構可信圖神經網路不能忽視上述六個可信維度之間的關係,並從以下兩個角度對此進行了總結:

1) 來自可信圖神經網路中一個維度的方法如何被用來解決其他維度的研究問題(how the methods from one aspect of trustworthy GNNs are adapted to address objectives in other aspects)。

2) 為什麼促進可信任圖神經網路的一個維度可能會促進或抑制其他可信維度(why advancing one aspect of trustworthy GNNs can promote or inhibit other aspects)。

如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢

#

11 未來的研究方向

針對潛在的研究熱點,該綜述將可信圖神經網路視為一個整體並分析了當前方法的局限性。為了填補目前的研究空白,推動可信圖神經網路的產業化,該綜述提出瞭如下五個研究方向:

#A. 擁抱可信任設計理念(shift to trustworthy GNNs)

建構可信的圖神經網路需要研究人員與圖神經網路從業人員全面擁抱可信理念,在設計圖神經網路時不僅要考慮其任務效能,更需要將可信的理念引入圖神經網路的設計哲學中。已有的一些工作在設計中兼顧了可解釋性和公平性,這大大提升了圖神經網路的可信度。此外,解決在轉向可信任圖神經網路的過程中面臨的一系列開放性問題,如在具體應用中對不同可信維度(如自動駕駛中的魯棒性和環境福祉)進行平衡和取捨,也是一個具有挑戰性的研究方向。

B. 探索其他可信維度(other aspects of trustworthy GNNs)

可信圖神經網路所包含的內容實際上超過了該綜述介紹的六個維度。例如,泛化能力(generalisation)也被認為是可信系統的重要維度。目前一些研究探討了圖神經網路外推(extrapolation)與其使用的活化函數之間的關係,這些工作豐富了可信的內涵並促進了可信圖神經網路的建構。此外,該綜述提出,妥善處理可信系統相關的設計原則(如國家新一代人工智慧治理專業委員會發布的《新一代人工智慧治理原則—發展負責任的人工智慧》)也是可信圖神經網絡在未來發展中的重要研究內容。

C. 研究多元相互關係(diversified relations)

此綜述只涉及了可信圖神經網路不同維度之間複雜關係的一部分。探索其他相互關係(如可解釋性和公平性)對於全面理解和建立可信任圖神經網路系統至關重要。此外,這些關係不僅複雜而且存在於多個層面。例如,反事實公平(counterfactual fairness)與魯棒性(robustness)在概念上具有相似性。因此,從概念、方法、成效等不同的層次探討可信圖神經網路的不同向度之間的相互關係也是一個有前景的研究方向。

D. 設計模型不可知方法(model-agnostic methods)

目前,許多提升圖神經網路可信任性的方法都需要使用專門設計的圖神經網路架構。如果無法存取或修改目標網路架構(如使用雲端服務),這些方法將無法使用。這大大降低了這些可信性增強方法在現實場景中的實用性。相較之下,模型不可知方法能夠以即插即用的方式靈活地被應用到圖神經網路系統中。此外,這類方法也能夠以功能模組的形式被組合使用。因此,設計模型不可知的方法將大大提升其實用性並促進可信圖神經網路的建構。

E. 建立可信任技術生態(technology ecosystem for trustworthy GNNs)

作為一個蓬勃發展的領域,可信圖神經網路的發展離不開技術生態的支持。這裡的技術生態包含但不限於工具包(tools)、資料集(datasets)、評估度量(metrics)、評估流程(pipelines)。由於圖數據的自身特性,目前的一些工具包(tools)如IBM的AI360可能無法直接用於圖神經網路的評估。例如,節點之間邊的存在打破了節點上的獨立同分佈(IID)假設,這就導致研究圖神經網路公平性時需要考慮節點之間的相互依賴。此外,由於應用場景的多樣性,建構可信任圖神經網路也需要適用於不同任務和場景的資料集、度量、評估標準、軟體平台等配套技術設施。因此,建立相應的技術生態是可信圖神經網路的研究和產業化的關鍵一步。

以上是如何建構可信任GNN?最新綜述來了!可信圖神經網路:維度,方法,趨勢的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除