編輯| ScienceAI
在人工智慧(AI),特別是醫療AI領域中,解決公平性問題對於確保公平的醫療結果至關重要。
最近,增強公平性的努力引入了新的方法和資料集。然而,在域轉移的背景下,公平性問題幾乎沒有被探索,儘管診所常常依賴不同的影像技術(例如,不同的視網膜成像方式)進行患者診斷。
本文提出了FairDomain,這是首次系統性研究演算法在域轉移下的公平性,我們測試了最先進的域適應(DA)和域泛化(DG)演算法,用於醫學影像分割和分類任務,旨在了解bias如何在不同領域之間轉移。
我們也提出了一種新的即插即用的公平身份注意力(FIA)模組,透過使用自註意力機制,根據人口統計屬性調整特徵重要性,以提高各種DA和DG演算法的公平性。
此外,我們還整理並公開了第一個關注公平性的domain-shift資料集,該資料集包含同一患者群體的兩種配對成像方式的醫學分割和分類任務,以嚴格評估域轉移場景下的公平性。排除源域和目標域之間人口分佈差異的混淆影響,將使域轉移模型效能的量化更加清晰。
我們的廣泛評估表明,所提出的FIA在所有域轉移任務(即DA和DG)中顯著增強了模型在不同人口統計特徵下的公平性和性能,在分割和分類任務中均優於現有方法。
在這裡分享ECCV 2024中稿的工作「FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification」
」
>文章網址:
https://arxiv.org/abs/2407.08813
代碼位址:https://github.com/Harvard-Ophthalmology-AI-Lab/FairDomain
資料集網站:https://ophai.hms.harvard.edu/datasets/harvard-fairdomain20k
資料集下載連結:https://drive.google.com/drive/folders/1huH93JVeXMj9rK6p1OZRub868vv0UK0O?usp=sharing
Harvard-Ophthalmology-AI-Lab 致力於Harvard-Ophthalmology-AI-Lab 致力於提供更多公平性資料集請點選lab的資料集首頁:https://ophai.hms.harvard.edu/datasets/
背景近年來,深度學習在醫學影像領域的進步大大提升了分類和分割任務的效果。這些技術有助於提高診斷準確性、簡化治療規劃,最終改善患者的健康狀況。然而,在不同醫療環境中部署深度學習模型時,面臨一個重要挑戰,即演算法固有的偏見和對特定人口群體的歧視,這可能會削弱醫療診斷和治療的公平性。 近期的一些研究開始解決醫學影像中演算法偏見的問題,並開發了一些增強深度學習模型公平性的方法。然而,這些方法通常假設訓練和測試階段的資料分佈保持不變,這種假設在實際醫療場景中往往不成立。 例如,不同的初級保健診所和專科醫院可能依賴不同的成像技術(例如,不同的視網膜成像方式)進行診斷,導致顯著的域轉移,進而影響模型性能和公平性。 因此,在實際部署中,必須考慮域轉移,並學習能夠在跨域場景中保持公平性的模型。 雖然已有文獻廣泛探討了域適應和域泛化,但這些研究主要集中在提高模型準確性,而忽略了確保模型在不同人口群體中提供公平預測的關鍵性。尤其在醫療領域,決策模型直接影響人類健康與安全,因此研究跨域公平性具有重要意義。 然而,目前僅有少量研究開始探討跨域公平性的問題,而且這些研究缺乏系統的全面調查,通常僅關注域適應或泛化,而很少同時關注兩者。此外,現有的研究主要解決醫學分類問題,而忽略了在域轉移下同樣重要的醫學分割任務。 為了解決這些問題,我們介紹了FairDomain,這是醫學影像領域第一個系統性探索域轉移下演算法公平性的研究。 我們透過多個最先進的域適應和泛化演算法進行廣泛實驗,評估這些演算法在不同人口統計屬性下的準確性和公平性,並了解公平性如何在不同領域之間轉移。我們的觀察揭示了在不同的醫學分類和分割任務中,源域和目標域之間的群體表現差異顯著加劇。這表明需要設計以公平性為導向的演算法來有效解決這個緊迫問題。
為了彌補現有偏見緩解工作的不足,我們引入了一種新的多功能公平身份注意力(FIA)機制,該機制設計為可以無縫整合到各種域適應和泛化策略中,透過人口統計屬性(例如,種族群體)派生的自註意力來協調特徵重要性,以促進公平性。
FairDomain基準的開發面臨的一個關鍵挑戰是缺乏一個能夠真實反映現實世界醫療領域中域轉移的醫學影像資料集,而這種域轉移通常是由於不同的成像技術引起的。
現有的醫學資料集中,源域和目標域之間的患者人口統計差異引入了混淆,難以區分觀察到的演算法偏見是由於人口統計分佈變化還是固有的域轉移所致。
為了解決這個問題,我們策劃了一個獨特的資料集,包括同一患者群組的配對視網膜眼底影像,分別採用兩種不同的成像方式(En face 和SLO 眼底影像),專門用於分析域轉移場景下的演算法偏見。
總結我們的貢獻:
2、引入了公平身份注意力技術,以提高域適應和泛化中的準確性和公平性。
3、創建了一個大規模的、用於公平性研究的配對醫學分割和分類資料集,專門研究域轉移下的公平性問題。
資料收集和品質控制
受試者是在2010年至2021年間從哈佛醫學院的一個大型學術眼科醫院中選取的。本研究中探討了兩個跨域任務,即醫學分割和醫學分類任務。對於醫學分割任務,數據包括以下五種:
2、SLO 眼底影像掃描;
3、病患的人口統計資料;
4、青光眼診斷;
5、杯盤掩膜註記。
特別地,杯盤區域的像素註釋首先透過OCT 設備獲取,OCT 製造商的軟體將3D OCT 中的盤邊緣分割為Bruch's 膜開口,並將杯邊緣檢測為內界膜(ILM )與平面相交處的最小表面積的交點。
由於 Bruch’s 膜開口和內界膜與背景的高對比度,這些邊界可以很容易地分割出來。由於 OCT 製造商軟體利用了3D 訊息,杯盤分割通常是可靠的。
考慮到初級護理中 OCT 設備的有限可用性和高成本,我們提出了一種將 3D OCT 註釋轉移到 2D SLO 眼底圖像的方法,以提高早期青光眼篩檢的效率。
我們使用NiftyReg 工具精確對齊 SLO 眼底影像與 OCT 衍生的像素註釋,產生大量高品質的 SLO 眼底遮罩註釋。
這個過程經過一組醫學專家的驗證,註冊成功率達 80%,簡化了初級護理設置中更廣泛應用的註釋過程。我們利用這些對齊和手動檢查的註釋,結合 SLO 和 En face 眼底影像,研究分割模型在域轉移下的演算法公平性。
對於醫學分類任務,資料包括以下四種:
2、SLO 眼底影像掃描;
3、患者的人口統計資料;
4、青光眼診斷。
醫學分類資料集中的受試者依視野測試結果分為正常和青光眼兩類。
資料特徵
醫學分割資料集包含 10000 名受試者的 10000 個樣本。我們將資料分為訓練集 8000 個樣本,測試集 2000 個樣本。患者的平均年齡為 60.3 ± 16.5 歲。
資料集包含六個人口統計屬性,包括年齡、性別、種族、族裔、首選語言和婚姻狀況。人口統計分佈如下:
種族:亞洲人佔9.2%,黑人佔14.7%,白人佔76.1%;
族裔:非西班牙裔佔90.6%,西班牙裔佔3.7%,未知佔5.7%;
首選語言:英語佔92.4%,西班牙語佔1.5%,其他語言佔1%,未知佔5.1%;
婚姻狀況:已婚或有伴侶佔57.7%,單身佔27.1%,離婚佔6.8%,法律分居佔0.8%,喪偶佔5.2%,未知佔2.4%。
類似地,醫學分類資料集包含 10000 名受試者的 10000 個樣本,平均年齡為 60.9 ± 16.1 歲。我們將資料分為訓練集 8000 個樣本,測試集 2000 個樣本。人口統計分佈如下:
種族:亞洲人佔8.7%,黑人佔14.5%,白人佔76.8%;
族裔:非西班牙裔佔96.0%,西班牙裔佔4.0%;
首選語言:英語佔92.6%,西班牙語佔1.7%,其他語言佔3.6%,未知佔2.1%;
婚姻狀況:已婚或有伴侶佔58.5%,單身佔26.1% ,離婚佔6.9%,法律分居佔0.8%,喪偶佔1.9%,未知佔5.8%。
這些詳細的人口統計資訊為深入研究跨域任務中的公平性提供了豐富的數據基礎。
用來提升跨域AI模型公平性的方法Fair Identity Attention (FIA)
問題定義🎜>
域適應(Domain Adaptation, DA)和域泛化(Domain Generalization, DG)是機器學習模型開發中的關鍵技術,旨在應對模型從一個特定域應用到另一個域時可能出現的變異性。 在醫學影像領域,DA 和 DG 技術對於創建能夠穩健處理不同醫療機構、影像設備和患者群體之間的變異性的模型至關重要。本文旨在探討域轉移背景下的公平性動態,並發展確保模型在適應或泛化到新領域時保持公平和可靠性的方法。 我們旨在開發一個方法函數 f,以減輕模型從源域轉移到目標域時常見的公平性惡化。此類惡化主要由於域轉移可能放大資料集中現有的偏見,特別是那些與性別、種族或族裔等人口統計屬性相關的偏見。 為了解決這個問題,我們提出了一種基於注意力機制的方法,旨在識別和利用與下游任務(如分割和分類)相關的圖像特徵,同時考慮人口統計屬性。 圖 3 顯示了所提出的公平身分注意力模組的架構。此模組首先透過處理輸入影像和輸入統計屬性標籤,以獲得輸入影像embedding E_i 和屬性embedding E_a。然後將這些嵌入加上位置embedding E_p。詳細的計算公式如下: 透過計算query和key的點積,我們提取與目前特徵屬性相關的相似度矩陣。然後使用此矩陣與value的點積提取每個特徵屬性在下游任務中顯著的特徵。這個過程由以下公式表示: 其中 D為縮放因子,以避免 softmax 函數中的值過大。 隨後,一個殘差連接將E_i加入註意力的輸出中,以保持輸入資訊的完整性。最後,一個歸一化層和一個多層感知器(MLP)層進一步提取特徵。在對這兩個層的輸出進行另一次殘差操作後,我們得到了公平注意力模組的最終輸出。 公平身分注意力機制是一種強大且多功能的工具,旨在提高模型效能,同時解決公平性問題。透過明確考慮人口統計屬性(如性別、種族或族裔),它確保學習到的表示不會無意中放大數據中存在的偏見。 其架構允許它作為一個插件元件無縫整合到任何現有網路中。這種模組化性質使得研究人員和實踐者能夠在不需要對底層架構進行大量修改的情況下,將公平身份注意力整合到他們的模型中。 因此,公平身分注意力模組不僅有助於提高分割和分類任務中的模型準確性和公平性,還透過促進資料集中不同群體的公平待遇來推動可信AI落地。實驗
因此,我們選擇將 En face 眼底影像作為來源域,將 SLO 眼底影像作為目標域。對於分類任務,我們使用這兩個域的眼底圖像作為源域和目標域,分類為正常和青光眼兩類。
評估指標
我們使用 Dice 和IoU指標來評估分割性能,使用受AUC來評估分類任務的性能。這些傳統的分割和分類指標雖然能反映模型的表現,但並未內在地考慮到各人口統計群體之間的公平性。
為了解決醫學影像中模型性能和公平性之間的潛在權衡,我們使用新穎的公平性縮放性能(ESP)指標來評估分割和分類任務的性能和公平性。
令∈{Dice,IoU,AUC,...}M in {Dice,IoU, AUC, . . .}M∈{Dice,IoU,AUC,...} 表示適用於分割或分類的通用性能指標。傳統評估通常忽略人口統計身分屬性,從而錯過了關鍵的公平性評估。為了將公平性納入其中,我們首先計算表現差異Δ,定義為各人口統計群體的指標與整體表現的集體偏差,其公式如下:
當不同群體的表現公平性達到時,Δ接近零,反映出最小的差異。然後,ESP 指標可以公式化如下:
此統一指標有助於全面評估深度學習模型,強調不僅要關注其準確性(如透過Dice、IoU 和AUC等測量),也要注意其在不同人口群體間的公平性。
Cup-Rim Segmentation!
Glaucoma Classification Results under Domain Shifts總結
總結
總結
總結
總結
總結
總結
總結由於診所可能使用不同的影像技術,域轉移中的公平性問題仍然基本上未被探索。我們的工作引入了FairDomain,這是一個關於域轉移任務中演算法公平性的全面研究,包括域適應和泛化,涉及醫學分割和分類兩個常見任務。 我們提出了一種新穎的即插即用的Fair Identity Attention(FIA)模組,透過注意力機制根據人口統計屬性學習特徵相關性,從而在域轉移任務中增強公平性。 我們也創建了第一個以公平性為中心的跨域資料集,其中包含同一患者群組的兩種配對的成像圖片,以排除人口統計分佈變化對模型公平性的混淆影響,從而精確評估域轉移對模型公平性的影響。 我們的公平身份注意力模型可以改善現有的域適應和泛化方法,使模型性能在考慮公平性的情況下得到提升。 註:封面圖由AI產生。以上是ECCV2024 | 哈佛團隊開發FairDomain,實現跨域醫學影像分割與分類中的公平性的詳細內容。更多資訊請關注PHP中文網其他相關文章!