首頁  >  文章  >  科技週邊  >  隱私權保護:AI實現醫療保健臨床資料匿名化

隱私權保護:AI實現醫療保健臨床資料匿名化

王林
王林轉載
2023-04-12 15:19:081021瀏覽

隱私權保護:AI實現醫療保健臨床資料匿名化

面對突如其來的新冠疫情,我們已經親眼見證創紀錄等級的資料外洩事件。 IBM最近的一份報告發現,資料外洩的成本也急劇攀升。

醫療保健無疑是受資料外洩影響最大的產業之一,每起資料外洩事件平均造成920萬美元損失。在此類違規案例當中,最常暴露在風險之下的資訊類型正是敏感客戶資料。

製藥和醫療保健企業均需要在保護病患資料的前提下,按照嚴苛的指導要求組織運作。因此,任何違規行為都可能引發高昂代價。例如,在整個藥物發現階段,企業需要收集、處理和儲存個人識別資訊(PII),而在試驗結束並提交臨床申請時,必須在所公佈的結果中註意保護患者隱私。

歐洲藥品管理局(EMA)0070號法規和加拿大衛生部出台的《公開發布臨床資訊》規定,均對資料匿名化提出了具體建議,希望盡量降低利用結果還原病患身分資訊的風險。

除了倡導資料隱私之外,這些法規還要求共享試驗數據,確保社區能夠以此為基礎開展工作。但這無疑讓企業陷入了兩難。

所以,藥廠到底如何在資料隱私與透明度之間求取平衡,同時又能及時、經濟且有效率地發布研究結果?事實證明,AI技術能夠承擔起提交過程中超過97%的工作量,大大減輕企業的營運負擔。

臨床研究結果(CSR)匿名化為何如此困難?

在實施臨床提交匿名化的過程中,企業主要面臨三大核心挑戰:

非結構化資料難於處理:臨床試驗資料當中,有很大一部分屬於非結構化資料。研究結果包含大量文字資料、掃描圖片和表格,處理效率低。研究報告動輒上千頁,從其中辨識出敏感資訊就如同大海撈針。而且,沒有任何標準化技術訓練解決方案能夠自動執行這類處理工作。

手動流程既繁瑣又容易出錯:如今,製藥公司需要雇用數百名員工對臨床研究提交進行匿名處理。整個團隊需要經歷超過25個複雜步驟,典型的摘要文件可能需要長達45天的處理週期。而且在手動檢查幾千頁資料時,枯燥的過程往往極易引發錯誤。

 監管指南的開放性解釋:雖然法規中提出不少詳細建議,但細節仍不夠完備。例如,加拿大衛生部的《公開發布臨床資訊》規定就要求身分資訊的還原風險應低於9%,卻並未詳細介紹具體的風險計算方法。

下面,我們將從解決問題的角度,設想能夠處理這類匿名化需求的具體方案。

利用增強分析來辨識人類語言中的敏感資訊

以下三大要素,有助於建立技術驅動型的匿名化解決方案:

用於自然語言處理(NLP)的AI語言模式

如今,AI已經能夠像藝術家一樣創作,也能像醫生一樣診斷。深度學習技術已推動AI取得許多進步,而AI語言模式正是其中一股中堅力量。作為專司處理人類語言的演算法分支,AI語言模型特別擅長偵測命名實體,例如病患姓名、社保號碼和郵遞區號。

不知不覺中,這些強大的AI模型已經滲透到公共領域的各個角落,並受到公開文件的規模化訓練。除了知名的維基百科之外,包含40,000名病患脫敏資料的MIMIC-III v1.4資料庫也成為訓練AI模型的寶貴資源。當然,為了提升模型效能,還需要由領域專家根據內部臨床試驗報告,對模型進行後續重新訓練。

透過人機迴圈設計提高準確率

加拿大衛生部提出的9%風險門檻標準,可以大致轉化為95%左右的模型準確度要求(一般用召回率或精確度來衡量)。 AI演算法能夠查看大量資料並運行多輪訓練週期來提高自身準確度。然而,單靠技術改進還不足以為臨床應用做好準備,這些模型還需要人的引導與支持。

為了解決臨床試驗數據的主觀性並改善產出結果,分析解決方案在設計上要求與人類協同工作——這就是所謂增強智能。即將人類視為人機迴圈中的一部分,他們不僅負責資料標記和模型訓練,同時在解決方案生效後定期提供回饋。透過這種方式,模型的準確度和產出性能都將有所提升。

以協同方式解決問題

我們假設某項研究共涉及1000名患者,其中980名來自美國本土,其餘20人來自南美洲。那麼,是否需要對這20位患者的資料進行編輯(塗黑)或匿名化處理?是否有必要在同一國家或洲內選擇病患樣本?攻擊者可能會以哪些方式把這些匿名化資訊同年齡、郵遞區號等資料結合起來,最終還原病患身分?

很遺憾,這些問題並沒有標準答案。為了更清楚地解釋臨床提交指南,製藥商、臨床研究組織(CRO)、技術解決方案供應商和學術界的研究人員需要聯合起來、協同處理。

AI驅動的匿名化方法

有了以上幾條基本思路,接下來就是把它們拼湊成完整的解決方案流程。而整個匿名化方案中的各項技術,應當基於我們已經在工作中使用的實際方法。

臨床研究報告中包含各種結構化資料(數字與身分實體,例如人口統計資訊和地址條目),以及我們之前討論過的各種非結構化資料元素。必須妥善處理,才能防止惡意駭客將這些內容還原為敏感的命名實體。結構化資料相對容易處理,但AI演算法還需要攻克非結構化資料這道難關。

因此,首先使用光學字元辨識(OCR)或電腦視覺等技術,將非結構化資料(通常為掃描影像或PDF等格式)轉換為可讀形式。之後,將AI演算法應用於文件以檢測個人識別資訊。為了提升演算法效能,使用者可以分享對樣本結果的回饋,幫助系統了解該如何處理這些置信度較低的分析內容。

隱私權保護:AI實現醫療保健臨床資料匿名化

AI驅動的匿名化方法

在匿名化完成之後,也須評估對應的身份還原風險。這項工作通常需要參考人群背景,再結合其他類似試驗的數據來共同完成。風險評估會透過一組元素著重識別三大風險場景—檢察官、記者和行銷人員。這三群群體會從自身需求出發,嘗試將病患資訊還原。

在風險等級達到規定建議的9%之前,匿名化流程會持續引入更多業務規則和演算法改進,嘗試以重複循環的方式增強效能。再透過與其他技術應用的整合並建立機器學習營運(ML Ops)流程,整個匿名化方案就可以被納入實際工作流程當中。

比演算法更艱難的挑戰—資料品質

對製藥公司來說,這樣的匿名化解決方案能夠將提交週期縮短達97%。更重要的是,這種半自動化工作流程既提高了效率,同時也保證有人類參與其中。但是,建構AI驅動型匿名化解決方案面臨的最大挑戰又是什麼?

其實與大多數資料科學實踐一樣,這項工作的最大阻礙並不是用於識別命名實體的AI演算法,而是如何將研究報告轉換為可供AI處理的高品質資料。對於格式不同、樣式和結構各異的文檔,對應的內容攝取管道經常會無所適從。

因此,AI匿名化解決方案需要不斷微調以適應新的文件編碼格式,或準確地偵測出圖片/表格掃描件中的起始和結束位置。很明顯,這方面工作才是AI匿名化當中最耗費時間和精力的領域。

臨床研究的匿名化新挑戰

隨著科技的快速進步,臨床研究的匿名化難度會不會持續降低、更有效率?雖然AI驅動型解決方案確實令人眼前一亮,但後續也將有新的挑戰需要關注。

首先,透過社群媒體、裝置使用情況和線上追蹤等方式收集到的消費者數據,正大幅提升身分還原的風險。攻擊者可以將這些公開資訊同臨床研究數據結合,準確地識別出患者的身份。更令人擔憂的是,惡意駭客在AI成果的運用上非常積極,甚至有可能搶在製藥公司的行動之前。

最後,法規也持續演變,著力適應特定國家的實踐態勢。也許很快就會有國家公佈臨床提交匿名化的具體法規,這必將增加企業維持合規的複雜性和成本負擔。但所謂前途是光明的、道路是曲折的,AI技術的發展成熟至少為整個產業帶來了攻克難題的希望曙光。

以上是隱私權保護:AI實現醫療保健臨床資料匿名化的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除