首頁 >科技週邊 >人工智慧 >機器學習如何為臨床試驗業務節省數百萬美元

機器學習如何為臨床試驗業務節省數百萬美元

WBOY
WBOY轉載
2023-04-12 15:19:051699瀏覽

作為一家大型臨床試驗服務提供者,WCG對許多藥物和醫療設備的市場路徑具有相當大的影響。但作為30多家前獨立的公司的集合體,很難獲得支持這些服務的一致數據。這就是Tamr的數據掌握解決方案提供幫助的地方。

機器學習如何為臨床試驗業務節省數百萬美元

作為臨床服務組織,WCG代表製藥公司和設備製造商處理臨床試驗的所有方面,從人力資源和IT到患者參與和道德審查,為默克和羅氏等製藥巨頭以及數以千計的中小型製藥新創公司和研究集團提供關鍵服務,這些公司尋求獲得監管機構對新藥和設備的批准。

該公司唯一沒有提供的服務就是進行實際試驗。 「我們不這麼做。」該公司的技術長兼數據長阿特‧莫拉萊斯(Art Morales)說。

在過去十年中,WCG透過收購35家公司,在臨床試驗產業建立了有利可圖的利基市場。每一家公司——其中一些已經有50多年的歷史——都專門處理臨床試驗過程的某些方面。這些公司開發了他們自己的客製化軟體應用程式來自動化他們的各種業務流程,提供了非常有價值的智慧財產權來源。

從每個獨立業務的角度來看,擁有不同的系統很有意義,但這對WCG構成了挑戰,WCG希望對所有子公司的營運保持一致的看法。

該公司最初試圖以人工解決資料不一致的問題。一個大約5到10人的團隊工作了兩年,根除了35家子公司使用的不同系統中存在的拼字錯誤、重複條目和其他資料錯誤。經過清理的標準化資料儲存在運行在雲端的WCG資料倉儲中,在那裡可以使用各種強大的分析引擎對資料進行分析。

「我們遇到的一個大問題是,你如何確定一個『節點』在不同的組織中是同一個『節點』?」莫拉萊斯解釋。 「在某些系統中,可能有地址,也可能沒有地址,也可能地址拼字不正確。有些資料可能只是缺失了,真的有很多不確定性。」

#由於這種不確定性和需要逐一決定,手工掌握數據的過程是乏味和耗時的。該公司花費了數百萬美元來掌握數據,但數據仍有不一致。

莫拉萊斯意識到應該有更好的辦法。他從Tamr那裡聽說了一個資料掌握工具,它使用機器學習來自動識別大型資料集中的已知實體。

基於機器學習的資料掌握

Tamr是一個資料品質工具,誕生於八年前,源自麻省理工學院著名電腦科學家Mike Stonebraker進行的學術研究。

據曾長期擔任Qlik高管、現為Tamr首席產品官的安東尼·戴頓(Anthony Deighton)稱,Stonebraker認為,機器學習對於解決長期存在的數據質量問題是必要的,這些問題在大數據規模下會加劇。

多年來,解決這個難題的規定解決方案一直是主資料管理(MDM)專案。不再依賴每個單獨的系統來確保所有的事情都是正確的,單獨的資料系統將擁有指向已知的資料副本的指標——可以稱之為「黃金唱片」。

金唱片的方法可以解決問題,至少他們是這麼認為的。然而,一旦遇到現實,再周密的計畫也有化為塵土的風險。這正是傳統MDM所發生的情況。

依靠人類來清理和管理資料是徒勞無功的。這是行不通的。

Stonebraker對這個問題的深刻見解是使用機器學習來對資料進行分類,就像谷歌在早期互聯網上使用機器學習來自動對網站進行分類一樣,這打敗了雅虎(Yahoo)手動管理網路的努力。

透過訓練機器來辨識業務系統中的實體,Tamr找到了一種自動建立黃金唱片的方法。團隊得出的一個關鍵結論是,當人們被要求用有限的一組選項來確認一致性時,要比同時使用幾十個或數百個選項做得好得多。

臨床上黃金唱片

WCG的Tamr試驗於2021年5月開始。經過一段時間的訓練,Tamr軟體觀察並學習員工如何處理資料差異。

WCG的一組員工與Tamr一起檢查和清理資料倉儲中的所有資料來源。該軟體識別了“集群”,即兩個或兩個以上的術語,它們在不同的應用程式中表示相同的東西,並作為黃金記錄加載在WCG的雲端資料倉儲中。

在將資料載入到資料倉儲之前,每個資料來源都要透過Tamr運行。資料來源的大小從大約50,000筆記錄到超過100萬筆記錄不等,每個實體可能有200列左右。問題不在於數量,而在於複雜性。除了將數據掌握流程加快約4倍之外,Tamr工具還產生了更標準化的數據,這意味著業務營運的清晰度更高。

「當你清理資料時,現在你可以使用更乾淨的資料來獲得更好的營運洞察力。」莫拉萊斯說。 「我們可以透過Salesforce和我們的應用程式進行匹配,以知道這些是正確的東西。以前,如果資料沒有被清洗乾淨,你會匹配50%。現在我們可以匹配80%。因此,使用我們正在做的事情有非常明顯的操作好處。」

Tamr不能成功地將所有實體匹配到集群中,仍然有一些邊緣情況需要人類的專業知識。在這些情況下,軟體會讓操作員知道它對配對的信心很低。但根據莫拉萊斯的說法,Tamr非常擅長找到明顯的匹配。他說,從第一天起,準確率約為95%。

「你必須接受任何資料掌握項目都會出現不匹配。會出現第一類和第二類錯誤,」他說。 「如果你能從....追蹤這些錯誤的來源就很好了。因為人類也會犯下同樣的錯誤。」

此外,Tamr還有助於WCG更好地理解其數據。

莫拉萊斯說,該公司的手動數據掌握方法總共花費了數百萬美元,而Tamr的費用不到100萬美元。數據品質的改善更難量化,但可以說是更重要的。


以上是機器學習如何為臨床試驗業務節省數百萬美元的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除