作為一家大型臨床試驗服務提供者,WCG對許多藥物和醫療設備的市場路徑具有相當大的影響。但作為30多家前獨立的公司的集合體,很難獲得支持這些服務的一致數據。這就是Tamr的數據掌握解決方案提供幫助的地方。
作為臨床服務組織,WCG代表製藥公司和設備製造商處理臨床試驗的所有方面,從人力資源和IT到患者參與和道德審查,為默克和羅氏等製藥巨頭以及數以千計的中小型製藥新創公司和研究集團提供關鍵服務,這些公司尋求獲得監管機構對新藥和設備的批准。
該公司唯一沒有提供的服務就是進行實際試驗。 「我們不這麼做。」該公司的技術長兼數據長阿特‧莫拉萊斯(Art Morales)說。
在過去十年中,WCG透過收購35家公司,在臨床試驗產業建立了有利可圖的利基市場。每一家公司——其中一些已經有50多年的歷史——都專門處理臨床試驗過程的某些方面。這些公司開發了他們自己的客製化軟體應用程式來自動化他們的各種業務流程,提供了非常有價值的智慧財產權來源。
從每個獨立業務的角度來看,擁有不同的系統很有意義,但這對WCG構成了挑戰,WCG希望對所有子公司的營運保持一致的看法。
該公司最初試圖以人工解決資料不一致的問題。一個大約5到10人的團隊工作了兩年,根除了35家子公司使用的不同系統中存在的拼字錯誤、重複條目和其他資料錯誤。經過清理的標準化資料儲存在運行在雲端的WCG資料倉儲中,在那裡可以使用各種強大的分析引擎對資料進行分析。
「我們遇到的一個大問題是,你如何確定一個『節點』在不同的組織中是同一個『節點』?」莫拉萊斯解釋。 「在某些系統中,可能有地址,也可能沒有地址,也可能地址拼字不正確。有些資料可能只是缺失了,真的有很多不確定性。」
#由於這種不確定性和需要逐一決定,手工掌握數據的過程是乏味和耗時的。該公司花費了數百萬美元來掌握數據,但數據仍有不一致。
莫拉萊斯意識到應該有更好的辦法。他從Tamr那裡聽說了一個資料掌握工具,它使用機器學習來自動識別大型資料集中的已知實體。
基於機器學習的資料掌握
Tamr是一個資料品質工具,誕生於八年前,源自麻省理工學院著名電腦科學家Mike Stonebraker進行的學術研究。
據曾長期擔任Qlik高管、現為Tamr首席產品官的安東尼·戴頓(Anthony Deighton)稱,Stonebraker認為,機器學習對於解決長期存在的數據質量問題是必要的,這些問題在大數據規模下會加劇。
多年來,解決這個難題的規定解決方案一直是主資料管理(MDM)專案。不再依賴每個單獨的系統來確保所有的事情都是正確的,單獨的資料系統將擁有指向已知的資料副本的指標——可以稱之為「黃金唱片」。
金唱片的方法可以解決問題,至少他們是這麼認為的。然而,一旦遇到現實,再周密的計畫也有化為塵土的風險。這正是傳統MDM所發生的情況。
依靠人類來清理和管理資料是徒勞無功的。這是行不通的。
Stonebraker對這個問題的深刻見解是使用機器學習來對資料進行分類,就像谷歌在早期互聯網上使用機器學習來自動對網站進行分類一樣,這打敗了雅虎(Yahoo)手動管理網路的努力。
透過訓練機器來辨識業務系統中的實體,Tamr找到了一種自動建立黃金唱片的方法。團隊得出的一個關鍵結論是,當人們被要求用有限的一組選項來確認一致性時,要比同時使用幾十個或數百個選項做得好得多。
臨床上黃金唱片
WCG的Tamr試驗於2021年5月開始。經過一段時間的訓練,Tamr軟體觀察並學習員工如何處理資料差異。
WCG的一組員工與Tamr一起檢查和清理資料倉儲中的所有資料來源。該軟體識別了“集群”,即兩個或兩個以上的術語,它們在不同的應用程式中表示相同的東西,並作為黃金記錄加載在WCG的雲端資料倉儲中。
在將資料載入到資料倉儲之前,每個資料來源都要透過Tamr運行。資料來源的大小從大約50,000筆記錄到超過100萬筆記錄不等,每個實體可能有200列左右。問題不在於數量,而在於複雜性。除了將數據掌握流程加快約4倍之外,Tamr工具還產生了更標準化的數據,這意味著業務營運的清晰度更高。
「當你清理資料時,現在你可以使用更乾淨的資料來獲得更好的營運洞察力。」莫拉萊斯說。 「我們可以透過Salesforce和我們的應用程式進行匹配,以知道這些是正確的東西。以前,如果資料沒有被清洗乾淨,你會匹配50%。現在我們可以匹配80%。因此,使用我們正在做的事情有非常明顯的操作好處。」
Tamr不能成功地將所有實體匹配到集群中,仍然有一些邊緣情況需要人類的專業知識。在這些情況下,軟體會讓操作員知道它對配對的信心很低。但根據莫拉萊斯的說法,Tamr非常擅長找到明顯的匹配。他說,從第一天起,準確率約為95%。
「你必須接受任何資料掌握項目都會出現不匹配。會出現第一類和第二類錯誤,」他說。 「如果你能從....追蹤這些錯誤的來源就很好了。因為人類也會犯下同樣的錯誤。」
此外,Tamr還有助於WCG更好地理解其數據。
莫拉萊斯說,該公司的手動數據掌握方法總共花費了數百萬美元,而Tamr的費用不到100萬美元。數據品質的改善更難量化,但可以說是更重要的。
以上是機器學習如何為臨床試驗業務節省數百萬美元的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver Mac版
視覺化網頁開發工具