首頁 >科技週邊 >人工智慧 >178頁,128個案例,GPT-4V醫療領域全面測評,離臨床應用與實際決策尚有距離

178頁,128個案例,GPT-4V醫療領域全面測評,離臨床應用與實際決策尚有距離

WBOY
WBOY原創
2024-07-18 06:20:101155瀏覽

上海交大&上海AI Lab發布178頁GPT-4V醫療案例測評,首次全面揭秘GPT-4V醫療領域視覺表現。在大型基礎模式的推動下,人工智慧的發展近來取得了巨大進步,尤其是OpenAI 的GPT-4,其在問答、知識方面展現出的強大能力點亮了AI 領域的尤里卡時刻,引起了公眾的普遍關注。 GPT-4V (ision) 是 OpenAI 最新的多模態基礎模型。相較於 GPT-4,它增加了影像與語音的輸入能力。該研究則旨在透過案例分析評估GPT-4V (ision) 在多模態醫療診斷領域的性能,總共展現並分析共計了128(92 個放射學評估案例,20 個病理學評估案例以及16 個定位案例)個案例共277 張圖像的GPT-4V 問答實例(註:本文不會涉及案例展示,請參閱原​​始論文查看具體的案例展示與分析)。

178頁,128個案例,GPT-4V醫療領域全面測評,離臨床應用與實際決策尚有距離

GPT-4V 醫學影像評估

ArXiv 連結:https://arxiv.org/abs/2310.09909

百度雲下載位址:https://pan.baidu.com/s/11xV8M8Mwm

Google Drive 下載位址:https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharing

評估能力:

    影像模態和CT位置識別:X 影像共振成像、超音波和病理影像,以及定位成像位置。
  1. 解剖結構定位:精確定位影像中的特定解剖結構。
  2. 異常檢測和定位:檢測和定位腫瘤、骨折或感染等異常。
  3. 多影像綜合診斷:結合不同影像模態或視圖的資訊進行診斷。
  4. 醫療報告撰寫:描述異常情況和相關的正常結果。
  5. 病患病史整合:在影像解讀中考慮病患的基本資訊和病史。
  6. 多輪互動中的一致性和記憶性:保持對資料認知的連續性。
評估系統:

    中樞神經系統
  • 頭頸部
  • 心臟
  • 胸部
  • 🜎
  • 乳房科
  • 肌肉骨骼科
  • 脊椎科
  • 血管科
  • 腫瘤科
  • 創傷科
  • 兒科
  • 影像模態:
  • X 光振造影
  • 影像模態:
  • )CT電子斷層掃描(PET)
  • 數位減影血管攝影(DSA)

乳房X 光照相術

    超音波檢查
  • 病理學檢查
  • 測試案例挑選出來自原問
  • 病理學檢查
  • Radiopaedia,影像直接從網頁下載,定位案例來自於多個醫學公開分割資料集,病理影像則來自於PathologyOutlines 。在挑選案例時作者們全面的考慮瞭如下方面:
  • 公佈時間:考慮到GPT-4V 的訓練數據極有可能異常龐大,為了避免所選到的測試案例出現在訓練集中,作者只選用了2023 年發布的最新案例。
  • 標註可信度:醫療診斷本身俱有爭議和模糊性,作者根據 Radiopaedia 提供的案例完成度,盡量選用完成度大於 90% 的案例來保證標註或診斷的可信程度。
  • 影像模態多樣性:在選取案例時,作者盡可能地展示 GPT-4V 對於多種成像模態的反應情況。 178頁,128個案例,GPT-4V醫療領域全面測評,離臨床應用與實際決策尚有距離

  • 在影像處理時作者也做瞭如下規範化以確保輸入影像的品質:
  1. 多圖選擇:考慮到GPT-4V 支援的最大影像輸入上限為4,但部分案例會有超過4 張的相關影像,首先作者在選取案例時會盡可能避免這種情況,其次在不可避免當地遇到這種案例時,作者會根據Radiopaedia 提供的案例註釋挑選最相關的圖像。
  2. 截面選擇:大量的放射影像資料為 3D(連續多幀二維影像)形式,無法直接輸入 GPT-4V,必須挑選一個最有代表性的截面代替完整的 3D 影像輸入 GPT-4V。根據 Radiopaedia 的案例上傳規範,放射醫生在上傳 3D 影像時被要求選擇一個最相關的剖面。作者們利用了這一點,選用了 Radiopaedia 推薦的軸截面替代 3D 資料進行輸入。
  3. 影像標準化:醫療影像的標準化設計窗寬窗位的選擇,不同的視窗會突出不同的組織,作者們使用的 Radiopaedio 案例上傳時放射專家所選擇的窗寬窗位輸入影像。對於分割資料集而言,原論文則採用了 [-300,300] 的視窗,並作 0-1 的案例層級的歸一化。

原論文的測試都使用了 GPT-4V 的網頁版,第一輪問答使用者會輸入影像,然後展開多輪的問答。為了避免上下文的互相影響,對於每次新的案例,都會新建一個問答窗口進行問答。

178頁,128個案例,GPT-4V醫療領域全面測評,離臨床應用與實際決策尚有距離

GPT-4V 問答案例,圖中紅色代表錯誤,黃色代表不確定,綠色代表正確,Reference 中的顏色則代表對應判斷的依據,未標記顏色的句子需要讀者自行判斷正確性,更多案例以及案例分析請參考原論文
在病理評估中,所有影像都會進行兩輪對話。
  1. 第一輪詢問能否僅根據輸入影像產生報告。
  2. 這一輪的目的是評估 GPT-4V 能否在不提供任何相關醫療提示的情況下識別影像模態和組織來源。
  3. 在第二輪中,使用者會提供正確的組織來源,並詢問 GPT-4V 是否能根據病理影像及其組織來源資訊做出診斷,希望 GPT-4V 能修改報告並提供明確的診斷結果。

    178頁,128個案例,GPT-4V醫療領域全面測評,離臨床應用與實際決策尚有距離

    病理影像案例展示

定位評估

  1. 目標辨識: 確定影像中是否有目標。
  2. 邊界框產生: 為目標產生邊界框座標,其中左上角為 (0, 0),右下角為 (w, h)。
  3. IOU 計算: 計算預測邊界框與真實邊界框之間的交並比 (IOU)。
  4. 上限性能: 選擇具有最高 IOU 分數的預測邊界框。
  5. 平均效能: 計算平均邊界框的 IOU 分數。

    178頁,128個案例,GPT-4V醫療領域全面測評,離臨床應用與實際決策尚有距離

    評測中的限制
    當然原作者也提到了一些測評中的不足與限制:
  6. 只能進行定性而非定量的評估
    鑑於GPT-4V 只提供線上網頁介面,只能手動上傳測試案例,導致原評估報告在可擴展性方面受到限制,因此只能提供定性評估。
  7. 樣本偏差
    所選樣本均來自線上網站,可能無法反映日常門診中的資料分佈情況。尤其是大多數評估病例都是異常病例,這可能會對評估造成潛在偏差。
  8. 註釋或參考答案並不完整
    從 Radiopaedia 或 PathologyOutlines 網站上獲得的參考描述大多沒有結構,也沒有標準化的放射學 / 病理學報告格式。特別是,這些報告中的大部分主要側重於描述異常情況,而不是對病例進行全面描述,並不能直接作為完美的回應簡單對比。
  9. 只有二維切片輸入
    在實際臨床環境中,包括 CT、MRI 掃描在內的放射影像通常採用 3D DICOM 格式。然而,GPT-4V 最多只能支援四張二維影像的輸入,所以原文在評估時只能輸入二維關鍵切片或小片段(用於病理學)。
    總之,儘管評估可能並不徹底詳盡,但原作者們相信,這一分析仍舊可以為研究人員和醫學專業人員提供了寶貴的見解,它揭示了多模態基礎模型的當前能力,並可能激勵未來建立醫學基礎模型的工作。
    重要觀察結果
    原測評報告根據測評案例,概括了多個​​觀察到的GPT-4V 的表現特點:
    放射案例部分
    作者們根據92 個放射學評估案例和20 個定位案例得出如下觀察結果:
  10. GPT-4V 可以辨識出醫療影像的模態以及成像位置
    對於大多數影像內容的模態辨識、成像部位判定以及影像平面類別判定等任務,GPT4-V 都表現出了良好的處理能力。例如,作者指出GPT-4V 能很容易區分核磁共振、CT、X 光等各種模態;判斷影像所描述的人體具體部位;判斷出核磁共振影像的軸位、失狀位和冠狀位等。
  11. GPT-4V 幾乎無法做出精確的診斷
    作者們發現:一方面,OpenAI 似乎設定了安全機制,嚴格限制了GPT-4V 做出直接診斷;另一方面,除了針對非常明顯的診斷案例, GPT-4V 的分析能力較差,僅限於列舉可能存在的一系列疾病,而無法給予較精確的診斷。
  12. GPT-4V 可以產生出結構化的報告,但是內容大部分並不正確
    GPT-4V 在絕大多數情況下都能產生較為標準的報告,但作者們認為,相比於整合程度更高且內容更靈活的手寫報告,在針對多模態或多幀影像時,它更傾向於逐圖描述且缺乏綜合能力。因此內容大部分參考價值較小且缺乏準確性。
  13. GPT-4V 可以辨識出醫學圖像中的標記以及文本註釋,但並不能理解其出現在圖像中的意義
    GPT-4V 展現出較強的文本識別、標記識別等能力,並且會嘗試利用這些標記進行分析。但作者認為,其限制在於:其一,GPT-4V 總是會過度利用文本和標記且圖像本身成為次要參考對象;其二,它穩健性較低,常常會誤解圖像中的醫學註釋和引導。
  14. GPT-4V 可以辨識出醫療植入器械以及它們在圖像中的位置
    在大多數案例中,GPT4-V 都能正確識別到植入人體的醫療設備,並較為準確地定位它們的位置。而作者發現,甚至在一些較為困難的案例中,可能出現診斷錯誤,但判斷醫療設備識別正確的情況。
  15. GPT-4V 面對多圖輸入時會遇到分析障礙
    作者們發現,在面對同一模態的不同視角下的圖像時,GPT-4V 儘管會展現出相比於進輸入單張圖的更好的分析能力,但仍然傾向於分別對每張視圖進行單獨的分析;而在面對不同模態的圖像混合輸入時,GPT-4V 更難得出綜合了不同模態資訊的合理分析。
  16. GPT-4V 的預測極易受到患者疾病史的引導
    作者們發現是否提供患者疾病史會對 GPT-4V 的回答產生較大影響。在提供疾病史的情況下,GPT-4V 常常會將其作為關鍵點,對圖中的潛在異常做出推論;而在不提供疾病史的情況下,GPT-4V 則會更傾向於將影像作為正常案例進行分析。
  17. GPT-4V 並不能在醫學影像中定位到解剖結構和異常
    作者們認為GPT-4V 定位效果較差主要表現為:其一,GPT-4V 在定位過程中總是會得到遠離真實邊界的預測框;其二,它在對同一幅圖的多輪重複預測中表現出顯著的隨機性;其三,GPT-4V 顯示出了明顯的偏置性,例如:腦部MRI 影像中小腦一定位於底部。
  18. GPT-4V 可以根據使用者的多輪交互,改變它的既有回答。
    GPT-4V 可以在一系列的互動中修改其回應,使其正確。例如,在文中所示的例子中,作者们输入了子宫内膜异位症的 MRI 图像。 GPT-4V 最初错误地将盆腔 MRI 分类为膝关节 MRI,从而得到了一个不正确的输出。但用户通过与 GPT-4V 的多轮互动对其进行纠正,最终做出了准确的诊断。
  19. GPT-4V 幻觉问题严重,尤其倾向将患者叙述为正常即使异常信号极为显着。
    GPT-4V 总是生成出结构上看上去非常完整详实的报告,但其中的内容却并不正确,很多时候即使图像异常区域明显它仍旧会认为患者正常。
  20. GPT-4V 在医学问答上不够稳定
    GPT-4V 在常见图像和罕见图像上的表现差异巨大,在不同的身体系统方面也展现出明显的性能差别。另外,对同一医学图像的分析可能会因更改prompt 而产生不一致的结果,例如,如,GPT-4V 在“ What is the diagnosis for this brain CT?” 的prompt 下最初判断给定的图像为异常,但后来它生成了一个认为同一图像为正常的报告。这种不一致性强调了 GPT-4V 在临床诊断中的性能可能是不稳定和不可靠的。
  21. GPT-4V 对医疗领域做了严格的安全限制
    作者们发现 GPT-4V 已经在医学领域的问答中建立了防止潜在误用的安全防护措施,确保用户能够安全使用。例如,当 GPT-4V 被要求做出诊断时,"Please provide the diagnosis for this chest X-ray.",它可能会拒绝给出答案,或强调 “我不是专业医学建议的替代品”。在多数情况下,GPT-4V 会倾向于使用包含 “appears to be” 或 “could be” 之类的短语来表示不确定性。
    病理案例部分
    此外,作者们为了探索GPT-4V 在病理图像的报告生成和医学诊断方面的能力,对来自不同组织的20 种恶性肿瘤病理图像开展了图像块级别的测试,并得出以下结论:
  22. GPT-4V 能够进行准确的模态识别
    在所有测试案例中,GPT-4V 都可以正确地识别所有病理图像(H&E 染色的组织病理图像)的模态。
  23. GPT-4V 能够生成结构化报告
    给定一个没有任何医学提示的病理图像,GPT-4V 可以生成一个结构化且详细的报告来描述图像特征。在20 个案例中,有7 个案例能够使用如“组织结构”、“细胞特征”、“基质”、“腺体结构”、“细胞核” 等术语明确地列出了其观察结果,甚至可以正确地

以上是178頁,128個案例,GPT-4V醫療領域全面測評,離臨床應用與實際決策尚有距離的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn