6 月 14 日消息,日前微軟研究人員展示了 LLaVA-Med 模型,該模型主要用於生物醫學方面的研究,可根據 CT、X 光圖片等推測出患者的病理狀況。
據悉,微軟研究人員與一群醫院合作,獲得了使用生物醫學影像文字對應大型資料集來訓練多模態 AI 模型。此資料集包括胸部 X 光、MRI、組織學、病理學和 CT 影像等,覆蓋範圍相對全面。
▲ 圖源微軟
微軟使用GPT-4,基於Vision Transformer 和Vicuna 語言模型,在八個英偉達A100 GPU 上對LLaVA-Med進行訓練,其中包含“每個圖像的所有預分析信息”,用於生成有關圖像的問答,以滿足“可自然語言回答有關生物醫學圖像問題”的助手願景。
在學習過程中,模型主要圍繞著「描述此類影像的內容」以及「闡述生物醫學概念(IT之家註:從圖片中判斷是什麼樣的)」而展開。 據微軟稱,該模型最終具有「出色的多模式對話能力」、「在用於回答視覺問題的三個標準生物醫學數據集上,LLaVA-Med 在部分指標上領先於業界其他先進模型」。
▲ 圖源微軟
研究團隊表示:「雖然我們認為LLaVA-Med 模型代表了朝著建構有用的生物醫學視覺助理邁出的重要一步,但當下LLaVA-Med 模型還存在一定的不足之處,即大模型常見的虛假舉例和準確度不佳的問題,研究團隊未來將專注於提高模型的品質和可靠性,以令模型有朝一日可以在商業生物醫學中應用。」
IT之家注意到,目前該模型已經開源,大家可以在GitHub 找到相關資訊。
以上是微軟推出 LLaVA-Med AI 模型,可對醫學病理案例進行分析的詳細內容。更多資訊請關注PHP中文網其他相關文章!