Rumah  >  Artikel  >  Peranti teknologi  >  Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

WBOY
WBOYasal
2024-05-30 10:13:191183semak imbas

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

Edit |. Daun kubis

Banyak tugas klinikal memerlukan pemahaman data profesional, seperti imej perubatan, genomik, dsb. Maklumat pengetahuan profesional jenis ini biasanya tidak wujud dalam latihan model besar pelbagai mod am...

Dalam penerangan kertas sebelumnya, Med-Gemini mengatasi pelaksanaan model siri GPT-4 pada pelbagai tugas pengimejan perubatan SOTA!

Di sini, Google DeepMind telah menulis kertas kedua tentang Med-Gemini.

Berdasarkan model berbilang modal Gemini, pasukan itu membangunkan berbilang model untuk siri Med-Gemini. Model ini mewarisi fungsi teras Gemini dan dioptimumkan untuk kegunaan perubatan dengan penalaan halus radiologi 2D dan 3D, histopatologi, oftalmologi, dermatologi dan data genomik.

1. Med-Gemini-2D: mampu memproses imej radiologi, dermatologi, dan oftalmologi
2: mampu memproses imej CT
3 Memproses "imej" genom.

Kajian itu, bertajuk "Memajukan Keupayaan Perubatan Multimodal Gemini", diterbitkan pada platform pracetak arXiv pada 6 Mei 2024.

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

Sumber data perubatan termasuk data perubatan daripada sumber yang berbeza seperti biobank, rekod kesihatan elektronik, pengimejan perubatan, peranti boleh pakai, biosensor dan penjujukan genom. Data ini memacu pembangunan penyelesaian AI multimodal untuk menangkap kerumitan kesihatan dan penyakit penduduk dengan lebih baik.

AI dalam bidang perubatan telah tertumpu terutamanya pada tugas-tugas sempit dengan jenis input dan output tunggal, tetapi kemajuan terkini dalam AI generatif menunjukkan janji dalam menyelesaikan pelbagai modal, cabaran berbilang tugas dalam tetapan perubatan.

AI generatif pelbagai mod, yang diwakili oleh model berkuasa seperti Gemini, mempunyai potensi besar untuk merevolusikan penjagaan kesihatan. Walaupun perubatan ialah sumber data untuk lelaran pantas model baharu ini, model tujuan am sering berprestasi lemah apabila digunakan dalam domain perubatan disebabkan datanya yang sangat khusus.

Berdasarkan fungsi teras Gemini, DeepMind telah melancarkan tiga model baharu siri Med-Gemini, Med-Gemini-2D, Med-Gemini-3D dan Med-Gemini-Polygenic.

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar
Ilustrasi: Gambaran Keseluruhan Med-Gemini. (Sumber: Kertas)

Lebih 7 juta sampel data daripada 3.7 juta imej dan kes perubatan digunakan untuk melatih model tersebut. Pelbagai set data jawapan soalan visual dan kapsyen imej digunakan, termasuk beberapa set data peribadi daripada hospital.

Untuk memproses data 3D (CT), pengekod video Gemini digunakan, di mana dimensi masa dianggap sebagai dimensi kedalaman. Untuk memproses data genomik, skor risiko untuk pelbagai sifat telah dikodkan sebagai piksel RGB dalam imej.

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

Ilustrasi: Contoh meramalkan penyakit arteri koronari menggunakan imej PRS individu dan maklumat demografi. (Sumber: Kertas)

Med-Gemini-2D

Med-Gemini-2D menetapkan standard baharu untuk penjanaan laporan X-ray dada (CXR) berasaskan AI berdasarkan penilaian pakar, mengatasi dua data bebas sebelumnya Yang terbaik keputusan set, dengan kelebihan mutlak 1% dan 12%, yang mana laporan kes biasa AI adalah 57% dan 96%, dan laporan kes tidak normal ialah 43% dan 65%. setanding" ” atau pun “lebih baik”.

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

Grafik: Prestasi Med-Gemini-2D pada tugas pengelasan X-ray dada. (Sumber: Kertas)

Med-Gemini-2D mengatasi model Gemini 1.0 Ultra yang lebih besar secara umum dalam tugas pengelasan sinar-X dada teragih (dilihat pada contoh daripada set data yang sama semasa latihan). Untuk tugas di luar pengedaran, prestasi berbeza-beza.

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

Ilustrasi: Prestasi pengelasan imej histopatologi Med-Gemini-2D. (Sumber: kertas)

Mengenai tugas klasifikasi histopatologi, Med-Gemini kebanyakannya mengatasi Gemini Ultra, tetapi gagal mengatasi model asas khusus patologi.

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

Grafik: Prestasi pada tugas pengelasan PAD-UFES-20. (Sumber: kertas)

Arah aliran yang sama diperhatikan untuk klasifikasi lesi kulit (model khusus domain > Med-Gemini > Gemini Ultra), walaupun Med-Gemini sangat hampir dengan model khusus domain.

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

Grafik: Perbandingan prestasi Med-Gemini-2D, Gemini Ultra dan model diselia yang dilatih menggunakan data tambahan untuk klasifikasi imej fundus. (Sumber: kertas)

Untuk klasifikasi oftalmologi, situasi yang sama dilihat semula. Ambil perhatian bahawa model khusus domain dilatih pada ~200x lebih data, jadi Med-Gemini menunjukkan prestasi yang agak baik berbanding.

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

Ilustrasi: Butiran penilaian tugas VOA. (Sumber: kertas)

Pasukan juga menilai model Med-Gemini-2D dalam jawapan soalan visual perubatan (VQA). Di sini, model mereka sangat berkuasa pada banyak tugas VQA, selalunya mengalahkan model SOTA. Med-Gemini-2D berprestasi baik pada klasifikasi CXR dan radiologi VQA, melebihi SOTA atau garis dasar pada 17 daripada 20 tugasan.

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

Ilustrasi: Penilaian memperincikan penjanaan laporan X-ray dada. (Sumber: Kertas)

Di sebalik tafsiran ringkas yang ringkas bagi imej perubatan, penulis juga menilai prestasi Med-Gemini-2D pada penjanaan laporan radiologi sinar-X dada dan memerhatikan bahawa ia mencapai hasil berdasarkan penilaian pakar radiologi SOTA!

Med-Gemini-3D

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

Ilustrasi: Keputusan penilaian manual yang dihasilkan oleh laporan volum CT kepala. (Sumber: kertas)

Med-Gemini-3D bukan sahaja untuk imej 2D tetapi juga untuk penjanaan laporan CT hujung ke hujung automatik. Menurut penilaian pakar, 53% daripada laporan AI ini dianggap boleh diterima secara klinikal, dan walaupun penyelidikan tambahan diperlukan untuk memenuhi kualiti laporan daripada pakar radiologi, ini adalah model generatif pertama yang mampu melaksanakan tugas ini.

Med-Gemini-Polygenic

Akhir sekali, ramalan Med-Gemini-Polygenic tentang hasil kesihatan telah dinilai berdasarkan skor risiko poligenik untuk pelbagai sifat. Model ini secara amnya mengatasi garis dasar sedia ada.

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

Ilustrasi: Ramalan hasil kesihatan menggunakan Med-Gemini-Polygenic berbanding dua garis dasar hasil pengedaran salah dan luar pengedaran. (Sumber: Kertas)

Berikut ialah beberapa contoh perbualan pelbagai mod yang disokong oleh Med-Gemini!

Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar

Ilustrasi: Contoh dialog imej perubatan 2D melalui soal jawab terbuka. (Sumber: kertas)

Dalam klasifikasi imej histopatologi, oftalmologi dan dermatologi, Med-Gemini-2D melepasi garis dasar dalam 18 daripada 20 tugasan dan mendekati prestasi model khusus tugas.

Kesimpulan

Secara keseluruhannya, kerja ini telah mencapai kemajuan yang berguna pada model kecerdasan buatan perubatan pelbagai mod am, tetapi jelas masih terdapat banyak ruang untuk penambahbaikan. Banyak model khusus domain mengatasi Med-Gemini, tetapi Med-Gemini mampu menunjukkan prestasi yang baik dengan kurang data dan kaedah yang lebih umum. Menariknya, Med-Gemini nampaknya berprestasi lebih baik pada tugasan yang lebih bergantung pada pemahaman bahasa, seperti VQA atau penjanaan laporan radiologi.

Penyelidik membayangkan masa depan di mana semua fungsi individu ini disepadukan ke dalam sistem yang komprehensif untuk melaksanakan pelbagai tugas klinikal pelbagai disiplin yang kompleks. AI bekerja bersama manusia untuk memaksimumkan keberkesanan klinikal dan meningkatkan hasil pesakit.

Pautan kertas: https://arxiv.org/abs/2405.03162

Kandungan berkaitan: https://twitter.com/iScienceLuvr/status/1789216212704018469

Atas ialah kandungan terperinci Multimodal AI ialah masa depan perubatan Google melancarkan tiga model baharu, dan Med-Gemini mengalu-alukan peningkatan besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn