Shanghai Jiao Tong University & Shanghai AI Lab mengeluarkan semakan kes perubatan GPT-4V 178 muka surat, mendedahkan secara komprehensif prestasi visual GPT-4V dalam bidang perubatan buat kali pertama. Didorong oleh model asas berskala besar, pembangunan kecerdasan buatan telah mencapai kemajuan yang besar baru-baru ini, terutamanya OpenAI's GPT-4 keupayaannya yang berkuasa dalam soal jawab dan pengetahuan telah menyinari detik Eureka dalam bidang AI, menyebabkan orang ramai meluas. kebimbangan. GPT-4V (ision) ialah model asas multi-modal terbaru OpenAI. Berbanding dengan GPT-4, ia menambah keupayaan input imej dan suara. Kajian ini bertujuan untuk menilai prestasi GPT-4V (ision) dalam bidang diagnosis perubatan pelbagai modal melalui analisis kes Sebanyak 128 (92 kes penilaian radiologi, 20 kes penilaian patologi dan 16 kes kedudukan) telah dipaparkan dan dianalisis. . Kes) Contoh Soal Jawab GPT-4V dengan jumlah 277 imej (Nota: Artikel ini tidak akan melibatkan paparan kes, sila rujuk kertas asal untuk paparan dan analisis kes tertentu).
Penilaian imej perubatan GPT-4V
Pautan ArXiv: https://arxiv.org/abs/2310.09909
Alamat muat turun awan Baidu: https://pan.baidu.com/s/11xV8MkUfm9wdkcJ2MkUfmF3emk?
Alamat muat turun Google Drive: https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharing
Keupayaan penilaian:
Modaliti imej dan pengecaman lokasi pengimejan Pengimejan resonans, imej ultrasound dan patologi, dan penyetempatan lokasi pengimejan. - Penyetempatan struktur anatomi: Tentukan struktur anatomi tertentu dalam imej.
- Pengesanan dan penyetempatan yang tidak normal: Kesan dan cari keabnormalan seperti tumor, patah tulang atau jangkitan.
- Diagnosis komprehensif berbilang imej: menggabungkan maklumat daripada modaliti pengimejan yang berbeza atau pandangan untuk diagnosis.
- Penulisan laporan perubatan: terangkan keadaan abnormal dan hasil normal yang berkaitan.
- Integrasi sejarah pesakit: Pertimbangkan maklumat asas pesakit dan sejarah perubatan dalam tafsiran imej.
- Ketekalan dan ingatan dalam pelbagai pusingan interaksi: Kekalkan kesinambungan kognisi data.
-
Sistem penilaian:
Sistem saraf pusat - Kepala dan leher
- Jantung
- Dada
- Darah
- Hati dan pundi hempedu
- Pundi hempedu
-
Ginekologi - Obstetrik
- Jabatan Payudara
- Muskuloskeletal Jabatan
- Jabatan Tulang Belakang
- Jabatan Vaskular
- Jabatan Onkologi
- Jabatan Trauma
- Pediatrik
-
- Modaliti imej:
X-ray Imput
X-ray penuaan (MRI)- Positif Electron Emission Tomography (PET)
- Angiografi Penolakan Digital (DSA)
- Mammografi
- Ultrasound
- Patologi
-
- Pemilihan Kes Ujian
- Mammografi
Ultrasound
Patologi
Pemilihan Kes Ujian
- dimuat turun dari kertas Radiologi yang asal dari laman web Radiologi. , kes kedudukan datang daripada pelbagai set data segmentasi awam perubatan, dan imej patologi datang daripada PathologyOutlines. Semasa memilih kes, pengarang mempertimbangkan secara menyeluruh aspek berikut:
-
- Tarikh penerbitan: Memandangkan data latihan GPT-4V berkemungkinan besar sangat besar, untuk mengelakkan kes ujian terpilih muncul dalam set latihan, pengarang hanya memilih kes terkini yang diterbitkan pada 2023.
Kredibiliti anotasi: Diagnosis perubatan itu sendiri adalah kontroversi dan samar-samar Berdasarkan tahap penyelesaian kes yang disediakan oleh Radiopaedia, penulis cuba memilih kes dengan tahap penyelesaian lebih daripada 90% untuk memastikan kredibiliti anotasi atau diagnosis.
Kepelbagaian modaliti imej: Apabila memilih kes, pengarang cuba sedaya upaya untuk menunjukkan tindak balas GPT-4V kepada pelbagai modaliti pengimejan. 🎜🎜🎜Semasa pemprosesan imej, penulis juga melakukan normalisasi berikut untuk memastikan kualiti imej input: 🎜
- Pemilihan imej berbilang: Memandangkan had input imej maksimum yang disokong oleh GPT-4V ialah 4, tetapi sesetengah kes akan mempunyai lebih daripada 4 imej yang berkaitan, pertama sekali, pengarang akan cuba mengelakkan situasi ini apabila memilih kes, dan kedua , jika tidak dapat dielakkan Apabila menghadapi kes sedemikian, penulis akan memilih imej yang paling relevan berdasarkan anotasi kes yang disediakan oleh Radiopaedia.
- Pemilihan bahagian: Sebilangan besar data imej radiologi adalah dalam bentuk 3D (imej dua dimensi berbilang bingkai berterusan) dan tidak boleh dimasukkan terus ke dalam GPT-4V Bahagian yang paling mewakili mesti dipilih untuk menggantikan 3D yang lengkap imej dan dimasukkan ke dalam GPT-4V. Menurut spesifikasi muat naik kes Radiopaedia, ahli radiologi diminta memilih bahagian yang paling relevan apabila memuat naik imej 3D. Penulis mengambil kesempatan daripada ini dan memilih bahagian paksi yang disyorkan oleh Radiopaedia untuk input dan bukannya data 3D.
- Penyeragaman imej: Reka bentuk standard bagi imej perubatan, pemilihan lebar tingkap dan paras tingkap yang berbeza akan menyerlahkan tisu yang berbeza. Untuk set data tersegmen, kertas asal menggunakan tetingkap [-300,300] dan melakukan normalisasi peringkat kes 0-1.
Ujian kertas asal semuanya menggunakan versi web GPT-4V Pada pusingan pertama Soal Jawab, pengguna akan memasukkan imej, dan kemudian memulakan beberapa pusingan Soal Jawab. Untuk mengelakkan pengaruh konteks bersama, bagi setiap kes baharu, tetingkap Soal Jawab baharu akan dibuat untuk Soal Jawab.
Kes S&J GPT-4V, merah dalam gambar mewakili ralat, kuning mewakili ketidakpastian, dan hijau mewakili betul Warna dalam Rujukan mewakili asas untuk penghakiman yang sepadan memerlukan pembaca menilai sendiri . Lebih banyak kes Sila rujuk kertas asal untuk analisis kes
Dalam penilaian patologi, semua imej akan menjalani dua pusingan dialog.
- Pusingan pertama bertanya sama ada laporan boleh dijana berdasarkan imej input sahaja.
- Tujuan pusingan ini adalah untuk menilai sama ada GPT-4V boleh mengenal pasti modaliti imej dan asal tisu tanpa memberikan sebarang petunjuk perubatan yang berkaitan.
- Pada pusingan kedua, pengguna akan memberikan sumber tisu yang betul dan bertanya kepada GPT-4V sama ada ia boleh membuat diagnosis berdasarkan imej patologi dan maklumat sumber tisunya, dengan harapan GPT-4V boleh mengubah suai laporan dan memberikan penjelasan yang jelas. hasil diagnosis. Paparan kes imej patologi
Penilaian lokasi
-
Pengiktirafan sasaran: Tentukan sama ada terdapat sasaran dalam imej.
-
Penjanaan kotak sempadan: Hasilkan koordinat kotak sempadan untuk sasaran, di mana sudut kiri atas ialah (0, 0) dan sudut kanan bawah ialah (w, h).
-
Pengiraan IOU: Kira persilangan atas nisbah kesatuan (IOU) antara kotak sempadan yang diramalkan dan kotak sempadan sebenar.
-
Prestasi dihadkan: Pilih kotak sempadan yang diramalkan dengan skor IOU tertinggi.
-
Purata Prestasi: Kira skor IOU bagi kotak sempadan purata. Had dalam penilaian
Sudah tentu, penulis asal juga menyebut beberapa kelemahan dan batasan dalam penilaian:
- Hanya penilaian kualitatif dan bukannya kuantitatif
Memandangkan GPT-4V hanya menyediakan antara muka web dalam talian, kes ujian hanya boleh dimuat naik secara manual, menyebabkan dalam Laporan penilaian asal adalah terhad dalam skalabilitinya dan oleh itu hanya boleh memberikan penilaian kualitatif.
- Contoh bias
Sampel yang dipilih semuanya daripada laman web dalam talian dan mungkin tidak menggambarkan pengedaran data di klinik pesakit luar harian. Khususnya, kebanyakan kes yang dinilai adalah outlier, yang mungkin memperkenalkan potensi bias ke dalam penilaian.
- Anotasi atau jawapan rujukan tidak lengkap
Penerangan rujukan yang diperoleh daripada laman web Radiopaedia atau PathologyOutlines kebanyakannya tidak mempunyai struktur dan tiada format pelaporan radiologi/patologi yang piawai. Khususnya, kebanyakan laporan ini tertumpu terutamanya pada menghuraikan anomali dan bukannya memberikan penerangan menyeluruh tentang kes dan tidak berfungsi sebagai perbandingan langsung kepada respons yang sempurna.
- Hanya input hirisan 2D
Dalam tetapan klinikal sebenar, imej radiologi termasuk CT, imbasan MRI biasanya dalam format DICOM 3D. Walau bagaimanapun, GPT-4V hanya boleh menyokong input sehingga empat imej 2D, jadi teks asal hanya boleh memasukkan kepingan kunci 2D atau serpihan kecil (untuk patologi) semasa penilaian.
Sebagai kesimpulan, walaupun penilaian mungkin tidak menyeluruh, penulis asal percaya bahawa analisis ini masih boleh memberikan pandangan yang berharga kepada penyelidik dan profesional perubatan Ia mendedahkan keupayaan semasa model asas pelbagai modal dan boleh memberi inspirasi kepada kerja Masa Depan untuk membina model asas. perubatan.
Pemerhatian penting
Laporan penilaian asal meringkaskan pelbagai ciri prestasi yang diperhatikan GPT-4V berdasarkan kes penilaian:
Bahagian kes radiologi
Pengarang membuat pemerhatian berikut berdasarkan 92 kes penilaian radiologi dan 20 kes kedudukan :
- GPT-4V boleh mengenal pasti modaliti dan kedudukan pengimejan imej perubatan
GPT4-V telah menunjukkan keupayaan pemprosesan yang baik untuk tugas seperti pengecaman modal, penentuan bahagian pengimejan dan penentuan kategori satah imej untuk kebanyakan kandungan imej . Sebagai contoh, penulis menegaskan bahawa GPT-4V boleh dengan mudah membezakan pelbagai modaliti seperti MRI, CT, dan .
- GPT-4V hampir mustahil untuk membuat diagnosis yang tepat
Pengarang mendapati bahawa: di satu pihak, OpenAI nampaknya telah menyediakan mekanisme keselamatan yang mengehadkan GPT-4V daripada membuat diagnosis langsung, sebaliknya; kes diagnostik yang sangat jelas, GPT-4V mempunyai keupayaan analisis yang lemah dan terhad kepada penyenaraian siri kemungkinan penyakit, tetapi tidak dapat memberikan diagnosis yang lebih tepat.
- GPT-4V boleh menjana laporan berstruktur, tetapi kebanyakan kandungan tidak betul
GPT-4V boleh menjana lebih banyak laporan standard dalam kebanyakan kes, tetapi pengarang percaya bahawa ia lebih bersepadu daripada laporan Tulisan Tangan dengan kandungan yang lebih fleksibel cenderung untuk diterangkan gambar demi gambar dan kekurangan keupayaan komprehensif apabila menyasarkan imej berbilang modal atau berbilang bingkai. Oleh itu, kebanyakan kandungan mempunyai sedikit nilai rujukan dan kurang ketepatan.
- GPT-4V boleh mengecam tanda dan anotasi teks dalam imej perubatan, tetapi ia tidak dapat memahami maksud penampilannya dalam imej
GPT-4V menunjukkan pengecaman teks yang kuat, pengecaman tanda dan keupayaan lain, dan akan cuba menggunakan Tanda ini. untuk analisis. Walau bagaimanapun, penulis percaya bahawa hadnya adalah: pertama, GPT-4V sentiasa menggunakan teks dan tag secara berlebihan dan imej itu sendiri menjadi objek rujukan kedua, ia kurang mantap dan sering menyalahtafsirkan maklumat perubatan dalam imej.
- GPT-4V boleh mengenal pasti peranti implan perubatan dan kedudukannya dalam imej
Dalam kebanyakan kes, GPT4-V boleh mengenal pasti peranti perubatan yang diimplan dalam tubuh manusia dengan betul dan mengesan kedudukannya dengan agak tepat. Dan penulis mendapati bahawa walaupun dalam beberapa kes yang lebih sukar, ralat diagnostik boleh berlaku tetapi peranti perubatan itu dinilai telah dikenal pasti dengan betul.
- GPT-4V akan menghadapi halangan analisis apabila menghadapi berbilang input imej
Pengarang mendapati bahawa apabila menghadapi imej dari perspektif berbeza dalam modaliti yang sama, GPT-4V akan menunjukkan prestasi yang lebih baik daripada memasukkan satu imej mempunyai keupayaan analisis yang lebih baik, tetapi masih cenderung untuk melakukan analisis berasingan pada setiap paparan apabila berhadapan dengan input bercampur imej daripada modaliti yang berbeza, adalah lebih sukar bagi GPT-4V untuk memperoleh analisis yang munasabah yang menyepadukan maklumat daripada modaliti yang berbeza.
- Ramalan GPT-4V mudah dipandu oleh sejarah penyakit pesakit
Pengarang mendapati bahawa sama ada sejarah penyakit pesakit diberikan atau tidak mempunyai kesan yang lebih besar terhadap jawapan GPT-4V. Apabila sejarah penyakit disediakan, GPT-4V sering menggunakannya sebagai titik utama untuk membuat inferens tentang kemungkinan keabnormalan dalam imej apabila sejarah penyakit tidak diberikan, GPT-4V lebih cenderung untuk menganggap imej sebagai perkara utama. Kes biasa dianalisis.
- GPT-4V tidak dapat mengesan struktur anatomi dan keabnormalan dalam imej perubatan
Pengarang percaya bahawa kesan kedudukan lemah GPT-4V terutamanya ditunjukkan dalam: Pertama, GPT-4V sentiasa memperoleh imej jauh dari sempadan sebenar semasa proses penentududukan kotak ramalan; kedua, ia menunjukkan rawak yang ketara dalam beberapa pusingan ramalan berulang untuk imej yang sama, ketiga, GPT-4V menunjukkan berat sebelah yang jelas, contohnya: dalam imej MRI otak, otak kecil mesti terletak di bawah.
- GPT-4V boleh menukar jawapan sedia ada berdasarkan beberapa pusingan interaksi pengguna.
GPT-4V boleh mengubah suai tindak balasnya menjadi betul sepanjang satu siri interaksi.Sebagai contoh, dalam contoh yang ditunjukkan dalam artikel, penulis memasukkan imej MRI endometriosis. GPT-4V pada mulanya salah mengklasifikasikan MRI pelvis sebagai MRI lutut, mengakibatkan output yang salah. Tetapi pengguna membetulkannya melalui beberapa pusingan interaksi dengan GPT-4V dan akhirnya membuat diagnosis yang tepat.
- GPT-4V mempunyai masalah serius dengan halusinasi, terutamanya kecenderungan untuk menggambarkan pesakit sebagai normal walaupun isyarat tidak normal sangat jelas.
GPT-4V sentiasa menghasilkan laporan yang kelihatan sangat lengkap dan terperinci dalam struktur, tetapi kandungannya tidak betul Dalam banyak kes, ia akan tetap menganggap pesakit normal walaupun kawasan abnormal dalam imej itu jelas.
- GPT-4V tidak cukup stabil untuk menjawab soalan perubatan
GPT-4V mempunyai perbezaan prestasi yang besar antara imej biasa dan imej jarang berlaku, dan juga menunjukkan perbezaan prestasi yang jelas dalam sistem badan yang berbeza. Di samping itu, analisis imej perubatan yang sama mungkin menghasilkan keputusan yang tidak konsisten kerana perubahan gesaan Contohnya, GPT-4V pada mulanya menilai imej yang diberikan sebagai tidak normal di bawah gesaan "Apakah diagnosis untuk CT otak ini?" laporan mempertimbangkan imej yang sama seperti biasa. Ketidakkonsistenan ini menyerlahkan bahawa prestasi GPT-4V dalam diagnosis klinikal mungkin tidak stabil dan tidak boleh dipercayai.
- GPT-4V mempunyai sekatan keselamatan yang ketat dalam bidang perubatan
Pengarang mendapati bahawa GPT-4V telah menetapkan langkah perlindungan keselamatan untuk mencegah potensi penyalahgunaan dalam Soal Jawab dalam bidang perubatan untuk memastikan pengguna boleh menggunakannya dengan selamat. Sebagai contoh, apabila GPT-4V diminta membuat diagnosis, "Sila berikan diagnosis untuk X-ray dada ini.", ia mungkin enggan memberikan jawapan, atau menekankan "Saya bukan pengganti nasihat perubatan profesional." Dalam kebanyakan kes, GPT-4V akan memilih untuk menggunakan frasa yang mengandungi "nampak seperti" atau "boleh jadi" untuk menyatakan ketidakpastian.
Bahagian Kes Patologi
Selain itu, untuk meneroka keupayaan GPT-4V dalam penjanaan laporan dan diagnosis perubatan imej patologi, penulis menjalankan ujian tahap blok imej pada 20 imej patologi tumor malignan daripada tisu yang berbeza, dan membuat kesimpulan seperti berikut Kesimpulan:
- GPT-4V mampu mengecam modaliti yang tepat
Dalam semua kes ujian, GPT-4V boleh mengenal pasti modaliti semua imej patologi dengan betul (imej histopatologi bernoda H&E).
- GPT-4V mampu menjana laporan berstruktur
Memandangkan imej patologi tanpa sebarang petunjuk perubatan, GPT-4V boleh menjana laporan berstruktur dan terperinci yang menerangkan ciri imej. Dalam 7 daripada 20 kes, mereka dapat menyenaraikan pemerhatian mereka dengan jelas, malah dengan betul, menggunakan istilah seperti "struktur tisu," "ciri sel," "stroma," "struktur kelenjar," "nukleus," dll.地
Atas ialah kandungan terperinci 178 muka surat, 128 kes, penilaian menyeluruh GPT-4V dalam bidang perubatan, masih jauh dari aplikasi klinikal dan membuat keputusan praktikal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!