搜索
首页科技周边人工智能多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

编辑 | 白菜叶

许多临床任务需要了解专业数据,例如医学图像、基因组学等。这类专业知识信息在通用多模态大模型的训练中通常不存...

在上一篇论文的描述中,Med-Gemini 在各种医学成像任务上超越 GPT-4 系列模型实现了 SOTA

在这里,Google DeepMind 撰写了第二篇关于 Med-Gemini 的论文。

在 Gemini 的多模态模型的基础上,该团队为 Med-Gemini 系列开发了多个模型。这些模型继承了 Gemini 的核心功能,并通过 2D 和 3D 放射学、组织病理学、眼科、皮肤病学和基因组数据的微调,针对医疗用途进行了优化。

1、Med-Gemini-2D:能够处理放射学、病理学、皮肤科、眼科图像;
2、Med-Gemini-3D:能够处理 CT 图像;
3、Med-Gemini-Polygenic:能够处理基因组「图像」。

该研究以「Advancing Multimodal Medical Capabilities of Gemini」为题,于 2024 年 5 月 6 日发布在 arXiv 预印平台。

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

医疗数据源包括生物样本库、电子健康记录、医学成像、可穿戴设备、生物传感器和基因组测序等不同来源的医疗数据。这些数据正在推动多模态人工智能解决方案的发展,从而更好地捕捉人群健康和疾病的复杂性。

人工智能在医学领域的主要专注于具有单一输入和输出类型的狭窄任务,但生成人工智能的最新进展显示出在解决医疗环境中的多模态、多任务挑战方面的前景。

以 Gemini 等强大模型为代表的多模态生成人工智能拥有彻底改变医疗保健的巨大潜力。虽然医学是这些新模型快速迭代的数据来源,但由于其高度专业化的数据,通用模型在医学领域应用时通常表现不佳。

基于 Gemini 的核心功能,DeepMind 推出了 Med-Gemini 系列的三个新模型,Med-Gemini-2D、Med-Gemini-3D、Med-Gemini-Polygenic。

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级
图示:Med-Gemini 概述。(来源:论文)

来自 370 万张医学图像和病例的超过 700 万个数据样本用于训练模型。使用各种视觉问答和图像字幕数据集,包括一些来自医院的私人数据集。

为了处理 3D 数据 (CT),使用了 Gemini 视频编码器,其中时间维度被视为深度维度。为了处理基因组数据,各种性状的风险评分被编码为图像中的 RGB 像素。

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

图示:使用个人的 PRS 图像和人口统计信息预测冠状动脉疾病的示例。(来源:论文)

Med-Gemini-2D

Med-Gemini-2D 根据专家评估,为基于人工智能的胸部 X 射线(CXR)报告生成制定了新标准,超过了之前两个独立数据集的最佳结果,绝对优势为 1% 和 12%,其中 AI 的正常病例报告为 57% 和 96%,异常病例报告为 43% 和 65%,与原始放射科医生的报告相比质量「相当」甚至「更好」。

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

图示:Med-Gemini-2D 在胸部 X 射线分类任务上的性能。(来源:论文)

Med-Gemini-2D 在分布胸部 X 射线分类任务上优于通用的较大 Gemini 1.0 Ultra 模型(在训练期间看到了来自同一数据集的示例)。对于分布外的任务,性能各不相同。

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

图示:Med-Gemini-2D 组织病理学图像分类性能。(来源:论文)

在组织病理学分类任务上,Med-Gemini 的表现大多优于 Gemini Ultra,但未能超越病理学特定的基础模型。

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

图示:PAD-UFES-20 分类任务的性能。(来源:论文)

在皮肤病变分类上,观察到类似的趋势(特定领域模型 > Med-Gemini > Gemini Ultra),尽管 Med-Gemini 与特定领域模型非常接近。

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

图示:Med-Gemini-2D、Gemini Ultra 和使用眼底图像分类附加数据进行训练的监督模型的性能比较。(来源:论文)

对于眼科分类,再次看到类似的情况。请注意,特定领域模型是在约 200 倍的数据上进行训练的,因此相比之下,Med-Gemini 的表现相当不错。

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

图示:VOA 任务的评估详细信息。(来源:论文)

该团队还评估了医学视觉问答(VQA)方面的 Med-Gemini-2D 模型。在这里,他们的模型在许多 VQA 任务上都非常强大,经常击败 SOTA 模型。Med-Gemini-2D 在 CXR 分类和放射学 VQA 方面表现良好,在 20 项任务中的 17 项上超过了 SOTA 或基线。

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

图示:评估详细说明了胸部 X 光检查报告的生成。(来源:论文)

除了对医学图像的简单狭义解释之外,作者还评估了 Med-Gemini-2D 在胸部 X 射线放射学报告生成方面的表现,并观察到它根据放射学专家的评估实现了 SOTA!

Med-Gemini-3D

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

图示:头部 CT 体积报告生成的人工评估结果。(来源:论文)

Med-Gemini-3D 不仅仅适用于 2D 图像,还应用于自动化端到端 CT 报告生成。根据专家评估,其中 53% 的 AI 报告被认为是临床可接受的,尽管需要进行额外的研究来满足专家放射科医生的报告质量,但这是第一个能够完成此任务的生成模型。

Med-Gemini-Polygenic

最后,根据各种性状的多基因风险评分,对 Med-Gemini-Polygenic 的健康结果预测进行了评估。该模型通常优于现有基线。

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

图示:使用 Med-Gemini-Polygenic 与分布不均和分布外结果的两个基线进行比较的健康结果预测。(来源:论文)

以下是 Med-Gemini 支持的多模态对话的一些示例!

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

图示:通过开放式问答的 2D 医学图像对话示例。(来源:论文)

在组织病理学、眼科和皮肤科图像分类中,Med-Gemini-2D 在 20 项任务中的 18 项中超越了基线,并接近特定任务的模型性能。

结语

总体而言,这项工作在通用多模态医疗人工智能模型方面取得了有益的进展,但显然还有很大的改进空间。许多特定领域模型的性能优于 Med-Gemini,但 Med-Gemini 能够在数据较少和更通用的方法下表现良好。有趣的是,Med-Gemini 在依赖更多语言理解的任务(例如 VQA 或放射学报告生成)上似乎表现得更好。

研究人员设想未来所有这些单项功能都集成到综合系统中,从而执行一系列复杂的多学科临床任务。AI 与人类一起工作,从而最大限度地提高临床疗效并改善患者的治疗结果。

论文链接:https://arxiv.org/abs/2405.03162

相关内容:https://twitter.com/iScienceLuvr/status/1789216212704018469 

以上是多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
AI太空公司诞生了AI太空公司诞生了May 12, 2025 am 11:07 AM

本文展示了AI如何以Tomorrow.io为典型的例子来彻底改变空间行业。 与像SpaceX这样的建立太空公司不同,SpaceX并非没有AI的核心,明天是AI本地公司。 让我们探索

印度的10个机器学习实习(2025)印度的10个机器学习实习(2025)May 12, 2025 am 10:47 AM

在印度(2025)登陆您梦想中的机器学习实习! 对于学生和早期职业专业人员来说,机器学习实习是一个有意义的职业的完美发射台。 跨不同部门的印度公司 - 尖端的基因

尝试Fellou AI并向Google和Chatgpt说再见尝试Fellou AI并向Google和Chatgpt说再见May 12, 2025 am 10:26 AM

在过去的一年中,在线浏览的景观经历了重大转变。 这种转变始于增强的个性化搜索结果,例如困惑和副标士,并随着Chatgpt的整合而加速

个人黑客将是一只非常凶猛的熊个人黑客将是一只非常凶猛的熊May 11, 2025 am 11:09 AM

网络攻击正在发展。 通用网络钓鱼电子邮件的日子已经一去不复返了。 网络犯罪的未来是超个性化的,利用了容易获得的在线数据和AI来制作高度针对性的攻击。 想象一个知道您的工作的骗子

教皇狮子座XIV揭示了AI如何影响他的名字选择教皇狮子座XIV揭示了AI如何影响他的名字选择May 11, 2025 am 11:07 AM

新当选的教皇狮子座(Leo Xiv)在对红衣主教学院的就职演讲中,讨论了他的同名人物教皇里奥XIII的影响,他的教皇(1878-1903)与汽车和汽车和汽车公司的黎明相吻合

Fastapi -MCP初学者和专家教程-Analytics VidhyaFastapi -MCP初学者和专家教程-Analytics VidhyaMay 11, 2025 am 10:56 AM

本教程演示了如何使用模型上下文协议(MCP)和FastAPI将大型语言模型(LLM)与外部工具集成在一起。 我们将使用FastAPI构建一个简单的Web应用程序,并将其转换为MCP服务器,使您的L

dia-1.6b tts:最佳文本到二元格生成模型 - 分析vidhyadia-1.6b tts:最佳文本到二元格生成模型 - 分析vidhyaMay 11, 2025 am 10:27 AM

探索DIA-1.6B:由两个本科生开发的开创性的文本对语音模型,零资金! 这个16亿个参数模型产生了非常现实的语音,包括诸如笑声和打喷嚏之类的非语言提示。本文指南

AI可以使指导比以往任何时候都更有意义AI可以使指导比以往任何时候都更有意义May 10, 2025 am 11:17 AM

我完全同意。 我的成功与导师的指导密不可分。 他们的见解,尤其是关于业务管理,构成了我的信念和实践的基石。 这种经验强调了我对导师的承诺

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。