编辑 | 白菜叶
许多临床任务需要了解专业数据,例如医学图像、基因组学等。这类专业知识信息在通用多模态大模型的训练中通常不存...
在上一篇论文的描述中,Med-Gemini 在各种医学成像任务上超越 GPT-4 系列模型实现了 SOTA!
在这里,Google DeepMind 撰写了第二篇关于 Med-Gemini 的论文。
在 Gemini 的多模态模型的基础上,该团队为 Med-Gemini 系列开发了多个模型。这些模型继承了 Gemini 的核心功能,并通过 2D 和 3D 放射学、组织病理学、眼科、皮肤病学和基因组数据的微调,针对医疗用途进行了优化。
该研究以「Advancing Multimodal Medical Capabilities of Gemini」为题,于 2024 年 5 月 6 日发布在 arXiv 预印平台。
医疗数据源包括生物样本库、电子健康记录、医学成像、可穿戴设备、生物传感器和基因组测序等不同来源的医疗数据。这些数据正在推动多模态人工智能解决方案的发展,从而更好地捕捉人群健康和疾病的复杂性。
人工智能在医学领域的主要专注于具有单一输入和输出类型的狭窄任务,但生成人工智能的最新进展显示出在解决医疗环境中的多模态、多任务挑战方面的前景。
以 Gemini 等强大模型为代表的多模态生成人工智能拥有彻底改变医疗保健的巨大潜力。虽然医学是这些新模型快速迭代的数据来源,但由于其高度专业化的数据,通用模型在医学领域应用时通常表现不佳。
基于 Gemini 的核心功能,DeepMind 推出了 Med-Gemini 系列的三个新模型,Med-Gemini-2D、Med-Gemini-3D、Med-Gemini-Polygenic。

来自 370 万张医学图像和病例的超过 700 万个数据样本用于训练模型。使用各种视觉问答和图像字幕数据集,包括一些来自医院的私人数据集。
为了处理 3D 数据 (CT),使用了 Gemini 视频编码器,其中时间维度被视为深度维度。为了处理基因组数据,各种性状的风险评分被编码为图像中的 RGB 像素。
Med-Gemini-2D
Med-Gemini-2D 根据专家评估,为基于人工智能的胸部 X 射线(CXR)报告生成制定了新标准,超过了之前两个独立数据集的最佳结果,绝对优势为 1% 和 12%,其中 AI 的正常病例报告为 57% 和 96%,异常病例报告为 43% 和 65%,与原始放射科医生的报告相比质量「相当」甚至「更好」。
图示:Med-Gemini-2D 在胸部 X 射线分类任务上的性能。(来源:论文)
Med-Gemini-2D 在分布胸部 X 射线分类任务上优于通用的较大 Gemini 1.0 Ultra 模型(在训练期间看到了来自同一数据集的示例)。对于分布外的任务,性能各不相同。
在组织病理学分类任务上,Med-Gemini 的表现大多优于 Gemini Ultra,但未能超越病理学特定的基础模型。
在皮肤病变分类上,观察到类似的趋势(特定领域模型 > Med-Gemini > Gemini Ultra),尽管 Med-Gemini 与特定领域模型非常接近。
对于眼科分类,再次看到类似的情况。请注意,特定领域模型是在约 200 倍的数据上进行训练的,因此相比之下,Med-Gemini 的表现相当不错。
该团队还评估了医学视觉问答(VQA)方面的 Med-Gemini-2D 模型。在这里,他们的模型在许多 VQA 任务上都非常强大,经常击败 SOTA 模型。Med-Gemini-2D 在 CXR 分类和放射学 VQA 方面表现良好,在 20 项任务中的 17 项上超过了 SOTA 或基线。
除了对医学图像的简单狭义解释之外,作者还评估了 Med-Gemini-2D 在胸部 X 射线放射学报告生成方面的表现,并观察到它根据放射学专家的评估实现了 SOTA!
Med-Gemini-3D
Med-Gemini-3D 不仅仅适用于 2D 图像,还应用于自动化端到端 CT 报告生成。根据专家评估,其中 53% 的 AI 报告被认为是临床可接受的,尽管需要进行额外的研究来满足专家放射科医生的报告质量,但这是第一个能够完成此任务的生成模型。
Med-Gemini-Polygenic
最后,根据各种性状的多基因风险评分,对 Med-Gemini-Polygenic 的健康结果预测进行了评估。该模型通常优于现有基线。
图示:使用 Med-Gemini-Polygenic 与分布不均和分布外结果的两个基线进行比较的健康结果预测。(来源:论文)
以下是 Med-Gemini 支持的多模态对话的一些示例!
在组织病理学、眼科和皮肤科图像分类中,Med-Gemini-2D 在 20 项任务中的 18 项中超越了基线,并接近特定任务的模型性能。
结语
总体而言,这项工作在通用多模态医疗人工智能模型方面取得了有益的进展,但显然还有很大的改进空间。许多特定领域模型的性能优于 Med-Gemini,但 Med-Gemini 能够在数据较少和更通用的方法下表现良好。有趣的是,Med-Gemini 在依赖更多语言理解的任务(例如 VQA 或放射学报告生成)上似乎表现得更好。
研究人员设想未来所有这些单项功能都集成到综合系统中,从而执行一系列复杂的多学科临床任务。AI 与人类一起工作,从而最大限度地提高临床疗效并改善患者的治疗结果。
论文链接:https://arxiv.org/abs/2405.03162
相关内容:https://twitter.com/iScienceLuvr/status/1789216212704018469
以上是多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级的详细内容。更多信息请关注PHP中文网其他相关文章!

谷歌三件套指的是:1、google play商店,即下载各种应用程序的平台,类似于移动助手,安卓用户可以在商店下载免费或付费的游戏和软件;2、Google Play服务,用于更新Google本家的应用和Google Play提供的其他第三方应用;3、谷歌服务框架(GMS),是系统软件里面可以删除的一个APK程序,通过谷歌平台上架的应用和游戏都需要框架的支持。

中国不卖google手机的原因:谷歌已经全面退出中国市场了,所以不能在中国销售,在国内是没有合法途径销售。在中国消费市场中,消费者大都倾向于物美价廉以及功能实用的产品,所以竞争实力本就因政治因素大打折扣的谷歌手机主体市场一直不在中国大陆。

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

前几天,谷歌差点遭遇一场公关危机,Bert一作、已跳槽OpenAI的前员工Jacob Devlin曝出,Bard竟是用ChatGPT的数据训练的。随后,谷歌火速否认。而这场争议,也牵出了一场大讨论:为什么越来越多Google顶尖研究员跳槽OpenAI?这场LLM战役它还能打赢吗?知友回复莱斯大学博士、知友「一堆废纸」表示,其实谷歌和OpenAI的差距,是数据的差距。「OpenAI对LLM有强大的执念,这是Google这类公司完全比不上的。当然人的差距只是一个方面,数据的差距以及对待数据的态度才

2015 年,谷歌大脑开放了一个名为「TensorFlow」的研究项目,这款产品迅速流行起来,成为人工智能业界的主流深度学习框架,塑造了现代机器学习的生态系统。从那时起,成千上万的开源贡献者以及众多的开发人员、社区组织者、研究人员和教育工作者等都投入到这一开源软件库上。然而七年后的今天,故事的走向已经完全不同:谷歌的 TensorFlow 失去了开发者的拥护。因为 TensorFlow 用户已经开始转向 Meta 推出的另一款框架 PyTorch。众多开发者都认为 TensorFlow 已经输掉

由于可以做一些没训练过的事情,大型语言模型似乎具有某种魔力,也因此成为了媒体和研究员炒作和关注的焦点。当扩展大型语言模型时,偶尔会出现一些较小模型没有的新能力,这种类似于「创造力」的属性被称作「突现」能力,代表我们向通用人工智能迈进了一大步。如今,来自谷歌、斯坦福、Deepmind和北卡罗来纳大学的研究人员,正在探索大型语言模型中的「突现」能力。解码器提示的 DALL-E神奇的「突现」能力自然语言处理(NLP)已经被基于大量文本数据训练的语言模型彻底改变。扩大语言模型的规模通常会提高一系列下游N

让一位乒乓球爱好者和机器人对打,按照机器人的发展趋势来看,谁输谁赢还真说不准。机器人拥有灵巧的可操作性、腿部运动灵活、抓握能力出色…… 已被广泛应用于各种挑战任务。但在与人类互动紧密的任务中,机器人的表现又如何呢?就拿乒乓球来说,这需要双方高度配合,并且球的运动非常快速,这对算法提出了重大挑战。在乒乓球比赛中,首要的就是速度和精度,这对学习算法提出了很高的要求。同时,这项运动具有高度结构化(具有固定的、可预测的环境)和多智能体协作(机器人可以与人类或其他机器人一起对打)两大特点,使其成为研究人

ChatGPT在手,有问必答。你可知,与它每次对话的计算成本简直让人泪目。此前,分析师称ChatGPT回复一次,需要2美分。要知道,人工智能聊天机器人所需的算力背后烧的可是GPU。这恰恰让像英伟达这样的芯片公司豪赚了一把。2月23日,英伟达股价飙升,使其市值增加了700多亿美元,总市值超5800亿美元,大约是英特尔的5倍。在英伟达之外,AMD可以称得上是图形处理器行业的第二大厂商,市场份额约为20%。而英特尔持有不到1%的市场份额。ChatGPT在跑,英伟达在赚随着ChatGPT解锁潜在的应用案


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

SublimeText3 英文版
推荐:为Win版本,支持代码提示!

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

Dreamweaver Mac版
视觉化网页开发工具