2B参数性能超Mistral-7B：面壁智能多模态端侧模型开源-人工智能-PHP中文网

首页

科技周边

人工智能

2B参数性能超Mistral-7B：面壁智能多模态端侧模型开源

王林

Feb 02, 2024 pm 07:33 PM

产业面壁智能

千元机也能本地运行。

近期，人们在优化和部署方面取得了成果，伴随着大模型向大体量方向发展。

2月1日，面壁智能联合清华NLP实验室在北京正式发布了旗舰端侧大模型「面壁MiniCPM」。这一新一代大模型被誉为「性能小钢炮」，不仅能够直接在终端部署，还具备同等水平最强的多模态能力。这将为用户提供更快速、更高效的智能应用体验。

面壁智能最新推出的 MiniCPM 2B 模型具有仅有 20 亿的参数量，并通过使用 1T token 的精选数据进行训练。与 2018 年发布的 BERT 模型相比，这个模型在参数量上相当，但面壁智能在性能优化和成本控制方面进行了极致的努力，使得该模型能够在性能上实现了「越级打怪」的效果。

面壁智能联合创始人、CEO 李大海将新模型与业内知名开源大模型 Mistral-7B 进行了对比，MiniCPM 2B 在多个主流评测榜单上性能全面超越了后者。

与微软近期提出的「小模型」Phi-2 相比，MiniCPM 也有很大优势。

2B参数性能超Mistral-7B：面壁智能多模态端侧模型开源

李大海指出，面壁智能的新模型在能力方面具备了越级实现的潜力，可以实现13B、30B甚至40B模型的能力。使用最接近用户体验的评测榜单MT-Bench进行评测时，MiniCPM获得了7分的成绩（相比之下，GPT-4-Turbo获得了9分）。

2B参数性能超Mistral-7B：面壁智能多模态端侧模型开源

在现场，面壁智能还展示了 MiniCPM 的实际应用效果。尽管参数量较小，但该模型具备大模型应有的文本翻译、角色扮演等多种能力，并且拥有丰富的知识。即使是难度较高的代码解释任务，该模型也能应对自如。

2B参数性能超Mistral-7B：面壁智能多模态端侧模型开源

因为能够部署在端侧，在面临一些突发事件时，MiniCPM 也可以给人们提供及时帮助：

最近，各家手机厂商纷纷提出了端侧大模型，在把大语言模型压缩到较小体量之后，我们就能用它连接更多场景，在算力、内存受限的情况下获得更高程度的智能。相比之下，面壁智能提出的新技术更加轻便，可适用于更低配置，或较早期型号的手机。

据面壁智能介绍，MiniCPM 端侧模型经历了 Int4 量化后压缩了 75% 体量，只占用 2G 内存，与此同时性能几乎没有损失，因此已在各类常见型号的手机上实现了跑通。

2B参数性能超Mistral-7B：面壁智能多模态端侧模型开源

因为支持移动端 CPU 的推理，MiniCPM 可以很大程度上节约使用成本。面壁智能为我们算了一笔账：一台搭载骁龙 855 的手机使用 MiniCPM，一块钱电费可处理 170 万 token，这个价格仅为云端运行的 Mistral-Medium 的 1%。

除了端侧模型，面壁智能还展示了其在多模态大模型方面的探索，并开源了 12B 参数量的 OmniLMM。在发布会上，面壁智能演示了 Gemini 发布时同款的石头剪刀布 demo。用英文向 AI 提问：我正在玩什么游戏？大模型会回答：石头剪子布。

2B参数性能超Mistral-7B：面壁智能多模态端侧模型开源

与此同时，OmniLMM 也可以认出人类的手势，还能告诉你如果要赢应该出什么。

OmniLMM 还可以理解很多图片中的信息并进行推理，如地标建筑、电视台的台标、人们组织的活动等内容。

2B参数性能超Mistral-7B：面壁智能多模态端侧模型开源

看来，我们距离真正多模态的大模型，以及新形态的应用已经不远了。

面壁智能大模型极致性能的背后，源于该公司长期以来的技术积累。自 2021 年，面壁智能就构建了高效的技术栈，集中在 Infra、算法和数据方法论三个方向。其中，自研的 BMTrain 高效训练框架至关重要。

2B参数性能超Mistral-7B：面壁智能多模态端侧模型开源

在算法层面上，面壁智能也积累了模型沙盒体系，把大模型从炼丹提升到了实验科学的程度，在理论上不断寻找超参数和规模的最优解，如最优的 batch size、所有尺寸模型通用的超参数配置。

目前，面壁智能已积累了大量高质量的数据。在昨天的发布后，面壁智能开源了自身的新一代大模型系列（包含 MiniCPM-SFT / DPOMiniCPM-V & MiniCPM-SFT / DPO-int4），以及训练 MiniCPM 两个阶段的数据配方以供行业参考。

开源地址（含技术报告）：

MiniCPM GitHub：https://github.com/OpenBMB/MiniCPM

OmniLMM GitHub：https://github.com/OpenBMB/OmniLMM

面壁智能源于清华 NLP 实验室，是在国内较早开展大模型研究的团队之一，其在 2018 年发布了全球首个基于知识指导的预训练模型 ERNIE。2022 年 8 月开始公司化运作的面壁智能，去年经历了两轮融资，其推出的应用「面壁露卡」也拿到了网信办第二批大模型备案。

目前，面壁智能已经组建起 100 余人的科研团队，其中 80% 人员来自清北，平均年龄 28 岁。

2B参数性能超Mistral-7B：面壁智能多模态端侧模型开源

面壁智能正在构建大模型 + Agent 的双引擎战略，希望能构建出更小规模、更快速度、更低成本的解决方案。

今年，面壁智能还将加快速度迭代新技术。「我们会在春节之后不断发布 MiniCPM 的新版本，性能还会进一步提升。我们要给大家春节的休息时间，」刘知远表示。

以上是2B参数性能超Mistral-7B：面壁智能多模态端侧模型开源的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：机器之心。如有侵权，请联系admin@php.cn删除

10个生成AI编码扩展，在VS代码中，您必须探索Apr 13, 2025 am 01:14 AM

嘿，编码忍者！您当天计划哪些与编码有关的任务？在您进一步研究此博客之前，我希望您考虑所有与编码相关的困境，这是将其列出的。完毕？ - 让＆＃8217

烹饪创新：人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备在新生的使用中，AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务，例如翻转汉堡，制作披萨或组装SA

Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍了解Python功能中变量的名称空间，范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中，我们将研究各种ASP

视觉语言模型（VLMS）的综合指南Apr 12, 2025 am 11:58 AM

介绍想象一下，穿过美术馆，周围是生动的绘画和雕塑。现在，如果您可以向每一部分提出一个问题并获得有意义的答案，该怎么办？您可能会问：“您在讲什么故事？

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏，本月，Mediatek发表了一系列公告，包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分，其中包括智能手机的芯片

本周在AI：沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

＃1 Google推出了Agent2Agent 故事：现在是星期一早上。作为AI驱动的招聘人员，您更聪明，而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购，审查和计划的FO

生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。我们似乎都知道，心理障碍包括各种chat不休，这些chat不休，这些chat不休，混合了各种心理术语，并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型：科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究，只有在2022年制造的塑料中，只有9.5％的塑料是由回收材料制成的。同时，塑料在垃圾填埋场和生态系统中继续堆积。但是有帮助。一支恩金团队

See all articles

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

2B参数性能超Mistral-7B：面壁智能多模态端侧模型开源

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

mPDF

SecLists

EditPlus 中文破解版

SublimeText3 Linux新版

Dreamweaver Mac版

热门话题