搜索
首页科技周边人工智能九章云极DataCanvas多模态大模型平台的实践和思考
九章云极DataCanvas多模态大模型平台的实践和思考Oct 20, 2023 am 08:45 AM
算法多模态大模型

九章云极DataCanvas多模态大模型平台的实践和思考

一、多模态大模型的历史发展

九章云极DataCanvas多模态大模型平台的实践和思考

上图这张照片是1956 年在美国达特茅斯学院召开的第一届人工智能workshop,这次会议也被认为拉开了人工智能的序幕,与会者主要是符号逻辑学届的前驱(除了前排中间的神经生物学家Peter Milner)。

然而这套符号逻辑学理论在随后的很长一段时间内都无法实现,甚至到 80 年代90年代还迎来了第一次AI寒冬期。直到最近大语言模型的落地,我们才发现真正承载这个逻辑思维的是神经网络,神经生物学家Peter Milner的工作激发了后来人工神经网络的发展,也正因为此他被邀请参加了这个学术研讨会。

九章云极DataCanvas多模态大模型平台的实践和思考

2012年,Tesla自动驾驶主管Andrew在博客上发布了上面这张图,显示当时美国总统奥巴马和自己的下属开玩笑。要让人工智能去理解这张图,不仅是一个视觉感知任务,因为除了要识别物体,还需要理解他们之间的关系;只有知道体重秤的物理原理,才能知道图里描述的故事:奥巴马踩了秤,导致秤上的人体重升高,他因此做出了这个奇怪的表情,同时其他人在一旁笑。这样的逻辑思维显然已经超出了纯粹的视觉感知范畴,因此必须将视觉认知和逻辑思维结合到一起,才能摆脱“人工智障”的尴尬,而多模态大模型的重要性和困难性也体现在这里。

九章云极DataCanvas多模态大模型平台的实践和思考

上图是人类大脑的解剖结构图,图中的语言逻辑区对应的就是大语言模型,而其他的区域则分别对应着不同的感官,包括视觉、听觉、触觉、运动、记忆等等。虽然人工神经网络并不是真正意义上的脑神经网络,但还是可以从中受到一些启发,即构造大模型的时候,可以将不同的功能联合在一起,这也是多模态模型构建的基本思想。

1、多模态大模型可以做什么?

九章云极DataCanvas多模态大模型平台的实践和思考

多模态大模型可以为我们做很多事情,例如视频理解,大模型可以帮我们总结视频的摘要以及关键信息,从而节约我们看视频的时间;大模型还可以帮助我们进行视频的后期分析,例如节目分类、节目收视率统计等;此外,文生图也是多模态大模型的一个重要的应用领域。

而大模型如果和人的运动,或者机器人的运动联合在一起,就会产生一个具身智能体,就像人一样,基于过往经验规划最佳路径的方法,并应用到全新的场景中,解决一些先前没有遇见过的问题,同时规避风险;甚至可以在执行过程中修改原有计划,直到最后获得成功。这也是一个具有广泛前景的应用场景。

2、多模态大模型

九章云极DataCanvas多模态大模型平台的实践和思考

上图是多模态大模型在发展过程中的一些重要节点:

  • 2020年的ViT模型(Vision Transformer)是大模型的开端,首次将Transformer架构用到除语言和逻辑处理外的其它类型数据(视觉数据),并且显示了良好的泛化能力;
  • 随后通过OpenAI开源的CLIP模型,再次证明了通过ViT和大语言模型的使用,视觉任务实现了很强的长尾泛化能力,即通过常识推测先前没有见过的类别
  • 到了2023年,各式各样的多模态大模型逐渐显现,从PaLM-E(机器人),到 whisper(语音识别),再到ImageBind(图像对齐),再到Sam(语义分割),最后到地理图像;还包括微软的统一多模态架构Kosmos2,多模态大模型发展迅速。
  • 特斯拉在6月的CVPR还提出了通用世界模型这样的愿景。

从上图可以看出,短短半年时间,大模型就发生了非常多的变化,其迭代速度是非常快的。

3、模态对齐架构

九章云极DataCanvas多模态大模型平台的实践和思考

上图是多模态大模型的通用架构图,包含一个语言模型、一个视觉模型,通过固定语言模型和固定视觉模型进而学习对齐模型;而对齐就是将视觉模型的矢量空间和语言模型的矢量空间进行联合,进而在统一的矢量空间里完成两者内在逻辑关系的理解。

图中所示的Flamingo模型和BLIP2模型都采用类似的结构(Flamingo模型采用Perceiver架构,而BLIP2模型采用改良版的Transformer架构);然后通过多种对比学习的方法进行预训练,对海量的token进行大量学习,获得较好的对齐效果;最后根据特定的任务对模型进行微调。

二、九章云极DataCanvas的多模态大模型平台

1、AI Foundation Software (AIFS)

九章云极DataCanvas是人工智能基础软件提供商,同时提供算力资源(包括GPU集群),进行高性能的存储和网络优化,在此基础上提供大模型的训练工具,包括数据标注建模实验沙盒等。九章云极DataCanvas不仅支持市面上常见的开源大模型,同时也在自主研发元识多模态大模型。在应用层,提供了工具对提示词进行管理,对模型进行微调,并提供模型运维机制。同时,还开源了一款多模向量数据库,让基础软件架构更加丰富。

九章云极DataCanvas多模态大模型平台的实践和思考

2、模型工具LMOPS

九章云极DataCanvas多模态大模型平台的实践和思考

九章云极DataCanvas专注于全生命周期的开发的优化,包括数据准备(数据标注支持人工标注和智能标注)、模型开发、模型评估(包括横向评估和纵向评估)、模型推理(支持模型量化、知识蒸馏等加速推理机制)、模型应用等。

3、LMB –Large Model Builder

九章云极DataCanvas多模态大模型平台的实践和思考

在构建模型时,进行了很多分布式高效优化工作,包括数据并行、Tensor并行、管道并行等。这些分布式优化工作是一键式完成的,并支持可视化调控,可以大大减少人力成本,提升开发效率。

4、LMB –Large Model Builder

九章云极DataCanvas多模态大模型平台的实践和思考

对于大模型tuning也进行了优化,包括常见的continue training、supervise tuning,以及reinforcement learning中的human feedback等。此外,对于中文也进行了很多优化,例如中文词表的自动扩展。因为很多中文词汇并未包含在开源大模型中,这些词汇可能会被拆分成多个token;将这些词汇进行自动扩充,可以让模型更好地使用这些词汇。

5、LMS –Large Model Serving

九章云极DataCanvas多模态大模型平台的实践和思考

大模型的serving也是非常重要的一个组成部分,平台对模型量化、知识蒸馏等环节也进行了大量的优化,大大降低了计算成本,并通过逐层知识蒸馏来加速transformer,减少其计算量。与此同时,也做了很多剪枝工作(包括结构化剪枝、稀疏剪枝等),大大提升了大模型的推理速度。

此外,对交互式对话过程也进行了优化。例如多轮对话Transformer中,每个tensor的key和value是可以记住的,无需重复计算。因此,可将其存入Vector DB中,实现对话历史记忆功能,提升交互过程中的用户体验。

6、Prompt Manager

大模型提示词设计和构建工具Prompt Manager,通过帮助用户设计更好的提示词,引导大模型生成更加准确、可靠、符合预期的输出内容。该工具既可面向技术人员提供development toolkit的开发模式,也可以面向非技术人员提供人机交互的操作模式,满足不同人群使用大模型的需求。

其主要功能包括:AI模型管理、场景管理、提示词模板管理、提示词开发和提示词应用等。

九章云极DataCanvas多模态大模型平台的实践和思考

平台提供了常用的提示词管理工具,可实现版本控制,并提供常用模板来加速提示词的实现。

三、九章云极DataCanvas多模态大模型的实践

1、多模态大模型——有记忆体

介绍完平台功能,接下来会分享多模态大模型开发实践。

九章云极DataCanvas多模态大模型平台的实践和思考


上图是九章云极DataCanvas多模态大模型的基本框架,与其它多模态大模型不同的一点是,它包含记忆体,可以提升开源大模型的推理能力。

一般开源大模型的参数量相对较低,如果再耗用一部分参数量进行记忆,其推理能力将会大幅下降。如果给开源大模型增加记忆体,则会同时提升推理能力和记忆能力。

此外,类似大多数模型,多模态大模型也会固定大语言模型和固定数据编码,针对对齐功能进行单独的模块化的训练;因此,所有不同的数据模态都会对齐到文本中的逻辑部分;在推理的过程,首先对语言进行翻译,然后进行融合,最后进行推理工作。

2、非结构化数据ETL Pipeline

九章云极DataCanvas多模态大模型平台的实践和思考

由于我们的DingoDB多模向量数据库结合了多模态与ETL的功能,因此能够提供良好的非结构化数据管理能力。平台提供pipeline ETL功能,并做了很多优化,包括算子编译、并行处理,以及缓存优化等。

此外,平台提供Hub,可以将pipeline重复使用,实现最高效的开发体验。同时,支持 Huggingface上的众多编码器,可以实现对不同模态数据的最优编码。

3、多模态大模型构建方法

九章云极DataCanvas将元识多模态大模型作为底座,支持用户选择其它开源大模型,也支持用户使用自己的模态数据进行训练。

多模态大模型的构建大概分为三个阶段:

  • 第一阶段:固定大语言模型和模态编码器训练对齐和查询;
  • 第二阶段(可选,支持多模态搜索):固定大语言模型,模态编码器,对齐和查询模块,训练检索模块;
  • 第三阶段(可选,对特定任务):指令微调大语言模型。

4、案例-知识库建设

九章云极DataCanvas多模态大模型平台的实践和思考


大模型中的记忆体架构,可以帮助我们实现多模态知识库建设,该知识库实际上是模型的应用。知乎就是一个典型的多模态知识库应用模块,其专业知识是可以溯源的。

为了保证知识的确定性和安全性,往往需要对专业知识进行溯源,知识库就可以帮助我们实现这此功能,同时新的知识添加也会比较方便,无需修改模型参数,直接把知识添加进数据库即可。

具体来说,将专业知识通过编码器进行不同的编码选择,同时根据不同的评价方法进行统一评价,通过一键评价来实现编码器的选择。最后应用编码器向量化之后存入DingoDB多模向量数据库,再通过大模型的多模态模块进行相关信息提取,通过语言模型来进行推理。

模型的最后一部分往往需要进行指令精调,由于不同用户的需求不太一样,因此需要对整个多模态大模型进行精调。由于多模态知识库在组织信息这部分特殊的优势,使得模型具备学习检索的能力,这也是我们在文本的段落化过程中做的创新。

一般的知识库是将文档进行段落化,然后对每一段进行独立的文本解锁。这种方法容易受到噪声的干扰,对于很多大的文档,很难判定段落划分的标准。

而我们的模型中,检索模块进行学习,模型自动寻找合适的结构化信息组织。对于某个具体产品,从产品说明书开始,首先定位大的目录段落,再定位到具体的段落。同时由于是多模态的信息集成,除了文字以外往往还会包含图像表格等,也可以进行向量化表达,再结合Meta信息,实现联合检索,从而提升检索效率。

值得说明的是,检索模块使用内存注意力机制,相较于同类算法可提升10%的召回率;同时可将内存注意力机制用于多模态文档处理,这也是非常有优势的一个方面。

九章云极DataCanvas多模态大模型平台的实践和思考

九章云极DataCanvas多模态大模型平台的实践和思考

四、对未来的思考与展望

1、企业数据管理 -- 知识库

九章云极DataCanvas多模态大模型平台的实践和思考

企业中85%的数据都是非结构化数据,只有15%是结构化的数据。过去的20年,人工智能主要是围绕结构化数据展开的,而非结构化数据是非常难以利用的,需要非常大的精力和代价将其转化处理为结构化数据。而借助多模态大模型和多模态知识库,通过人工智能新范式,可以大大提升企业内部管理中非结构化数据的利用率,未来可能会带来10倍的价值增长。

2、知识库--> 智能体(Agent)

九章云极DataCanvas多模态大模型平台的实践和思考

多模态知识库作为智能体的基础,之上的研发agent、客服agent、销售agent、法律agent,人力资源agent,企业运维 agent等功能都可以通过知识库进行运作。

以销售agent为例,常见架构包括两个agent同时存在,其中一个负责决策,另一个负责销售阶段的分析。这两个模块都可以通过多模态知识库寻找相关信息,包括产品信息、历史销售统计资料、客户画像、过往销售经验等,这些信息整合到一起,帮助这两个agent做最好、最正确的决定,这些决定反过来帮助用户获得最好的销售信息,再记录到多模态数据库集中,如此循环往复,不断提升销售业绩。

我们相信未来最有价值的企业,是将智能体落到实处的企业。希望九章云极DataCanvas可以跟大家一路同行,相互助力。

以上是九章云极DataCanvas多模态大模型平台的实践和思考的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
特斯拉自动驾驶算法和模型解读特斯拉自动驾驶算法和模型解读Apr 11, 2023 pm 12:04 PM

特斯拉是一个典型的AI公司,过去一年训练了75000个神经网络,意味着每8分钟就要出一个新的模型,共有281个模型用到了特斯拉的车上。接下来我们分几个方面来解读特斯拉FSD的算法和模型进展。01 感知 Occupancy Network特斯拉今年在感知方面的一个重点技术是Occupancy Network (占据网络)。研究机器人技术的同学肯定对occupancy grid不会陌生,occupancy表示空间中每个3D体素(voxel)是否被占据,可以是0/1二元表示,也可以是[0, 1]之间的

基于因果森林算法的决策定位应用基于因果森林算法的决策定位应用Apr 08, 2023 am 11:21 AM

译者 | 朱先忠​审校 | 孙淑娟​在我之前的​​博客​​中,我们已经了解了如何使用因果树来评估政策的异质处理效应。如果你还没有阅读过,我建议你在阅读本文前先读一遍,因为我们在本文中认为你已经了解了此文中的部分与本文相关的内容。为什么是异质处理效应(HTE:heterogenous treatment effects)呢?首先,对异质处理效应的估计允许我们根据它们的预期结果(疾病、公司收入、客户满意度等)选择提供处理(药物、广告、产品等)的用户(患者、用户、客户等)。换句话说,估计HTE有助于我

Mango:基于Python环境的贝叶斯优化新方法Mango:基于Python环境的贝叶斯优化新方法Apr 08, 2023 pm 12:44 PM

译者 | 朱先忠审校 | 孙淑娟引言模型超参数(或模型设置)的优化可能是训练机器学习算法中最重要的一步,因为它可以找到最小化模型损失函数的最佳参数。这一步对于构建不易过拟合的泛化模型也是必不可少的。优化模型超参数的最著名技术是穷举网格搜索和随机网格搜索。在第一种方法中,搜索空间被定义为跨越每个模型超参数的域的网格。通过在网格的每个点上训练模型来获得最优超参数。尽管网格搜索非常容易实现,但它在计算上变得昂贵,尤其是当要优化的变量数量很大时。另一方面,随机网格搜索是一种更快的优化方法,可以提供更好的

因果推断主要技术思想与方法总结因果推断主要技术思想与方法总结Apr 12, 2023 am 08:10 AM

导读:因果推断是数据科学的一个重要分支,在互联网和工业界的产品迭代、算法和激励策略的评估中都扮演者重要的角色,结合数据、实验或者统计计量模型来计算新的改变带来的收益,是决策制定的基础。然而,因果推断并不是一件简单的事情。首先,在日常生活中,人们常常把相关和因果混为一谈。相关往往代表着两个变量具有同时增长或者降低的趋势,但是因果意味着我们想要知道对一个变量施加改变的时候会发生什么样的结果,或者说我们期望得到反事实的结果,如果过去做了不一样的动作,未来是否会发生改变?然而难点在于,反事实的数据往往是

使用Pytorch实现对比学习SimCLR 进行自监督预训练使用Pytorch实现对比学习SimCLR 进行自监督预训练Apr 10, 2023 pm 02:11 PM

SimCLR(Simple Framework for Contrastive Learning of Representations)是一种学习图像表示的自监督技术。 与传统的监督学习方法不同,SimCLR 不依赖标记数据来学习有用的表示。 它利用对比学习框架来学习一组有用的特征,这些特征可以从未标记的图像中捕获高级语义信息。SimCLR 已被证明在各种图像分类基准上优于最先进的无监督学习方法。 并且它学习到的表示可以很容易地转移到下游任务,例如对象检测、语义分割和小样本学习,只需在较小的标记

​盒马供应链算法实战​盒马供应链算法实战Apr 10, 2023 pm 09:11 PM

一、盒马供应链介绍1、盒马商业模式盒马是一个技术创新的公司,更是一个消费驱动的公司,回归消费者价值:买的到、买的好、买的方便、买的放心、买的开心。盒马包含盒马鲜生、X 会员店、盒马超云、盒马邻里等多种业务模式,其中最核心的商业模式是线上线下一体化,最快 30 分钟到家的 O2O(即盒马鲜生)模式。2、盒马经营品类介绍盒马精选全球品质商品,追求极致新鲜;结合品类特点和消费者购物体验预期,为不同品类选择最为高效的经营模式。盒马生鲜的销售占比达 60%~70%,是最核心的品类,该品类的特点是用户预期时

机器学习必知必会十大算法!机器学习必知必会十大算法!Apr 12, 2023 am 09:34 AM

1.线性回归线性回归(Linear Regression)可能是最流行的机器学习算法。线性回归就是要找一条直线,并且让这条直线尽可能地拟合散点图中的数据点。它试图通过将直线方程与该数据拟合来表示自变量(x 值)和数值结果(y 值)。然后就可以用这条线来预测未来的值!这种算法最常用的技术是最小二乘法(Least of squares)。这个方法计算出最佳拟合线,以使得与直线上每个数据点的垂直距离最小。总距离是所有数据点的垂直距离(绿线)的平方和。其思想是通过最小化这个平方误差或距离来拟合模型。例如

人类反超 AI:DeepMind 用 AI 打破矩阵乘法计算速度 50 年记录一周后,数学家再次刷新人类反超 AI:DeepMind 用 AI 打破矩阵乘法计算速度 50 年记录一周后,数学家再次刷新Apr 11, 2023 pm 01:16 PM

10 月 5 日,AlphaTensor 横空出世,DeepMind 宣布其解决了数学领域 50 年来一个悬而未决的数学算法问题,即矩阵乘法。AlphaTensor 成为首个用于为矩阵乘法等数学问题发现新颖、高效且可证明正确的算法的 AI 系统。论文《Discovering faster matrix multiplication algorithms with reinforcement learning》也登上了 Nature 封面。然而,AlphaTensor 的记录仅保持了一周,便被人类

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前By尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
1 个月前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境