介绍
Mistral发布了其第一个多模式模型,即Pixtral-12b-2409。该模型建立在Mistral的120亿个参数Nemo 12b的基础上。是什么设置了该模型?现在可以将图像和文本用于输入。让我们更多地看一下模型,如何使用它,执行任务以及您需要知道的其他知识。
在本文中,您将了解PixTral-12b模型。该AI模型使用深度学习和一种特殊类型的网络来创建图像。我们将研究其工作原理,在机器学习中的用途以及与GPT-3的比较。您还将看到为什么其性能如此令人印象深刻。
概述
- 发现Mistral的新PixTral-12b,这是一种多模型,结合了用于多功能AI应用程序的文本和图像处理。
- 了解如何使用Mistral的最新AI模型PixTral-12b,旨在处理文本和高分辨率图像。
- 探索PixTral-12b模型的功能和用例,该模型具有视觉适配器,可增强图像理解。
- 了解Pixtral-12b的多模式特征及其在图像字幕,故事产生等中的潜在应用。
- 了解PixTral-12b的设计,性能以及如何用于特定的多模式任务。
目录
- 什么是pixtral-12b?
- 如何使用PixTral-12b-2409?
什么是pixtral-12b?
PixTral-12b是一种源自Mistral的Nemo 12B的多模型模型,并增加了400m参数视觉适配器。 Mistral可以从Torrent文件或Apache 2.0许可证上下载。让我们看一下PixTral-12b模型的一些技术功能:
特征 | 细节 |
型号大小 | 120亿参数 |
层 | 40层 |
视觉适配器 | 使用GELU激活的4亿参数 |
图像输入 | 通过URL或base64接受1024 x 1024图像,分为16 x 16像素贴片 |
视觉编码器 | 2D绳(旋转位置嵌入)增强了空间理解 |
词汇大小 | 最多131,072个令牌 |
特殊令牌 | img,img_break和img_end |
如何使用PixTral-12b-2409?
截至2024年9月15日,该模型目前在Mistral的Le Chat或La Plateforme上尚未可用来直接使用聊天界面或通过API访问聊天界面,但是我们可以通过Torrent链接下载该模型,并使用它,甚至可以使用它来满足我们的需求。我们还可以在拥抱脸的帮助下使用该模型。让我们详细了解它们:
洪流链接使用:
磁铁:?XT = urn:BTIH:7278E625DE2B1DA598B23954C13933047126238A&DN = PIXTRAL-12B--<br> 240910&tr = udp:/%http://2ftracker.opentrackr.org:1337/noins&tr = udp%<br> 3A/%http://2fopen.demonii.com:1337/noins&tr = http:/%http:// 2ftrac<br> ker.ipv6tracker.org:80/announce
我使用的是Ubuntu笔记本电脑,因此我将使用传输应用程序(已在大多数Ubuntu计算机中预安装)。您可以使用任何其他应用程序下载开源模型的Torrent链接。
- 单击左上方的“文件”,然后选择“打开URL”选项。然后,您可以粘贴复制的链接。
- 您可以单击“打开”并下载PixTral-12b型号。将下载包含这些文件的文件夹:
拥抱脸
该型号需要高GPU,因此我建议您使用Runpod.i''I'''将使用RunPod进行PixTral-12b-12b型号的演示。如果您使用的是带有40 GB磁盘的RunPod实例,建议您使用A100 PCIE GPU。
我们将在VLLM的帮助下使用PixTral-12b。确保执行以下安装。
!PIP安装VLLM<br><br> !pip安装 - 升级mistral_common
转到此链接:拥抱脸并同意访问模型。然后转到您的个人资料,单击“ access_tokens”,然后创建一个。如果您没有访问令牌,请确保已选中以下框:
现在,运行以下代码并粘贴访问令牌以通过拥抱的脸进行身份验证:
从huggingface_hub导入笔记本_login Notebook_login()
这将需要一段时间,因为25 GB型号被下载以供使用:
从vllm导入llm 来自vllm.sampling_params导入SamplingParams model_name =“ mistralai/pixtral-12b-2409” Sampling_Params = SamplingParams(MAX_TOKENS = 8192) llm = llm(model = model_name,tokenizer_mode =“ mistral”,max_model_len = 70000) 提示=“描述此图像” image_url =“ https://images.news18.com/ibnlive/uploads/2024/07/suryakumar-yadav-catch-catch-catch-catch-catch-1-2024-07-4a496281eb830a6fc76fc7ab41e92a2a0d295ed295ee-3x2.jpg” 消息= [ { “角色”:“用户”, “ content”:[{{“ type”:“ text”,“ text”:stress},{“ type”:“ image_url”,“ image_url”:{“ url”:image_url}}] },, 这是给出的
我要求模型描述以下图像,该图像来自T20世界杯2024:
输出= llm.Chat(消息,Sampling_Params = Sampling_Params) print('\ n'输出[0] .outputs [0] .TEXT)
输出
处理提示:100%|██████████| 1/1 [00:06 输入:429.80 Toks/s,输出:51.54 Toks/s]<br>该图像是三个帧的复合材料,显示了一个板球运动员,<br> 可能来自T20世界杯。这是一个详细的摘要:<br><br> 1。**左帧**:<br> - 跳跃中的球员,双臂伸出来向上抬头,<br> 试图捕捉板球。<br> - 他穿着蓝色球衣,名称为“ Surya”和数字“ 63”<br> 印在背面。<br> - 他的表情强烈而专注,强调集中<br> 捕获所需的。<br><br> 2。**中间框架**:<br> - 球员的手托the割在一起,距离接近更近<br> 球。<br> - 他穿着红色袖子的相同蓝色球衣,这也包括<br> “印度”团队徽标和赞助商的品牌,特别是来自阿迪达斯。<br> - 现在球非常接近他的手,表明很有可能<br> 成功的收获。<br><br> 3。**正确的框架**:<br> - 球员已经成功地抓住了球,双手举起了<br> 他的头紧紧抓住他的左手。<br> - 他以广阔的微笑表现出胜利的表情,通常<br> 与成功捕获有关。<br> - 他的统一性和举起的手传达了一种胜利感和伟大<br> 努力。<br><br>所有框架的背景都有广告牌,表明“ T20世界<br> 杯子,“特别是“阿联酋”的突出迹象,其中有<br> 大概赞助了活动。田野上有绿草,<br> 反映比赛期间的实际比赛条件。<br><br>总体而言,图像说明了板球比赛中的关键时刻,展示了<br> 球员的运动技巧和团队精神。<br>
从输出来看,我们可以看到该模型能够从T20世界杯中识别图像,并且能够区分同一图像中的帧以解释发生了什么。
提示=“写一个描述可能发生的整个事件的故事” image_url =“ https://images.news18.com/ibnlive/uploads/2024/07/suryakumar-yadav-catch-catch-catch-catch-catch-1-2024-07-4a496281eb830a6fc76fc7ab41e92a2a0d295ed295ee-3x2.jpg” 消息= [ { “角色”:“用户”, “ content”:[{{“ type”:“ text”,“ text”:stress},{“ type”:“ image_url”,“ image_url”:{“ url”:image_url}}] },, 这是给出的 输出= llm.Chat(消息,Sampling_Params = Sampling_Params) print('\ n'输出[0] .outputs [0] .TEXT)
输出
处理提示:100%|██████████| 1/1 [00:06 输入:401.77 Toks/s,输出:52.92 Toks/s]<br>在一个熙熙t的体育场的中心,T20世界杯正在如火如荼地进行。这<br> 气氛是电动的,人群在座位的边缘,急切地<br> 观看印度与他们强大的竞争对手之一之间的比赛。这<br> 重点转移到印度野外球员,特别是Suryakumar Yadav,<br> 策略性位置在边界线上。<br><br>当球从对方射击后,球驶向空中<br> 击球手Suryakumar的眼睛遵循其轨迹。具有古老的本能<br> 在无数小时的练习中,他知道这是他的时刻。这<br> 鲍尔高高,给了他足够的时间来评估自己的道路和计划<br> 他的下一步。<br><br>在第一个快照中,Suryakumar蹲在帽子上,眼睛固定在<br> 当它达到顶峰时。期待是明显的。他的队友看着<br> 希望他能够完美地执行捕获量。<br><br>第二张快照捕捉了纯粹的运动能力的时刻。爆发<br> 能量和敏捷性,Suryakumar Springs采取了行动。他迅速迅速<br> 向前迈进,他的身体渴望达到制作所需的高度<br> 抓住。球略高于他的头顶,他伸开手臂,手指<br> 扩展广泛,准备获得奖品。<br><br>在最后的快照中,Suryakumar的脸部成就点亮了。他的<br> 眼睛专注于球,现在安全地藏在他的手掌中。人群<br> 欢呼雀跃,承认杰出的努力。他的队友<br> 冲向他,庆祝可能扭转潮流的关键捕获<br> 比赛。<br><br>这种成功的播放序列不仅突出了Suryakumar的个人<br> 技巧,但也强调了战略团队合作,并确定了精神<br> 在著名的T20世界杯上定义印度板球队。<br>
当被要求写一个有关图像的故事时,该模型可以收集有关环境特征以及框架中发生的事情的上下文。
结论
PixTral-12b模型显着提高了Mistral的AI功能,将文本和图像处理融合以扩展其用例。其处理高分辨率1024 x 1024图像具有详细了解空间关系及其强大语言功能的能力,使其成为多模式任务(例如图像字幕,故事产生等)的绝佳工具。
尽管具有强大的功能,但该模型可以进一步调整以满足特定需求,无论是改善图像识别,增强语言的生成还是将其调整为更专业的领域。对于想要根据其用例定制模型的开发人员和研究人员来说,这种灵活性是一个至关重要的优势。
Q1。什么是vllm?A. VLLM是一个优化的库,可有效推断大型语言模型,从而提高模型执行过程中的速度和内存使用情况。
Q2。 SamplingParams有什么用?答:VLLM中的SamplingParams控制模型如何生成文本,指定参数,例如文本生成的最大令牌和采样技术。
Q3。该模型可以在Mistral的Le Chat上提供吗?答:是的,Mistral开发人员关系负责人Sophia Yang提到该模型将很快在Le Chat和Le Platform上提供。
以上是pixtral -12b:Mistral AI&#039;第一个多模型模型 - 分析Vidhya的详细内容。更多信息请关注PHP中文网其他相关文章!

用Microsoft Power BI图来利用数据可视化的功能 在当今数据驱动的世界中,有效地将复杂信息传达给非技术观众至关重要。 数据可视化桥接此差距,转换原始数据i

专家系统:深入研究AI的决策能力 想象一下,从医疗诊断到财务计划,都可以访问任何事情的专家建议。 这就是人工智能专家系统的力量。 这些系统模仿Pro

首先,很明显,这种情况正在迅速发生。各种公司都在谈论AI目前撰写的代码的比例,并且这些代码的比例正在迅速地增加。已经有很多工作流离失所

从数字营销到社交媒体的所有创意领域,电影业都站在技术十字路口。随着人工智能开始重塑视觉讲故事的各个方面并改变娱乐的景观

ISRO的免费AI/ML在线课程:通向地理空间技术创新的门户 印度太空研究组织(ISRO)通过其印度遥感研究所(IIR)为学生和专业人士提供了绝佳的机会

本地搜索算法:综合指南 规划大规模活动需要有效的工作量分布。 当传统方法失败时,本地搜索算法提供了强大的解决方案。 本文探讨了爬山和模拟

该版本包括三种不同的型号,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,标志着向大语言模型景观内的特定任务优化迈进。这些模型并未立即替换诸如

Chip Giant Nvidia周一表示,它将开始制造AI超级计算机(可以处理大量数据并运行复杂算法的机器),完全是在美国首次在美国境内。这一消息是在特朗普总统SI之后发布的


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

SublimeText3 英文版
推荐:为Win版本,支持代码提示!

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境