视觉语言模型（VLMS）的综合指南-人工智能-PHP中文网

首页

科技周边

人工智能

视觉语言模型（VLMS）的综合指南

William Shakespeare

Apr 12, 2025 am 11:58 AM

介绍

想象一下，穿过美术馆，周围是生动的绘画和雕塑。现在，如果您可以向每一部分提出一个问题并获得有意义的答案，该怎么办？您可能会问：“你在讲什么故事？”还是“艺术家为什么选择这种颜色？”这就是视觉语言模型（VLM）发挥作用的地方。这些模型，例如博物馆中的专家指南，可以解释图像，理解上下文，并使用人类语言传达这些信息。无论是在照片中识别对象，回答有关视觉内容的问题，甚至从描述中生成新图像，VLM都以曾经是不可能的方式融合视觉和语言的力量。

在本指南中，我们将探讨VLM的迷人世界，它们的工作方式，以及剪辑，帕拉马和佛罗伦萨等突破性模型，这些模型正在改变机器如何与周围的世界理解和互动。

本文基于最近的演讲，使Aritra Roy Gosthipaty和Ritwik Rahaona综合语言模型综合指南，在2024年Thedatahack Summit。

学习目标

了解视觉语言模型（VLM）的核心概念和功能。
探索VLM如何合并对象检测和图像分割等任务的视觉和语言数据。
了解关键VLM架构，例如剪辑，帕拉玛和佛罗伦萨及其应用。
获得对各种VLM家族的见解，包括预训练，掩盖和生成模型。
发现对比度学习如何增强VLM的性能以及微调如何提高模型的准确性。

什么是视觉语言模型？

视觉语言模型（VLMS）是指特定类别中的人工智能系统，该系统旨在处理视频，视频和文本作为输入。当我们结合这两种方式时，VLM可以执行涉及模型以在图像和文本之间绘制含义的任务；描述图像，根据图像回答问题，反之亦然。

VLM的核心强度在于它们能够弥合计算机视觉和NLP之间的差距。传统模型通常仅在这些领域之一中擅长 - 在图像中识别对象或理解人类语言。但是，VLM的专门设计用于结合这两种模式，通过学习通过语言镜头来解释图像，反之亦然，从而提供了对数据的更全面的理解，反之亦然。

视觉语言模型（VLMS）的综合指南

VLMS的体系结构通常涉及学习视觉和文本数据的联合表示，从而使模型可以执行跨模式任务。这些模型在包含图像对和相应文本描述的大型数据集上进行了预训练。在培训期间，VLMS了解图像中对象与描述它们的单词之间的关系，这使模型能够从图像中生成文本或在视觉数据的上下文中了解文本提示。

VLM可以处理的关键任务的示例包括：

视觉问题回答（VQA） ：回答有关图像内容的问题。
图像字幕：生成图像中看到的内容的文本描述。
对象检测和分割：识别和标记图像的不同对象或部分，通常具有文本上下文。

视觉语言模型（VLMS）的综合指南

视觉语言模型的功能

视觉语言模型（VLM）已经演变为通过集成视觉和文本信息来解决各种各样的复杂任务。它们通过利用图像和语言之间的固有关系来发挥作用，从而使几个领域的突破性能力能够发挥作用。

视觉加语言

VLM的基石是他们使用视觉和文本数据来理解和操作的能力。通过同时处理这两个流，VLM可以执行任务，例如为图像生成字幕，识别对象与其描述或将视觉信息与文本上下文相关联。这种跨模式的理解可以使更丰富，更连贯的输出使它们在现实世界应用程序中具有很高的用途。

对象检测

对象检测是VLM的重要能力。它允许模型在图像中识别和分类对象，从而将其视觉理解与语言标签扎根。通过结合语言理解，VLM不仅检测对象，还可以理解和描述其上下文。这不仅包括识别图像中的“狗”，还包括将其与其他场景元素相关联，从而使对象检测更具动态性和信息性。

视觉语言模型（VLMS）的综合指南

图像分割

VLMS通过执行图像分割来增强传统视觉模型，该模型根据其内容将图像分为有意义的片段或区域。在VLMS中，通过文本理解来增强此任务，这意味着模型可以分割特定对象并为每个部分提供上下文描述。这不仅仅是识别对象，因为该模型可以分解并描述图像的细粒结构。

嵌入

VLM中的另一个非常重要的原理是嵌入角色，因为它为视觉数据和文本数据之间的相互作用提供了共享的空间。这是因为通过关联图像和单词，该模型能够执行操作，例如查询给定文本的图像，反之亦然。这是由于VLM会产生非常有效的图像表示，因此它们可以帮助缩小交叉模态过程中视觉和语言之间的差距。

视觉问题回答（VQA）

在与VLMS合作的所有形式中，使用VQA给出了更复杂的形式之一，这意味着使用图像和与图像相关的问题表示VLM。 VLM在图像中采用了获得的图片解释，并在适当地回答查询时采用了自然语言处理理解。例如，如果给出了一个公园的图像，上面有以下问题：“图片中可以看到多少个长凳？”该模型能够解决计数问题并给出答案，这不仅展示了愿景，还展示了模型的推理。

视觉语言模型（VLMS）的综合指南

著名的VLM型号

已经出现了几种视觉语言模型（VLM），突破了跨模式学习的界限。每种模型都提供独特的功能，从而有助于更广泛的视觉研究领域。以下是一些最重要的VLM：

剪辑（对比性语言图像预训练）

剪辑是VLM空间中的开创性模型之一。它利用一种对比度学习方法通过学习将图像与相应的描述匹配来连接视觉和文本数据。该模型处理大规模数据集，这些数据集由与文本配对的图像组成，并通过优化图像及其文本对应物之间的相似性，同时区分不匹配对。这种对比方法允许剪辑处理各种任务，包括零拍，图像字幕，甚至视觉问题回答，而无需明确的特定任务培训。

视觉语言模型（VLMS）的综合指南

从这里阅读有关剪辑的更多信息。

llava（大语言和视觉助手）

LLAVA是一个复杂的模型，旨在使视觉和语言数据与复杂的多模式任务相吻合。它使用一种独特的方法将图像处理与大语言模型融合在一起，以增强其解释和响应与图像相关的查询的能力。通过利用文本和视觉表示，LLAVA在视觉问题回答，交互式图像生成和涉及图像的基于对话的任务中擅长。它与强大的语言模型的集成使其能够生成详细的描述并协助实时视觉互动。

视觉语言模型（VLMS）的综合指南

从这里读取有关llava的模式。

LAMDA（对话应用的语言模型）

尽管LAMDA主要是用语言讨论的，但也可以在视觉任务中使用。 LAMDA对于对话系统非常友好，并且与视觉模型相结合。它可以执行视觉问答，图像控制的对话和其他组合模态任务。 LAMDA是一种改进，因为它倾向于提供类似人类的和上下文相关的答案，这将使需要讨论视觉数据（例如自动图像或视频分析虚拟助手）的应用程序有益。

视觉语言模型（VLMS）的综合指南

从这里阅读有关LAMDA的更多信息。

佛罗伦萨

佛罗伦萨是另一种强大的VLM，它同时结合了视觉和语言数据，以执行各种跨模式任务。它在处理大型数据集时以其效率和可扩展性而闻名。该模型的设计用于快速训练和部署，使其在图像识别，对象检测和多模式理解方面表现出色。佛罗伦萨可以整合大量的视觉和文本数据。这使其在图像检索，字幕生成和基于图像的问题回答之类的任务中具有多功能性。

视觉语言模型（VLMS）的综合指南

从这里阅读有关佛罗伦萨的更多信息。

视觉语言模型家族

视觉语言模型（VLM）根据它们处理多模式数据的方式分为几个家庭。这些包括预训练的模型，掩盖模型，生成模型和对比度学习模型。每个家庭都利用不同的技术来调整视觉和语言方式，使其适合各种任务。

视觉语言模型（VLMS）的综合指南

预训练的模型家族

预训练的模型建立在配对视觉和语言数据的大型数据集上。这些模型经过一般任务的培训，可以每次不需要大量数据集对特定应用程序进行微调。

视觉语言模型（VLMS）的综合指南

它如何工作

预先训练的模型系列使用大量图像和文本数据集。该模型经过训练，可以识别图像并与文本标签或描述相匹配。在经过广泛的预训练之后，可以对模型进行微调，以用于图像字幕或视觉问题的特定任务。预训练的模型之所以有效，是因为它们最初是对丰富数据的培训，然后在较小的特定领域进行了微调。这种方法导致各种任务的绩效改进。

蒙面模型家族

蒙面模型使用掩蔽技术来训练VLM。这些模型随机掩盖了输入图像或文本的部分，并要求模型预测掩盖的内容，从而迫使其学习更深的上下文关系。

视觉语言模型（VLMS）的综合指南

它的工作原理（图像掩蔽）

掩盖图像模型通过隐藏输入图像的随机区域来运行。然后，该模型的任务是预测缺失的像素。这种方法迫使VLM专注于周围的视觉上下文以重建图像。结果，该模型对本地和全局视觉特征有更深入的了解。图像掩蔽有助于模型对图像中的空间关系有牢固的理解。这种改善的理解增强了对象检测和细分等任务的性能。

它的工作原理（文本掩蔽）

在蒙版的语言建模中，输入文本的一部分被隐藏了。该模型的任务是预测缺失的令牌。这鼓励VLM了解复杂的语言结构和关系。蒙面文本模型对于掌握细微的语言特征至关重要。它们在图像字幕和视觉问题回答等任务上增强了模型的性能，其中了解视觉和文本数据至关重要。

生成家庭

生成模型涉及新数据的生成，其中包括图像或文本图像中的文本。这些模型在文本中特别应用于图像和图像，涉及从输入模式中综合新输出的文本生成。

视觉语言模型（VLMS）的综合指南

文本到图像生成

使用文本对图像生成器时，输入模型为文本，输出是结果图像。此任务在非常取决于与单词和图像特征的语义编码有关的概念。该模型分析文本的语义含义以产生忠诚模型，该模型与给出的输入相对应。

图像到文本生成

在图像到文本生成中，该模型将图像作为输入并产生文本输出，例如字幕。首先，它分析图像的视觉内容。接下来，它标识对象，场景和动作。然后，该模型将这些元素转录为文本。这些生成模型可用于自动标题生成，场景描述和创建视频场景的故事。

对比度学习

包括剪辑在内的对比模型通过训练匹配和非匹配图像文本对来识别它们。这迫使模型将图像映射到其描述中，同时净化错误的映射，从而使视觉对应对应语言。

视觉语言模型（VLMS）的综合指南

它如何工作？

对比学习将图像及其正确的描述映射到相同的视觉语义语义空间中。它还增加了视觉语义有毒样品之间的差异。此过程有助于模型了解图像及其相关文本。它可用于跨模式任务，例如图像检索，零拍和视觉问题回答。

剪辑（对比性语言图像训练）

剪辑或对比度的语言图像预处理，是Openai开发的模型。它是视觉语言模型（VLM）字段中的主要模型之一。剪辑将图像和文本处理为输入。该模型在图像文本数据集上进行了训练。它使用对比度学习将图像与其文本描述匹配。同时，它区分了无关的图像文本对。

剪辑如何工作

剪辑使用双重编码架构：一个用于图像，另一个用于文本。核心思想是将图像及其相应的文本描述同时嵌入到相同的高维矢量空间中，从而使模型可以比较和对比不同的图像文本对。

视觉语言模型（VLMS）的综合指南

剪辑功能的关键步骤

图像编码：与剪辑模型一样，此模型还使用称为VIT的视觉变压器编码图像。
文本编码：同时，该模型也通过基于变压器的文本编码来编码相应的文本。
对比学习：然后比较编码图像和文本之间的相似性，以便可以相应地给出结果。它最大化图像属于与描述同一类的成对上的相似性，同时将其最小化在对并非如此的成对上最小化。
跨模式对准：权衡产生的模型在任务中非常出色，该模型涉及视觉与零镜头学习，图像检索甚至倒数图像合成之类的语言的匹配。

剪辑的应用

图像检索：给定描述，剪辑可以找到与之匹配的图像。
零射击分类：剪辑可以对图像进行分类，而无需针对特定类别的任何其他培训数据。
视觉问题回答：剪辑可以理解有关视觉内容的问题并提供答案。

代码示例：带剪辑的图像到文本

下面是用于使用剪辑执行图像到文本任务的示例代码段。此示例演示了剪辑如何编码图像和一组文本描述，并计算每个文本与图像匹配的概率。

导入火炬
导入剪辑
从PIL导入图像

＃检查GPU是否可用，否则请使用CPU
设备=“ cuda”如果torch.cuda.is_available（）else“ cpu”

＃加载预训练的剪辑模型和预处理功能
模型，预处理= clip.load（“ vit-b/32”，设备=设备）

＃加载和预处理图像
image = preprocess（image.open（“ clip.png”）。

＃定义与图像进行比较的文本描述集
text = clip.tokenize（[“图表”，“狗”，“猫”]）。到（设备）

＃执行推理以编码图像和文本
使用Torch.no_grad（）：
    image_features = model.encode_image（图像）
    text_features = model.encode_text（text）

    ＃计算图像和文本功能之间的相似性
    logits_per_image，logits_per_text =模型（图像，文本）

    ＃应用SoftMax以获取与图像匹配的每个标签的概率
    probs = logits_per_image.softmax（dim = -1）.cpu（）。numpy（）

＃输出概率
打印（“标签概率：”，概率）

siglip（暹罗语言图像预处理）

暹罗语言图像预处理是由Google开发的高级模型，它基于诸如剪辑之类的模型的功能。 Siglip通过利用改进的建筑和预训练技术利用对比度学习的优势来增强图像分类任务。它旨在提高零拍图像分类的效率和准确性。

siglip的工作原理

Siglip利用了暹罗网络体系结构，涉及两个平行网络，这些网络共享权重，并经过训练以区分相似和不同的图像文本对。该体系结构允许Siglip有效地学习图像和文本的高质量表示。该模型已在图像的各种数据集和相应的文本描述中进行了预训练，从而使其能够概括为各种看不见的任务。

视觉语言模型（VLMS）的综合指南

Siglip功能的关键步骤

暹罗网络：该模型采用两个相同的神经网络，它们分别处理图像和文本输入，但共享相同的参数。此设置允许有效比较图像和文本表示。
对比学习：与剪辑类似，Siglip使用对比度学习来最大化匹配的图像文本对之间的相似性，并将其最小化以使其对不匹配对。
对不同数据进行预处理：Siglip在大型且多样化的数据集中进行了预训练，从而增强了其在零拍摄方案中表现良好的能力，在该方案中，它在任务上进行了测试，而无需进行任何其他微调。

Siglip的应用

零拍摄图像分类：Siglip在将图像分类为类别中脱颖而出，尚未通过利用其广泛的预处理来明确训练。
视觉搜索和检索：它可用于根据文本查询检索图像或根据描述性文本对图像进行分类。
基于内容的图像标签：Siglip可以自动为图像生成描述性标签，从而使其对内容管理和组织有用。

代码示例：带有siglip的零拍图像分类

下面是一个示例代码段，演示了如何使用siglip进行零拍图像分类。该示例显示了如何使用变形金刚库将图像分类为候选标签。

从变形金刚进口管道
从PIL导入图像
导入请求

＃加载预先训练的siglip模型
image_classifier = pipeline（task =“ Zero-Shot-image-classification”，Model =“ Google/siglip-base-patch16-224”）

＃从URL加载图像
url ='http://images.cocodataset.org/val2017/000000039769.jpg'
image = image.open（requests.get（url，stream = true）.raw）

＃定义分类的候选标签
cantixed_labels = [“ 2个猫”，“飞机”，“遥控”]

＃执行零拍图像分类
outputs = image_classifier（image，cantidate_labels = cantifate_labels）

＃格式并打印结果
formatted_outputs = [{“ score”：ounder（output [“ score”]，4），“ label”：output [label']}用于输出中的输出]
打印（formatted_outputs）

从这里阅读有关Siglip的更多信息。

培训视觉语言模型（VLM）

培训视觉语言模型（VLM）涉及几个关键阶段：

视觉语言模型（VLMS）的综合指南

数据收集：收集配对图像和文本的大型数据集，以确保多样性和质量有效地训练模型。
预处理：使用变压器体系结构，VLM在大量图像文本数据上进行了预测。该模型学会通过自我监督的学习任务来编码视觉和文本信息，例如预测图像或文本的掩盖部分。
微调：使用较小的任务数据集对特定任务进行了微调。这有助于模型适应特定的应用程序，例如图像分类或文本生成。
生成培训：对于生成的VLM，培训涉及学习生成新样本，例如基于学习的表示形式从图像或图像中生成文本。
对比学习：该技术通过最大程度地提高正面对的相似性并将其最大程度地减少负面对，从而提高了模型区分相似数据和不同数据的能力。

了解乡亲

Paligemma是一种视觉语言模型（VLM），旨在通过结构化的多阶段训练方法来增强图像和文本理解。它集成了Siglip和Gemma的组件，以实现高级多模式功能。这是基于成绩单和提供的数据的详细概述：

它如何工作

输入：模型同时采用文本和图像输入。文本输入是通过线性投影和令牌串联处理的，而图像是由模型的视觉组成部分编码的。
Siglip ：此组件利用视觉变压器（VIT-SQ400M）体系结构进行图像处理。它将视觉数据映射到具有文本数据的共享特征空间中。
Gemma解码器：Gemma解码器结合了文本和图像的功能以生成输出。该解码器对于整合多模式数据并产生有意义的结果至关重要。

视觉语言模型（VLMS）的综合指南

pal的训练阶段

现在让我们研究以下pal的训练阶段：

视觉语言模型（VLMS）的综合指南

单峰训练：
- Siglip（VIT-SQ400M） ：仅在图像上训练以构建强大的视觉表示。
- Gemma-2B ：单独使用文本训练，专注于生成强大的文本嵌入。
多模式训练：
- 224PX，IB示例：在此阶段，模型学习以224px分辨率处理图像文本对，使用输入示例（IB）来完善其多模式的理解。
分辨率增加：
- 4480X＆896PX ：增加图像和文本数据的分辨率，以提高模型处理更高细节和更复杂的多模式任务的能力。
转移：
- 分辨率，时期，学习率：调整关键参数，例如分辨率，培训时期的数量以及学习率，以优化性能并将学习的功能转移到新任务中。

从这里阅读有关paligemma的更多信息。

结论

本视觉语言模型（VLM）指南强调了它们对将视觉和语言技术结合的革命性影响。我们探索了必不可少的功能，例如对象检测和图像分割，著名模型，例如剪辑和各种培训方法。 VLM通过无缝集成视觉和文本数据来推进AI，为将来更直观和高级应用程序奠定了基础。

常见问题

Q1。什么是视觉语言模型（VLM）？

答：视觉语言模型（VLM）集成了视觉和文本数据，以了解和生成图像和文本的信息。它还启用了图像字幕和视觉问题回答之类的任务。

Q2。剪辑如何工作？

A.剪辑使用对比度学习方法来对齐图像和文本表示。允许它有效地匹配图像与文本说明。

Q3。 VLM的主要功能是什么？

A. VLMS在对象检测，图像分割，嵌入和视觉问题的回答中表现出色，结合了视觉和语言处理以执行复杂的任务。

Q4。 VLM中微调的目的是什么？

答：微调将预先训练的VLM适应特定任务或数据集，从而提高了其特定应用程序的性能和准确性。

以上是视觉语言模型（VLMS）的综合指南的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

如何使用代理抹布构建智能常见问题解答聊天机器人May 07, 2025 am 11:28 AM

人工智能代理人现在是企业大小的一部分。从医院的填写表格到检查法律文件到分析录像带和处理客户支持 - 我们拥有各种任务的AI代理。伴侣

从恐慌到权力：领导者在AI时代必须学到什么May 07, 2025 am 11:26 AM

生活是美好的。也可以预见的是，您的分析思维更喜欢它的方式。您今天只开会进入办公室，完成一些最后一刻的文书工作。之后，您要带您的伴侣和孩子们度过当之无愧的假期去阳光

为什么预测AGI将超过AI专家的科学共识的原因为什么May 07, 2025 am 11:24 AM

但是，科学共识具有打ic和陷阱，也许是通过使用融合的实验，也称为合奏，也许是一种更谨慎的方法。让我们来谈谈。对创新AI突破的这种分析是我的一部分

工作室吉卜力的困境 - 生成AI时代的版权May 07, 2025 am 11:19 AM

Openai和Studio Ghibli都没有回应此故事的评论请求。但是他们的沉默反映了创造性经济中更广泛，更复杂的紧张局势：版权在生成AI时代应该如何运作？使用类似的工具

mulesoft为镀锌代理AI连接制定混合May 07, 2025 am 11:18 AM

混凝土和软件都可以在需要的情况下镀锌以良好的性能。两者都可以接受压力测试，两者都可以随着时间的流逝而遭受裂缝和裂缝，两者都可以分解并重构为“新建”，两种功能的产生

据报道，Openai达成了30亿美元的交易来购买WindsurfMay 07, 2025 am 11:16 AM

但是，许多报告都在非常表面的水平上停止。如果您想弄清楚帆冲浪的全部内容，您可能会或可能不会从显示在Google搜索引擎顶部出现的联合内容中得到想要的东西

对所有美国孩子的强制性AI教育？ 250多个首席执行官说是May 07, 2025 am 11:15 AM

关键事实签署公开信的领导者包括Adobe，Accenture，AMD，American Airlines，Blue Origin，Cognizant，Dell，Dellbox，IBM，LinkedIn，Lyftin，Lyft，Microsoft，Microsoft，Salesforce，Uber，Uber，Yahoo和Zoom）等高调公司的首席执行官。