首页  >  文章  >  科技周边  >  为何GPT-4P容易受到多模态提示注入图像攻击?

为何GPT-4P容易受到多模态提示注入图像攻击?

WBOY
WBOY转载
2023-10-30 15:21:171333浏览

OpenAI新的GPT-4V版本支持图像上传后,带来了一条全新的攻击途径,使大型语言模型(LLM)容易受到多模态注入图像攻击。攻击者可以在图像中嵌入命令、恶意脚本和代码,随后模型会遵从行事。

多模态提示注入图像攻击可以泄露数据、重定向查询、生成错误信息,并执行更复杂的脚本以重新定义LLM如何解释数据。它们可以改变LLM的用途,使其忽略之前设置的安全护栏,执行可能危及企业组织的命令,从而构成从欺诈到操作破坏的各种威胁。

所有使用LLM作为工作流程一部分的企业都面临着困境,但那些将LLM用作其业务核心,用于图像分析和分类的企业面临着最大的风险。攻击者利用各种技术可以迅速改变图像的解释和分类方式,从而导致更加混乱的结果

当LLM的提示被覆盖时,恶意命令和执行脚本更容易被忽视。攻击者可以通过在上传到LLM的一系列图像中嵌入命令,来进行欺诈和操作破坏,并且还可以促进社会工程攻击

图像是LLM无法防御的攻击途径

由于LLM在其处理过程中没有进行数据清理的步骤,所以每个图像都是不可靠的。就像在没有对每个数据集、应用程序或资源进行访问控制的情况下,让身份在网络上自由漫游是非常危险的,上传到LLM中的图像同样存在危险

企业拥有私有LLM的情况下,必须将最小特权访问作为核心网络安全策略采用

Simon Willison最近在一篇博文中详细解释了GPT-4V为什么成为了提示注入攻击的主要途径,并指出LLM在根本上很容易受骗。博文链接:https://simonwillison.net/2023/Oct/14/multi-modal-prompt-injection/

Willison展示了如何通过提示注入来劫持自主人工智能代理,例如Auto-GPT。他详细解释了一个简单的视觉提示注入示例,从在单个图像中嵌入命令开始,逐渐发展成一个可视化提示注入渗透攻击

英国BDO公司的数据分析和人工智能高级经理Paul Ekwere表示:“注入攻击对LLM的安全性和可靠性构成了严重威胁,特别是对处理图像或视频的基于视觉的模型。这些模型广泛应用于人脸识别、自动驾驶、医疗诊断和监控等领域。”

OpenAI目前还没有针对多模态提示注入图像攻击的解决方案,用户和企业只能依靠自己。英伟达开发者网站上的一篇博文(https://developer.nvidia.com/blog/mitigating-stored-prompt-injection-attacks-against-llm-applications/)提供了一些建议,包括对所有数据存储和系统强制执行最小权限访问

多模态提示注入图像攻击的工作原理

多模态提示注入攻击利用了GPT-4V处理视觉图像方面的漏洞,以执行未被检测到的恶意命令,GPT-4V依靠视觉转换编码器将图像转换成潜在空间表示,图像和文本数据被结合起来以生成响应。

模型没有在编码之前对视觉输入进行清洗的方法。攻击者可以嵌入任意数量的命令,GPT-4会认为它们是合法的命令。自动对私有LLM进行多模态提示注入攻击的攻击者不会被注意到。

遏制注入图像攻击

令人不安的是,图像这条未受防护的攻击途径的问题在于,攻击者可能会使LLM训练的数据随着时间的推移变得不那么可信,数据保真度也会渐渐降低。

最近的一篇研究论文(https://arxiv.org/pdf/2306.05499.pdf)提供了有关如何更好地保护LLM免受提示注入攻击的指导方针。为了确定风险程度和潜在解决方案,研究人员组进行了一系列实验,旨在评估注入攻击对整合LLM的应用程序的有效性。研究小组发现,31个整合LLM的应用程序容易受到注入攻击的影响

该研究论文就遏制注入图像攻击提出了以下建议:

改善用户输入的清洁度和验证程序

对于在私有LLM方面奉行标准化的企业来说,身份访问管理(IAM)和最小特权访问是基本配置。LLM提供商需要考虑在传递图像数据进行处理之前先进行更全面的清洁

需要进行改写的内容是:2. 对于平台架构进行改进,将用户输入和系统逻辑进行分离

目的应该是消除用户输入直接影响LLM代码和数据的风险。任何图像提示都需要加以处理,以免影响内部逻辑或工作流程。

使用多阶段处理工作流程来识别恶意攻击

我们可以建立一个多阶段流程,以尽早捕获基于图像的攻击,从而更好地管理这种威胁

4. 定制防止越狱的防御提示

越狱是一种常见的提示工程技术,用于误导LLM执行非法行为,将提示附加到看起来恶意的图像输入中有助于保护LLM。然而研究人员警告说,高级攻击仍然可以绕过这种方法。

一种势头迅猛的威胁

随着越来越多的LLM转变为多模态模型,图像成为攻击者可以依赖的最新威胁途径,用于绕过和重新定义防护措施。基于图像的攻击的严重程度各不相同,有些是简单的命令,有些则是更复杂的攻击场景(旨在造成工业破坏和传播广泛的错误信息)

本文来源于:https://venturebeat.com/security/why-gpt-4-is-vulnerable-to-multimodal-prompt-injection-image-attacks/。如需转载,请注明出处

以上是为何GPT-4P容易受到多模态提示注入图像攻击?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文转载于:51cto.com。如有侵权,请联系admin@php.cn删除