首页 >科技周边 >人工智能 >博士意外发现秘密：DALL-E 2自创语言，人看不懂但能生成特定图像，可能会被用来搞事！

博士意外发现秘密：DALL-E 2自创语言，人看不懂但能生成特定图像，可能会被用来搞事！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB转载: 2023-04-08 22:01:131565浏览

DALL·E 2，这个AI竟然自己搞了一套秘密语言。

例如这两个非常奇怪的词组：

Apoploe vesrreaitais（下文简称A）
Contarra ccetnxniams luryca tanniounons（下文简称C）

（翻译软件都会崩溃，可以去试试）

但到了DALL·E 2这里，画风却截然不同。

在它看来，A就是“鸟类”的意思，而C则是“害虫”之意。

于是乎，如果给DALL·E 2喂上一句：A eat C，那么它的打开方式就会这样：

清一色产出的图片，都是鸟吃害虫相关。

而且你要是跟DALL·E 2说，生成“两只鲸鱼讨论食物，带字幕”，结果会是这样：

图里的“Wa ch zod rea”，在DALL·E 2的词库里竟然是“食物”的意思！

此事一经曝光，瞬间引发了众多网友的热议。

甚至还有人提出，有了这些秘密语言，可以绕开DALL·E 2的“违禁词过滤器”，从而生成一些有争议的图像了。

（搞事情！）

所以，关于DALL·E 2的秘密咒语，到底是怎么一回事？

一次意外的发现

发现这个问题的是国外一名计算机专业的博士生。

他注意到DALL-E 2模型在遇到需要给出带文字的图像时，总是会出现一些奇怪的单词。

比如输入这句：“两个农民谈论蔬菜，带字幕（Two farmers talking about vegetables, with subtitles）”，就出来这样一张图像：

像是挺像的，不过这字幕写的啥啊，不是英语又不是法语的，太奇怪了。

“你给我翻译翻译什么这是？”

灵机一动的小哥把其中一个“单词”“Vicootes”当作描述丢给模型，没想到，出来这样一堆图像：

有萝卜、有南瓜、有小柿子……难道“Vicootes”就代表蔬菜？

有意思。

接着他又把气泡中的那一串“Apoploe vesrreaitais”扔给DALL-E 2，一堆鸟图出现了：

“哦我明白了，这个单词代表‘鸟’，所以农民们似乎在谈论影响他们蔬菜的鸟类？”

看来DALL-E 2没有糊弄人……

“我发现了DALL-E 2的秘密语言！”小哥惊呼，继而打算再验证一下这是不是偶然。

还是刚才提到的鲸鱼讨论食物的例子中，小哥把那串“Wa ch zod rea”再输回去。

结果还真出来一堆吃的，而且还全是海鲜，符合鲸鱼们的“食性”。

DALL-E 2，真·诚不我欺。

更进一步，他用这些“咒语”搭配形容图像风格的词，看看DALL-E 2是否能正常解析。

结果也都没问题。看看这些“手绘鸟“、“卡通鸟”、“3D鸟”以及“线稿鸟”：

emmmm，最后一张怎么混进来个蚊子？

先不管它了（一会再说）。

所以这个模型为什么要用这种秘密语言来表示呢？

为什么会这样？

“DALL-E 2秘密咒语”话题之热，也引来了众多“解析侠”们的关注。

例如一位叫k1uge的网友便提出，问题出在了BPE（Byte Pair Encoding）身上。

BPE是自然语言语言处理中较为重要的编码方式之一，也是一种常见的token压缩方法，在很多大语言模型中都会涉及。

它的核心思路就是：

每一步都将最常见的一对相邻数据单位，替换为该数据中没有出现过的一个新单位，反复迭代直到满足停止条件。

举个例子。

如果要压缩“aaabdaaabac”这个单词，BPE就会先找出最常见的相邻字节对，即“aa”。

找到它之后，就可以用新的字节Z去代替，那么这个单词就变成了“ZabdZabac”。

同理，下一个最常见相邻字节对是“ab”，用Y来代替，单词会进一步被压缩成“ZYdZYac”。

再下一个最常见相邻字节对是“ZY”，用X来替代，最后单词就变成了“XdXac”。

……

于是，基于这样的原理，这位网友查了下DALL-E 2针对“鸟类”所用的BPE。

它是这样的：

apo<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> plo<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> e<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> <span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span>ve<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> sr<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> re<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> ait<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> ais

而现实中很多鸟类的拉丁文学名，就有“apo”和“plo”的前缀。

例如Apodidae（雨燕）和Ploceidae（织布鸟），这两个单词属于鸟类的2种鸟科，每个科都有100余种。

像Apodiformes（雨燕目）是鸟类中最大的目，共有400余种。

于是这位网友便认为，DALL-E 2是从标有这些“学术用语”标签的图片中，获取到了关于鸟类的大部分信息。