ホームページ  >  記事  >  テクノロジー周辺機器  >  ゲイリー・マーカス: テキストで生成された画像システムは世界を理解できず、AGI とは程遠い

ゲイリー・マーカス: テキストで生成された画像システムは世界を理解できず、AGI とは程遠い

WBOY
WBOY転載
2023-04-09 09:31:031336ブラウズ

この記事は Lei Feng.com から転載されたものです。転載する必要がある場合は、Lei Feng.com の公式 Web サイトにアクセスして許可を申請してください。

DALL-E 2 の出現以来、多くの人は、リアルな画像を描画できる AI が汎用人工知能 (AGI) への大きな一歩であると信じてきました。 OpenAI CEO のサム アルトマン氏は、DALL-E 2 がリリースされたときに「AGI は猛威を振るうだろう」とかつて宣言しましたが、メディアも一般知能の進歩に対するこれらのシステムの重要性を誇張しています。

しかし、本当にそうなのでしょうか? AIに冷や水を浴びせている著名なAI学者であり愛好家でもあるゲイリー・マーカス氏は、「留保」を表明した。

最近、彼は、AGI の進歩を評価する際には、Dall-E、Imagen、Midjourney、Stable Diffusion などのシステムが本当に世界を理解し、その知識に基づいて推論できるかどうかを確認することが重要であると示唆しました。そして決断を下します。

AI (狭い AI と広い AI を含む) にとってこれらのシステムの重要性を判断する場合、次の 3 つの質問をすることができます。

画像合成システムは高い性能を生成できるか高品質の画像?

彼らは言語入力を自分たちが生成する画像に関連付けることができますか?

彼らは自分たちが提示する画像の背後にある世界を理解していますか?

1 AI は言語と画像の関係を理解し​​ていません

最初の質問の答えは「はい」です。唯一の違いは、訓練を受けた人間のアーティストの方が、AI を使用して画像を生成する際に優れた仕事ができるということです。

2 番目の質問については、答えは必ずしも確実ではありません。これらのシステムは、特定の言語入力では良好に動作します。たとえば、次の図は、DALL-E 2 によって生成された「馬に乗った宇宙飛行士」です。一部の言語入力では、これらの AI のパフォーマンスは低く、簡単にだまされます。たとえば、マーカスは少し前に Twitter で、これらのシステムは「宇宙飛行士に乗った馬」に直面したときに、対応する正確な画像を生成するのが難しいと指摘しました。ディープラーニング支持者らはこれに激しく反論しており、AI研究者のジョシャ・バッハ氏は「Imagenは間違ったトレーニングセットを使用しているだけかもしれない」と考えており、機械学習教授のルカ・アンブロジョーニ氏はこれは「Imagenがすでにある程度の常識を持っている」ことを示していると反論している。だから、ばかげたものを生み出すことを拒否してください。

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

Google の科学者である Behnam Neyshabur は、「適切な方法で質問された場合」Imagen は「宇宙飛行士に乗った馬」を描くことができると提案しました。

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

しかし、マーカス氏は、問題の鍵はシステムが画像を生成できるかどうかではないと考えています。賢い人なら、システムに特定の画像を描画させる方法をいつでも見つけることができますが、これらのシステムは肝心な言語とイメージの関係については深い理解がありません。

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远2 自転車の車輪が何なのか知りませんか?どうしてそれをAGIと呼ぶことができるのでしょうか?

システムによる言語理解は 1 つの側面にすぎません。最も重要なことは、DALL-E などのシステムの AGI への貢献を判断するかどうかは、最終的には 3 番目の質問、つまりすべてのシステムが理解できるかどうかによって決まることだとマーカス氏は指摘しました。多くの文章を、偶然ではあるが驚くべき方法で画像に変換することで、人間の芸術に革命を起こす可能性がありますが、依然として AGI と完全には比較できず、AGI をまったく表していません。

これらのシステムが世界を理解する能力についてマーカス氏を絶望させているのは、グラフィック デザイナーのイリーナ ブロックが Imagen を使用して生成した「穴の多いコーヒー カップ」画像などの最近の例です。 Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远


この写真を見たら、普通の人は常識に反すると思うでしょうが、穴からコーヒーが漏れないわけがありません。同様のものには次のようなものがあります:


「四角い車輪の自転車」

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

ゲイリー マーカス: テキストで生成された画像システムは世界を理解できず、AGI からは程遠いです。

「サボテンの棘で覆われたトイレット ペーパー」

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

Gary Marcus: テキスト生成画像システムは世界を理解できず、AGI にはまだ程遠いです

「はい」と言うのは簡単ですが、言うのは難しいです「ノー」って言って、誰が存在しないものがどのように見えるか知っていますか? AIに不可能を描画させる難しさはここにあります。

しかし、おそらく、システムは超現実的な画像を描画することを「望んでいた」だけです。ディープマインド研究教授のマイケル・ブロンスタイン氏は、これが悪い結果だとは考えていませんでした。このように描きます。

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

#では、最終的にこの問題を解決するにはどうすればよいでしょうか?ゲイリー・マーカスは、哲学者デイブ・チャーマーズとの最近の会話で新たなインスピレーションを得ました。

システムの部分と全体、および機能の理解を理解するために、Gary Marcus は、システムのパフォーマンスが正しいかどうかをより明確に把握するためのタスクを提案しました。「スケッチ」というテキスト プロンプトを表示します。 「自転車をスケッチし、地面を転がる部分にラベルを付けます」および「はしごをスケッチし、立っている部分の 1 つにラベルを付けます」のパート)。

このテストの特別な点は、「自転車を描いて車輪に印を付ける」や「はしごを描いてペダルに印を付ける」などのプロンプトを直接与えるのではなく、AI に対応するものを推測させることです。 「地面を転がる部分」や「立っている部分」などの説明から物事を理解することは、AI が世界を理解する能力をテストするものです。

しかし、Marcus のテスト結果によると、Craiyon (以前は DALL-E mini として知られていました) はこの種のことが苦手で、自転車の車輪やはしごのペダルが何であるかを理解していません:


Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

#ということは、これは DALL-E Mini 特有の問題なのでしょうか?


Gary Marcus は、そうではないことを発見しました。同じ結果が、現在最も人気のあるテキスト生成画像システムである安定拡散でも現れました。

たとえば、安定拡散を「人物をスケッチし、物を保持している部分を紫色にします」 (人物をスケッチし、物を保持している部分を紫色にします) とすると、結果は次のようになります:


Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

明らかに、安定拡散は人間の手とは何なのかを理解していません。


そして、次の 9 回の試行のうち、成功したのは 1 回だけ (右上隅) で、精度は高くありませんでした。


Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

次のテストは、「白い自転車を描き、足で押す部分をオレンジ色に変える」です。結果の画像は次のとおりです:


Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

つまり、自転車のペダルが何であるかを理解できません。

そして、「自転車のスケッチを描き、地面を転がる部分にマークを付ける」というテストでは、そのパフォーマンスはあまり良くありませんでした。

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

#テキスト プロンプトに「車輪のない白い自転車を描いてください」などの否定的な単語が含まれている場合、結果は次のようになります。


Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

これは、システムが負の論理関係を理解し​​ていないことを示します。


複雑な構文や関数を持たず、部分と全体の関係にのみ注目し、「緑色の車輪が付いた白い自転車を描く」という単純なものであっても、結果は変わりません。 :


Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

#それでマーカスは、車輪が何であるか、あるいは車輪が何に使われるのかを理解していないシステムがどうして主要なものとみなされるのかと尋ねました。人工知能の進歩?


本日、Gary Marcus もこの問題に関する世論調査を実施し、「Dall-E や Stable Diffusion などのシステムは、それらが描く世界についてどの程度知っていますか?」という質問をしました。


そのうち、86.1% の人がシステムは世界をよく理解していないと考えており、これらのシステムが世界を高度に理解していると考えている人は 13.9% のみです。


Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远 それに応じて、Stability.AI の CEO、エマド モスティーク氏も、私が「あまり多くない」と投票したと答え、「それらは単なるパズルのピースです。 「そのほんの一部です。」


Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远 科学団体ニュー サイエンスのアレクセイ グゼイもマーカスと同様の発見をしました。彼はダルイーに絵を描くように頼みました。 bike ですが、その結果は、単なる自転車の要素が積み重なっただけです。


Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远#したがって、彼は、自転車とは何か、それがどのように機能するかを真に理解できるモデルは存在せず、現在の ML モデルの生成はほぼ匹敵するか、代替できると考えています。人間、人間は愚かだ。 #########どう思いますか?

以上がゲイリー・マーカス: テキストで生成された画像システムは世界を理解できず、AGI とは程遠いの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。