ホームページ >テクノロジー周辺機器 >AI >ゲイリー・マーカス: テキストで生成された画像システムは世界を理解できず、AGI とは程遠い

ゲイリー・マーカス: テキストで生成された画像システムは世界を理解できず、AGI とは程遠い

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-04-09 09:31:031482ブラウズ

この記事は Lei Feng.com から転載されたものです。転載する必要がある場合は、Lei Feng.com の公式 Web サイトにアクセスして許可を申請してください。

DALL-E 2 の出現以来、多くの人は、リアルな画像を描画できる AI が汎用人工知能 (AGI) への大きな一歩であると信じてきました。 OpenAI CEO のサムアルトマン氏は、DALL-E 2 がリリースされたときに「AGI は猛威を振るうだろう」とかつて宣言しましたが、メディアも一般知能の進歩に対するこれらのシステムの重要性を誇張しています。

しかし、本当にそうなのでしょうか？ AIに冷や水を浴びせている著名なAI学者であり愛好家でもあるゲイリー・マーカス氏は、「留保」を表明した。

最近、彼は、AGI の進歩を評価する際には、Dall-E、Imagen、Midjourney、Stable Diffusion などのシステムが本当に世界を理解し、その知識に基づいて推論できるかどうかを確認することが重要であると示唆しました。そして決断を下します。

AI (狭い AI と広い AI を含む) にとってこれらのシステムの重要性を判断する場合、次の 3 つの質問をすることができます。

画像合成システムは高い性能を生成できるか高品質の画像?

彼らは言語入力を自分たちが生成する画像に関連付けることができますか?

彼らは自分たちが提示する画像の背後にある世界を理解していますか?

1 AI は言語と画像の関係を理解していません

最初の質問の答えは「はい」です。唯一の違いは、訓練を受けた人間のアーティストの方が、AI を使用して画像を生成する際に優れた仕事ができるということです。

2 番目の質問については、答えは必ずしも確実ではありません。これらのシステムは、特定の言語入力では良好に動作します。たとえば、次の図は、DALL-E 2 によって生成された「馬に乗った宇宙飛行士」です。一部の言語入力では、これらの AI のパフォーマンスは低く、簡単にだまされます。たとえば、マーカスは少し前に Twitter で、これらのシステムは「宇宙飛行士に乗った馬」に直面したときに、対応する正確な画像を生成するのが難しいと指摘しました。ディープラーニング支持者らはこれに激しく反論しており、AI研究者のジョシャ・バッハ氏は「Imagenは間違ったトレーニングセットを使用しているだけかもしれない」と考えており、機械学習教授のルカ・アンブロジョーニ氏はこれは「Imagenがすでにある程度の常識を持っている」ことを示していると反論している。だから、ばかげたものを生み出すことを拒否してください。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Google の科学者である Behnam Neyshabur は、「適切な方法で質問された場合」Imagen は「宇宙飛行士に乗った馬」を描くことができると提案しました。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

しかし、マーカス氏は、問題の鍵はシステムが画像を生成できるかどうかではないと考えています。賢い人なら、システムに特定の画像を描画させる方法をいつでも見つけることができますが、これらのシステムは肝心な言語とイメージの関係については深い理解がありません。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远 2 自転車の車輪が何なのか知りませんか?どうしてそれをAGIと呼ぶことができるのでしょうか？

システムによる言語理解は 1 つの側面にすぎません。最も重要なことは、DALL-E などのシステムの AGI への貢献を判断するかどうかは、最終的には 3 番目の質問、つまりすべてのシステムが理解できるかどうかによって決まることだとマーカス氏は指摘しました。多くの文章を、偶然ではあるが驚くべき方法で画像に変換することで、人間の芸術に革命を起こす可能性がありますが、依然として AGI と完全には比較できず、AGI をまったく表していません。

これらのシステムが世界を理解する能力についてマーカス氏を絶望させているのは、グラフィックデザイナーのイリーナブロックが Imagen を使用して生成した「穴の多いコーヒーカップ」画像などの最近の例です。 Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

この写真を見たら、普通の人は常識に反すると思うでしょうが、穴からコーヒーが漏れないわけがありません。同様のものには次のようなものがあります:

「四角い車輪の自転車」

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

ゲイリーマーカス: テキストで生成された画像システムは世界を理解できず、AGI からは程遠いです。

「サボテンの棘で覆われたトイレットペーパー」

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Gary Marcus: テキスト生成画像システムは世界を理解できず、AGI にはまだ程遠いです

「はい」と言うのは簡単ですが、言うのは難しいです「ノー」って言って、誰が存在しないものがどのように見えるか知っていますか？ AIに不可能を描画させる難しさはここにあります。

しかし、おそらく、システムは超現実的な画像を描画することを「望んでいた」だけです。ディープマインド研究教授のマイケル・ブロンスタイン氏は、これが悪い結果だとは考えていませんでした。このように描きます。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

#では、最終的にこの問題を解決するにはどうすればよいでしょうか?ゲイリー・マーカスは、哲学者デイブ・チャーマーズとの最近の会話で新たなインスピレーションを得ました。

システムの部分と全体、および機能の理解を理解するために、Gary Marcus は、システムのパフォーマンスが正しいかどうかをより明確に把握するためのタスクを提案しました。「スケッチ」というテキストプロンプトを表示します。「自転車をスケッチし、地面を転がる部分にラベルを付けます」および「はしごをスケッチし、立っている部分の 1 つにラベルを付けます」のパート）。

このテストの特別な点は、「自転車を描いて車輪に印を付ける」や「はしごを描いてペダルに印を付ける」などのプロンプトを直接与えるのではなく、AI に対応するものを推測させることです。「地面を転がる部分」や「立っている部分」などの説明から物事を理解することは、AI が世界を理解する能力をテストするものです。

しかし、Marcus のテスト結果によると、Craiyon (以前は DALL-E mini として知られていました) はこの種のことが苦手で、自転車の車輪やはしごのペダルが何であるかを理解していません:

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远