ホームページ  >  記事  >  テクノロジー周辺機器  >  GPT-4に関する2つの噂と最新の予測!

GPT-4に関する2つの噂と最新の予測!

王林
王林転載
2023-04-11 18:07:03995ブラウズ

著者|Yun Zhao

3 月 9 日、マイクロソフト ドイツ最高技術責任者 (CTO) のアンドレアス ブラウン氏が AI キックオフ カンファレンスで待望のニュースを発表しました。来週のリリースに合わせて、ビデオなど、まったく異なる可能性を提供するマルチモーダル モードを開始する予定です。」

GPT-4に関する2つの噂と最新の予測!

##同氏は、大規模言語モデル (LLM) を「ゲームチェンジャー」に例えました。LLM は機械に自然言語を理解するよう教え、以前は人間しか読み取れなかったものを機械が統計的に理解するからです。同時に、このテクノロジーは「すべての言語で利用できる」ように進化しました。ドイツ語で質問し、イタリア語で答えることができます。マルチモダリティにより、Microsoft (-OpenAI) は「モデルを包括的なものにする」でしょう。

GPT-4 が大規模なマルチモーダル モデルになることは基本的に確実であるようです。しかし、GPT-4の正体を事前に知りたいのであれば、それを見つけることは不可能ではありません。

1. 予測: GPT-4 は以前のマルチモーダル大規模言語モデル Kosmos-1

実際に、3 月 1 日の時点で、私たちは次のことに気づきました。 Microsoft が公開したマルチモーダル大規模言語モデル Kosmos-1 が開発されました。 GPT-4 がマルチモーダルである場合、GPT-4 が何ができるかを合理的に予測できます。

GPT-4に関する2つの噂と最新の予測!

KOSMOS-1 は、マルチモーダル入力を認識できるマルチモーダル大規模言語モデル (MLLM) です。指示に従い、コンテキストに応じた実行を行います。学習タスク。これはマルチモーダル タスクである場合もあります。この取り組みでは、ビジョンを大規模言語モデル (LLM) と一致させ、LLM から MLLM への進化を推進します。

GPT-4に関する2つの噂と最新の予測!

## スタンフォード博士で Nvidia AI 科学者である Jim Fan は、これに基づいて 5 つの具体的な予測を立てました:

(1) 視覚的 IQ テスト: はい、人間のためのテストです。 (2) OCR による読み取り能力がない: スクリーンショット、スキャンした文書、道路標識、またはテキストを含むピクセルを入力します。明示的な OCR を使用せずに、コンテンツについて直接推論します。これは、マルチメディア Web ページ上の AI 駆動アプリケーションや、現実世界のカメラからの「野生のテキスト」のロックを解除するのに役立ちます。 (3) マルチモーダルチャット: 写真について会話します。途中で「フォローアップ」写真を提供することもできます。 (4) 字幕、視覚的な質疑応答、物体検出、シーンのレイアウト、常識的推論などの広範な視覚的理解機能。 (5) オーディオおよび音声認識: Kosmos-1 論文では言及されていませんが、Whisper はすでに OpenAI API であり、統合は簡単であるはずです。

GPT-4に関する2つの噂と最新の予測!

ジムは、アンドレアスの最近の発表に基づく予測にはいくつかの矛盾がある可能性があると考えています。しかし、Kosmos-1 はすでにこれを実現しています。 GPT-4 や Microsoft が次に提供するあらゆる AI サービスの機能を提供すると考える理由があります。 「Kosmos-1 が研究室に留まり、製品にならないとは信じがたいです。」

GPT-4に関する2つの噂と最新の予測!

マルチモーダル大規模モデルのアプリケーション例: 画像キャプチャ、画像質疑応答、OCR、ビジュアルダイアログ

Jim は実践者に、「マルチモーダル API の準備をしておいてください。それらは遅かれ早かれ登場します。」

2. GPT-4 は、アギ?十分とは程遠い

第一に、精度の問題はまだ十分ではありません。ドイツマイクロソフトの人工知能上級専門家であるシーブラー氏は、運用の信頼性と事実の忠実性について尋ねられたところ、AIが必ずしも正しく答えるとは限らず、検証が必要であると述べた。 Microsoft は現在、この問題に対処するための信頼度指標を作成中です。通常、顧客は独自のデータセットに対する AI サポートのみを使用し、モデルはすでに非常に正確であるため、主に在庫データの読解とクエリに使用します。ただし、モデルによって生成されたテキストはまだ生成的なものであるため、簡単に検証できません。 「私たちは、賛成派も反対派も含めて、フィードバック ループを構築しました。これは反復的なプロセスです」とシーブラー氏は語った。

第二に、十分なデータがありません。マルチモーダル GPT-4 は、強力な視覚、聴覚、読解力、推論能力を発揮しようとしていますが、これは AGI の氷山の一角にすぎず、人型ロボットを例にとると、制御データを統一することは困難です。ロボットの制御データ、および 、これらの制御データはロボットのハードウェアに関連しており、大きく異なります。したがって、異なる実際のロボットからの学習データを簡単に組み合わせることができず、テキスト、ビデオ、画像、音声などのデータとは質的に異なります。

3. GPT-4 に関する 2 つの噂

1. パラメータは 1 兆個?偽物!

GPT-4 は、OpenAI によって作成されている新しい言語モデルで、人間の音声に似たテキストを生成できます。これは、GPT-3.5 に基づいた ChatGPT で使用されるテクノロジーを進化させます。

業界の専門家は、2021 年 8 月の時点で、GPT-4 には 100 兆個のパラメータがあるだろうと推測していましたが、当時、一部の人々は次のように述べていました: より多くのパラメータを使用して AI を構築することが、必ずしもより良いパフォーマンスを保証するとは限らない応答性に影響を与える可能性があります。

GPT-4に関する2つの噂と最新の予測!

しかし、ChatGPT の父である Altman 氏は、すぐにこの噂に反論しました。ChatGPT の次のバージョンは AGI ではなく、またAGIでしょうか?パラメータは100兆個あります。それらの噂は間違いです。

2.Bing チャットは GPT-4 を使用しますか?

Microsoft は、新しい Bing または Bing Chat は ChatGPT よりも強力であると発表しました。 OpenAI のチャットは GPT-3.5 を使用しているため、Bing チャットでは GPT-4 が使用されているのではないかと推測する人もいます。これは確認されていません。

明らかに、Bing Chat はインターネット経由で現在の情報にアクセスできるようにアップグレードされました。これは、これまで 2021 年より前に受信したトレーニング データからしか恩恵を受けることができなかった ChatGPT に比べて大幅な改善です。

インターネット アクセスに加えて、Bing Chat に使用される AI モデルははるかに高速です。これは、研究室から持ち出されて検索エンジンに追加されるときに重要です。

しかし、これは OpenAI の GPT-4 モデルと同等である可能性は低いようです。 GPT-4 がすでに一般公開されている場合は、それを秘密にしておく必要はありません。

4. GPT-4: 革命ではなく進化

今後登場する GPT-4 が人々に深い印象を残すことは間違いありません。しかし、OpenAI CEO のサム・アルトマン氏は StrictlyVC とのインタビューで、「人々は失望することを『懇願』しており、彼らは失望するでしょう。」

アルトマン氏も以前 Twitter で次のように述べています。世界経済に大きな混乱を引き起こす可能性があるとし、世界に適応のチャンスをほとんど与えない衝撃的な進歩よりも、いくつかの小さな変更を迅速に展開する方が良いと述べた。

偶然にも、世界クラスの人工知能の達人である Ben Goertzel も GPT-3/GPT-4 に大量の冷や水を浴びせました:

もちろん、これらの「知識の整理」システム (ChatGPT など) に投資される資金と人的資源の量は、根拠のある自己修正的な認知の根っこをより尊重する代替 AI アプローチに投資される金額よりもはるかに大きいことに注意する必要があります。複雑。

1970 年代後半から 1990 年代前半にかけての、多層ニューラル ネットワークに対する広範な懐疑論とエキスパート システムの採用は、現在と同じように、素朴で古風で愚かなものに見えました。

#同様に、LLM に対する今日の厳しい目での熱意と、より巧妙な AGI アプローチの口先だけの無視は、2020 年代半ばから後半までにはばかばかしいものに見えるでしょう

##この投稿で私が言いたいのは、これらの LLM ベースのシステムがクールでも役に立たないと言っているわけではありません。単に、これらは、表面的に見えるほど AGI と密接に関連していない、流行の新しい狭い AI テクノロジである、ということです。請求。

つまり、GPT-4 は革命ではなく進化です。

5. 最後に書かれています

明らかに、ChatGPT 4 が OpenAI の次の製品の名前になる可能性は低いですが、ChatGPT の名前は創造的な想像力をもたらすでしょう。おそらく、その改善を推進する AI モデル GPT-4 と組み合わせられます。 AI 実務者とマネージャーは、GPT-4 と ChatGPT の現在の作業の進捗状況と、OpenAI が次のメジャー アップグレードをいつリリースするかに焦点を当てる必要があります。

最後に皆さんにお伝えしたいのは、来週リリースされる GPT-4 がこの記事の予測に一致するかどうかは重要ではないということです。を楽しみにしています。重要なのは、開発者またはその会社がマルチモーダルな大規模モデル API を受け入れる準備ができているかどうかです。これらすべてが 2024 年までに実現するとは、なんと幸運なことでしょう。

参考リンク:

https://arxiv.org/abs/2302.14045

https://www.heise.de/news/ GPT-4 は来週登場し、マルチモーダルになる予定です-Microsoft-Germany-7540972.html

https://t.co/JbtQvjoJ3W

以上がGPT-4に関する2つの噂と最新の予測!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。