この記事はAI New Media Qubit(公開アカウントID:QbitAI)の許可を得て転載していますので、転載については出典元にご連絡ください。
多くの注目を集めながら、GPT4 が本日ついにビジョン関連機能を開始しました。
今日の午後、友人たちと GPT の画像認識機能を早速テストしてみましたが、期待はしていましたが、それでも大きなショックを受けました。
中心的な視点:
自動運転におけるセマンティクスに関連する問題は、大型モデルによってうまく解決されるべきだったと思いますが、大型モデルの信頼性と空間認識は依然として不十分です。
効率に関連するいくつかのいわゆるコーナーケースを解決するには十分すぎるはずですが、完全に大型モデルに依存して独立運転を完了し、安全性を確保するにはまだ遠いです。 。
例 1: 道路上に未知の障害物が出現した場合
△GPT4 の説明
正確な部分: 3 台のトラックが検出され、前の車両のナンバー プレート番号は基本的に正しく (漢字は無視してください)、天候と環境も正しく、 プロンプトなしで前方の未知の障害物を正確に識別しました 。
不正確な部分: 3 台目のトラックの位置は左右で区別できず、2 台目のトラックの先頭にあるテキストはランダムな推測です (解像度が不十分なため?)。
これでは十分ではありません。このオブジェクトが何であるか、そしてそれを押すことができるかどうかを尋ねる小さなヒントを与え続けましょう。 ###############印象的な!私たちは複数の同様のシナリオをテストしましたが、未知の障害物でのパフォーマンスは非常に驚くべきものであると言えます。
例 2: 道路上の水の蓄積を理解する
標識を自動的に認識するためのプロンプトはありません。これは基本的なものです。続けてみましょう。いくつかのヒント。
#またまた衝撃を受けました。 。 。彼はトラックの後ろの霧を自動的に認識でき、水たまりについても言及しましたが、再び方向は左であると言いました。 。 。 GPT が位置と方向をより適切に出力できるようにするには、ここで何らかの迅速なエンジニアリングが必要になる可能性があると感じています。
例 3: 車両が方向転換してガードレールに直接衝突した場合
最初のフレームが入力されます。これは、タイミング情報がなく、トラックが走行しているだけであるためです。右はドッキングしたものとみなされます。別のフレームは次のとおりです:
自動的にわかります。この車はガードレールを突き破り、道路の端でホバリングしました。素晴らしいですね。 。 。しかし、代わりに、簡単そうに見えた道路標識は間違っていました。 。 。ただ一つ言えるのは、これは巨大な模型であり、常に衝撃を与え、いつ泣かされるか分からないということです。 。 。別のフレーム:
#今回は、道路上の瓦礫について直接話していて、改めて感心しました。 。 。しかし、一度道路上の矢印の名前を間違えました。 。 。一般的に、このシーンで特に注意が必要な情報はカバーされていますが、道路標識などの問題については、欠陥は隠蔽されません。
例 4: 面白い話をしましょう
これは非常に正確としか言いようがありません。それに比べて、これまで非常に難しそうに思えた「誰かがあなたに手を振った」というケースは小児科のようなもので、意味論的なコーナーケースは解決できます。
例5 有名なシーンに来てください。 。 。配送トラックが誤って新しく建設された道路に進入した
#開始 比較的保守的で、原因を直接推測するのではなく、さまざまな推測を与えますが、これは調整の目的に沿っています。
CoT を使用した後、車が自動運転車であると理解されていないことが問題であることが判明したため、この情報をプロンプトで提供することで、より正確な情報を提供できます。
最後に、一連のプロンプトを通じて、新しく敷設されたアスファルトは走行には適さないという結論を出力できます。最終結果はまだ問題ありませんが、プロセスはより複雑で、より迅速なエンジニアリングと慎重な設計が必要です。
この理由は、この絵が第一の視点からのものではなく、第三の視点からしか推測できないことも考えられます。したがって、この例はあまり正確ではありません。
概要
いくつかの簡単な試みにより、GPT4V の能力と汎化パフォーマンスが完全に証明されました。適切なプロンプトは GPT4V の強みを最大限に活用できるはずです。
セマンティックのコーナーケースを解決することは非常に有望なはずですが、セキュリティ関連のシナリオでは、錯覚の問題が依然として一部のアプリケーションを悩ませます。
非常にエキサイティングです。個人的には、このような大型モデルを合理的に使用することで、L4、さらには L5 の自動運転の開発を大幅に加速できると考えています。しかし、LLM は直接運転する必要があるのでしょうか?特にエンドツーエンドの運転は依然として議論の余地のある問題です。
以上がGPT-4Vの5回連続自動運転テストにCTO「大変ショック」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。