更新: 新しい例を追加しました。自動運転配送車両が新埔セメントフロアに進入しました。
注目を浴びる中、GPT4 は本日、ついにビジョン関連機能を開始しました。今日の午後、友達と一緒に GPT の画像認識機能を早速テストしましたが、期待はしていましたが、それでも大きなショックを受けました。 TL;DR は 自動運転における意味関連の問題は大型モデルによって非常によく解決されるはずだと思いますが、大型モデルの信頼性と空間認識能力はまだ満足のいくものではありません。いわゆる効率関連のコーナーケースを解決するには十分すぎるはずですが、大型モデルに完全に依存して独立して運転を完了し、安全性を確保するにはまだ遠いです。
1 例 1: 道路上にいくつかの未知の障害物が出現しました
GPT4 の説明
#正確な部分: 3 台のトラックが検出され、前のトラックのナンバー プレート番号は基本的に正しい (漢字がある場合は無視)、天候と環境は正しい、 なしで正確プロンプト前方の未知の障害物が特定されました
不正確な部分: 3 台目のトラックの位置は左から右まで区別できず、2 台目のトラックの上部にあるテキストはランダムな推測です (解像度が不十分なため) ?)
これでは十分ではありません。このオブジェクトが何であるか、そしてそれを押すことができるかどうかを尋ねる小さなヒントを与え続けましょう。 ###############印象的な!私たちは複数の同様のシナリオをテストしましたが、未知の障害物でのパフォーマンスは非常に驚くべきものであると言えます。
2
例 2: 道路の水の蓄積を理解する
標識を自動的に認識するためのプロンプトはありません。これは同性愛者であり、私たちはいくつかのヒントを与え続けました
3
最初のフレームに入り、タイミング情報がないため、右側のトラックが駐車されていると見なされます。別のフレームは次のとおりです:
4
これまでの「誰かがあなたに手を振った」などの非常に難しそうなケースと比べると、非常に正確としか言いようがありません。セマンティクス 上記の特殊なケースは解決できます。
5
##
私は最初は比較的保守的で、直接理由を推測せず、さまざまな推測をしましたが、これは調整の目的と一致しています。 CoTを利用した結果、その車が自動運転車であると理解されていないことが問題であることが判明したため、この情報をプロンプトで提供することで、より正確な情報を提供できるようになりました。最後に、一連のプロンプトを通じて、新しく敷設されたアスファルトは走行には適さないという結論を出力できます。最終結果はまだ問題ありませんが、プロセスはより複雑で、より迅速なエンジニアリングと慎重な設計が必要です。一人称視点の絵ではなく、三人称視点でしか推測できないこともその理由かもしれない。したがって、この例はあまり正確ではありません。
6 概要
いくつかの簡単な試みにより、GPT4V の能力と汎化パフォーマンスが完全に証明されました。適切なプロンプトによって、その強みを十分に実証できるはずです。 GPT4Vの。セマンティックのコーナーケースを解決することは非常に有望なはずですが、セキュリティ関連のシナリオでは、錯覚の問題が依然として一部のアプリケーションを悩ませることになります。非常にエキサイティングです。個人的には、このような大型モデルを合理的に使用することで、L4、さらには L5 の自動運転の開発を大幅に加速できると考えています。しかし、LLM は直接運転する必要があるのでしょうか?特にエンドツーエンドの運転は依然として議論の余地のある問題です。最近いろいろ考えているので、時間を見つけて記事を書いて皆さんとお話しします~
元のリンク: https://mp.weixin.qq .com/s/RtEek6HadErxXLSdtsMWHQ
以上がエキサイティング!自動運転におけるGPT-4Vの予備研究の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ホットトピック









