Heim >Technologie-Peripheriegeräte >KI >Spannend! Eine vorläufige Studie zu GPT-4V beim autonomen Fahren

Spannend! Eine vorläufige Studie zu GPT-4V beim autonomen Fahren

王林
王林nach vorne
2023-10-19 11:21:14688Durchsuche

Update: Ein neues Beispiel hinzugefügt, ein selbstfahrendes Lieferfahrzeug, das in den Zementboden von Xinpu fährt

Unter großer Aufmerksamkeit hat GPT4 heute endlich visionäre Funktionen eingeführt. Heute Nachmittag habe ich mit meinen Freunden schnell die Bildwahrnehmungsfähigkeiten von GPT getestet. Obwohl wir Erwartungen hatten, waren wir dennoch sehr schockiert. TL;DR ist Ich denke, die semantischen Probleme beim autonomen Fahren hätten von großen Modellen sehr gut gelöst werden sollen, aber die Glaubwürdigkeit und räumlichen Wahrnehmungsfähigkeiten großer Modelle sind immer noch nicht zufriedenstellend. Es sollte mehr als ausreichen, um einige sogenannte effizienzbezogene Eckfälle zu lösen, aber es ist noch weit entfernt, sich vollständig auf große Modelle zu verlassen, um das Fahren selbstständig abzuschließen und die Sicherheit zu gewährleisten.

1 Beispiel 1: Einige unbekannte Hindernisse tauchten auf der Straße auf wenn chinesische Schriftzeichen vorhanden sind) (Balken), das Wetter und die Umgebung korrekt sind, Ungenaue unbekannte Hindernisse vor Ihnen ohne Aufforderung erkannt

Spannend! Eine vorläufige Studie zu GPT-4V beim autonomen FahrenUngenaue Teile: Die Position des dritten LKW ist von links nach rechts nicht zu unterscheiden und der Text über dem Kopf des zweiten LKW ist eine Vermutung. Eins (wegen unzureichender Auflösung?)

Das reicht nicht, wir geben weiterhin einen kleinen Hinweis, um zu fragen, was dieses Objekt ist und ob es überdrückt werden kann. Spannend! Eine vorläufige Studie zu GPT-4V beim autonomen Fahren

Beeindruckend! Wir haben mehrere ähnliche Szenarien getestet und die Leistung bei unbekannten Hindernissen kann als sehr erstaunlich bezeichnet werden.

2

Beispiel 2: Verständnis der Ansammlung von Straßenwasser

Spannend! Eine vorläufige Studie zu GPT-4V beim autonomen Fahren

Es gibt keine Aufforderung, das Schild automatisch zu erkennen, wir geben weiterhin einige Hinweise

Ich war wieder schockiert. . . Er erkannte automatisch den Nebel hinter dem LKW und erwähnte auch die Pfütze, sagte aber noch einmal, die Richtung sei nach links. . . Ich bin der Meinung, dass hier eine schnelle technische Umsetzung erforderlich sein könnte, damit GPT die Position und Richtung besser ausgeben kann.

3 Hier also ein weiterer Rahmen:

Spannend! Eine vorläufige Studie zu GPT-4V beim autonomen Fahren

Diese beiden durchbrachen die Leitplanke und schwebten am Straßenrand. . . Aber stattdessen waren die Verkehrsschilder, die einfacher aussahen, falsch. . . Ich kann nur sagen, dass dies ein riesiges Modell ist. Es wird Sie immer schockieren und Sie wissen nie, wann es Sie zum Weinen bringt. . . Ein weiterer Rahmen:

Spannend! Eine vorläufige Studie zu GPT-4V beim autonomen Fahren

Diesmal geht es direkt um die Trümmer auf der Straße, und ich bewundere ihn wieder. . . Aber einmal habe ich den Pfeil auf der Straße falsch benannt. . . Im Allgemeinen werden die Informationen, die in dieser Szene besondere Aufmerksamkeit erfordern, abgedeckt. Die Mängel werden nicht verdeckt dass es sehr gut ist. Im Vergleich dazu sind Fälle wie „jemand hat dir zugewinkt“, die vorher extrem schwierig erschienen, wie ein Kinderspiel und können mit semantischen Eckfällen gelöst werden.

5 Beispiel5 Lass uns eine berühmte Szene haben. . . Der Lieferwagen fuhr versehentlich auf die neu gebaute Straße

Spannend! Eine vorläufige Studie zu GPT-4V beim autonomen Fahren

Spannend! Eine vorläufige Studie zu GPT-4V beim autonomen Fahren

Spannend! Eine vorläufige Studie zu GPT-4V beim autonomen Fahren

Ich war zunächst relativ konservativ und habe den Grund nicht direkt erraten. Dies entspricht dem Ziel der Ausrichtung. Nach der Verwendung von CoT wurde festgestellt, dass das Problem darin bestand, dass es sich bei dem Auto nicht um ein selbstfahrendes Fahrzeug handelte, so dass die rechtzeitige Angabe dieser Informationen genauere Informationen liefern kann. Schließlich kann durch eine Reihe von Eingabeaufforderungen der Schluss gezogen werden, dass der neu verlegte Asphalt nicht zum Befahren geeignet ist. Das Endergebnis ist immer noch in Ordnung, aber der Prozess ist umständlicher und erfordert eine schnellere Konstruktion und sorgfältiges Design. Dieser Grund könnte auch darin liegen, dass es sich nicht um ein Bild aus der Ich-Perspektive handelt und nur aus der Perspektive der Dritten Person spekuliert werden kann. Dieses Beispiel ist also nicht sehr präzise.

6 Zusammenfassung

Einige schnelle Versuche haben die Leistungsfähigkeit und Generalisierungsleistung von GPT4V vollständig bewiesen. Bei entsprechenden Eingabeaufforderungen sollte die Stärke von GPT4V voll ausgenutzt werden können. Die Lösung des semantischen Eckfalls sollte sehr vielversprechend sein, aber das Problem der Illusion wird einige Anwendungen in sicherheitsrelevanten Szenarien immer noch plagen. Ich persönlich finde es sehr spannend, dass der rationelle Einsatz solch großer Modelle die Entwicklung des autonomen L4- und sogar L5-Fahrens erheblich beschleunigen kann. Insbesondere das durchgehende Fahren bleibt ein umstrittenes Thema. Ich habe in letzter Zeit viel nachgedacht, deshalb werde ich Zeit finden, einen Artikel zu schreiben, um mit euch allen zu plaudern~

Spannend! Eine vorläufige Studie zu GPT-4V beim autonomen Fahren

Originallink: https://mp.weixin.qq.com/s/RtEek6HadErxXLSdtsMWHQ

Das obige ist der detaillierte Inhalt vonSpannend! Eine vorläufige Studie zu GPT-4V beim autonomen Fahren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen