Heim >Technologie-Peripheriegeräte >KI >„Sehr schockiert' ein CTO: GPT-4V-Test zum autonomen Fahren zum fünften Mal in Folge
Dieser Artikel wird mit Genehmigung von AI New Media Qubit (öffentliche Konto-ID: QbitAI) nachgedruckt. Bitte wenden Sie sich für einen Nachdruck an die Quelle.
Unter großer Aufmerksamkeit hat GPT4 heute endlich visionsbezogene Funktionen eingeführt.
Ich habe heute Nachmittag mit meinen Freunden schnell die Bildwahrnehmungsfähigkeiten von GPT getestet. Obwohl wir Erwartungen hatten, waren wir dennoch sehr schockiert.
Kernstandpunkt:
Ich denke, dass die semantischen Probleme beim autonomen Fahren durch große Modelle gut gelöst werden sollten, aber die Glaubwürdigkeit und räumliche Wahrnehmungsfähigkeit großer Modelle ist immer noch nicht zufriedenstellend.
Es sollte mehr als ausreichen, um einige sogenannte Eckfälle im Zusammenhang mit der Effizienz zu lösen, aber es ist noch sehr weit entfernt, sich vollständig auf große Modelle zu verlassen, um das Fahren selbstständig durchzuführen und die Sicherheit zu gewährleisten.
△GPT4-Beschreibung
Genauer Teil: 3 LKWs wurden erkannt, das Kennzeichen des vorderen Fahrzeugs war grundsätzlich korrekt (wird ignoriert, wenn chinesische Schriftzeichen vorhanden sind). ), Wetter Korrekt mit der Umgebung, unbekannte Hindernisse vor Ihnen ohne Aufforderung genau identifiziert .
Ungenaue Teile: Die Position des dritten Lastwagens ist von links nach rechts nicht zu unterscheiden, und der Text über dem Kopf des zweiten Lastwagens ist eine zufällige Schätzung (wegen unzureichender Auflösung?).
Damit das nicht reicht, geben wir noch einen kleinen Hinweis und fragen, was das für ein Gegenstand ist und ob man ihn drüberdrücken kann.
Beeindruckend! Wir haben mehrere ähnliche Szenarien getestet und die Leistung bei unbekannten Hindernissen kann als sehr erstaunlich bezeichnet werden.
Es gibt keine Aufforderung, das Schild automatisch zu erkennen. Dies sollte grundlegend sein. Lassen Sie uns weiterhin einige Hinweise geben.
Ich war wieder schockiert. . . Er erkannte automatisch den Nebel hinter dem LKW und erwähnte auch die Pfütze, sagte aber noch einmal, die Richtung sei nach links. . . Ich bin der Meinung, dass hier eine schnelle technische Umsetzung erforderlich sein könnte, damit GPT die Position und Richtung besser ausgeben kann.
Da der erste Frame eingegeben wurde, wurde der LKW auf der rechten Seite einfach als geparkt betrachtet. Hier also ein weiterer Rahmen:
Dieses Auto ist durch die Leitplanke gekracht und am Straßenrand geschwebt. . . Aber stattdessen waren die Verkehrsschilder, die einfacher aussahen, falsch. . . Ich kann nur sagen, dass dies ein riesiges Modell ist. Es wird Sie immer schockieren und Sie wissen nie, wann es Sie zum Weinen bringt. . . Ein weiterer Rahmen:
Diesmal geht es direkt um die Trümmer auf der Straße, und ich bewundere ihn wieder. . . Aber einmal habe ich den Pfeil auf der Straße falsch benannt. . . Im Allgemeinen werden die Informationen, die in dieser Szene besondere Aufmerksamkeit erfordern, abgedeckt. Bei Themen wie Verkehrsschildern werden die Mängel nicht verborgen.
Man kann nur sagen, dass es im Vergleich zu den bisher schwierigen Fällen wie „Jemand hat dir zugewinkt“ sehr genau ist und mit semantischen Eckfällen wie ein Kinderspiel gelöst werden kann.
Nach der Verwendung von CoT wurde festgestellt, dass das Problem darin bestand, dass das Auto nicht als selbstfahrendes Fahrzeug angesehen wurde, sodass die Angabe dieser Informationen durch Eingabeaufforderung genauere Informationen liefern kann.
Durch eine Reihe von Eingabeaufforderungen kann ich schließlich zu dem Schluss kommen, dass der neu verlegte Asphalt nicht zum Befahren geeignet ist. Das Endergebnis ist immer noch in Ordnung, aber der Prozess ist umständlicher und erfordert eine schnellere Konstruktion und sorgfältiges Design.Dieser Grund kann auch darin liegen, dass das Bild nicht aus der ersten Perspektive stammt und nur aus der dritten Perspektive erschlossen werden kann. Dieses Beispiel ist also nicht sehr präzise.
Zusammenfassung
Einige schnelle Versuche haben die Leistungsfähigkeit und Generalisierungsleistung von GPT4V vollständig bewiesen. Bei entsprechenden Eingabeaufforderungen sollte die Stärke von GPT4V voll ausgenutzt werden können.Es sollte sehr vielversprechend sein, den semantischen Eckfall zu lösen, aber das Problem der Illusion wird einige Anwendungen in sicherheitsrelevanten Szenarien immer noch plagen.
Sehr spannend finde ich persönlich, dass der rationelle Einsatz solch großer Modelle die Entwicklung des autonomen L4- und sogar L5-Fahrens erheblich beschleunigen kann. Insbesondere das durchgehende Fahren bleibt ein umstrittenes Thema.
Das obige ist der detaillierte Inhalt von„Sehr schockiert' ein CTO: GPT-4V-Test zum autonomen Fahren zum fünften Mal in Folge. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!