Lassen Sie uns über mehrere große Modelle und autonome Fahrkonzepte sprechen, die in letzter Zeit populär geworden sind.-KI-php.cn

Lassen Sie uns über mehrere große Modelle und autonome Fahrkonzepte sprechen, die in letzter Zeit populär geworden sind.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 09, 2023 am 11:13 AM

模型自动驾驶

Verschiedene Anwendungen großer Modelle erfreuen sich in letzter Zeit immer noch großer Beliebtheit. Etwa Anfang Oktober erschien eine Reihe eher effekthascherischer Artikel, in denen versucht wurde, große Modelle auf das autonome Fahren anzuwenden. Ich habe in letzter Zeit mit vielen Freunden über viele verwandte Themen gesprochen. Beim Schreiben dieses Artikels habe ich einerseits festgestellt, dass wir in der Vergangenheit tatsächlich einige sehr verwandte, aber tatsächlich unterschiedliche Konzepte verwechselt haben Andererseits ist es eine Erweiterung dieser Konzepte. Es gibt einige interessante Gedanken, die es wert sind, mit allen geteilt und diskutiert zu werden.

Großes (Sprach-)Modell

Dies ist derzeit zweifellos die beliebteste Richtung und steht auch im Mittelpunkt der konzentriertesten Artikel. Wie können große Sprachmodelle beim autonomen Fahren helfen? Einerseits bietet es wie GPT-4V äußerst leistungsstarke semantische Verständnisfähigkeiten durch die Ausrichtung mit Bildern, die hier vorerst nicht erwähnt werden, andererseits nutzt es LLM als Agent, um das Fahrverhalten direkt umzusetzen. Letzteres ist derzeit tatsächlich die sexyste Forschungsrichtung und untrennbar mit der Reihe der Arbeiten zur eingebetteten KI verbunden.

Bei den meisten der letztgenannten Arten von Arbeiten, die bisher beobachtet wurden, kommt LLM zum Einsatz: 1) wird direkt verwendet, 2) wird durch überwachtes Lernen verfeinert, und 3) wird durch bestärkendes Lernen für Fahraufgaben verfeinert. Im Wesentlichen gibt es keinen Ausweg aus dem bisherigen Paradigmenrahmen des auf Lernmethoden basierenden Fahrens. Tatsächlich ist eine sehr direkte Frage: Warum ist es möglicherweise besser, hierfür LLM zu nutzen? Intuitiv gesehen ist die Verwendung von Worten zum Fahren eine ineffiziente und ausführliche Sache. Dann habe ich eines Tages plötzlich herausgefunden, dass LLM tatsächlich eine Vorschulung für den Agenten durch Sprache implementiert! Einer der wichtigen Gründe, warum es für RL bisher schwierig war, zu verallgemeinern, war, dass es schwierig war, verschiedene Aufgaben zu vereinheitlichen und verschiedene gemeinsame Daten für das Vortraining zu verwenden, aber LLM hat es sehr gut gelöst Frage. Tatsächlich gibt es jedoch mehrere Probleme, die nicht gut gelöst sind: 1) Muss die Sprache nach Abschluss des Pretrains als Ausgabeschnittstelle beibehalten werden? Dies bringt bei vielen Aufgaben tatsächlich große Unannehmlichkeiten mit sich und führt in gewissem Maße auch zu redundanten Berechnungen. 2) Der Ansatz von LLM als Agent überwindet immer noch nicht die wesentlichen Probleme der bestehenden modellfreien RL-Methode, und alle Probleme modellfreier Methoden bestehen weiterhin. In letzter Zeit haben wir auch einige Versuche mit modellbasiertem + LLM als Agent gesehen, was eine interessante Richtung sein könnte.

Das Letzte, worüber ich mich in jedem Artikel beschweren möchte, ist:

Es geht nicht nur darum, eine Verbindung zu LLM herzustellen und LLM einen Grund ausgeben zu lassen, um Ihr Modell interpretierbar zu machen. Dieser Grund kann immer noch Unsinn sein. . . Dinge, die vorher nicht garantiert waren, werden nicht garantiert, nur weil ein Satz ausgegeben wird.

Großes (visuelles) Modell

Rein großes visuelles Modell hat diesen magischen Moment des „Auftauchens“ tatsächlich noch nicht erlebt. Wenn es um große visuelle Modelle geht, gibt es im Allgemeinen zwei mögliche Referenzen: Die eine ist ein äußerst leistungsstarker Extraktor für visuelle Informationsmerkmale, der auf massiven Webdaten-Vorschulungen wie CLIP, DINO oder SAM basiert und das semantische Verständnis des Modells erheblich verbessert ; Das andere bezieht sich auf das gemeinsame Modell von Paaren (Bild, Aktion usw.), das durch das von GAIA dargestellte Weltmodell implementiert wird.

Tatsächlich denke ich, dass ersteres nur das Ergebnis einer kontinuierlichen linearen Skalierung entlang der traditionellen Grundsätze ist. Derzeit ist es schwierig, die Möglichkeit quantitativer Veränderungen beim autonomen Fahren zu erkennen. Tatsächlich ist Letzteres aufgrund der kontinuierlichen Publizität von Wayve und Tesla in diesem Jahr kontinuierlich in das Blickfeld der Forscher gerückt. Wenn von Weltmodellen gesprochen wird, wird häufig die Tatsache einbezogen, dass das Modell durchgängig ist (Aktionen direkt ausgibt) und mit LLM in Zusammenhang steht. Tatsächlich ist diese Annahme einseitig. Mein Verständnis des Weltmodells ist ebenfalls sehr begrenzt. Ich möchte Lecuns Interview und die modellbasierte RL-Umfrage empfehlen, auf die ich nicht weiter eingehen werde:

Yu Yang: Lernen über das Umweltmodell (Weltmodell)

https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069

Rein visuelles autonomes Fahren

Das ist eigentlich leicht zu verstehen und bezieht sich auf ein autonomes Fahrsystem, das nur auf visuelle Sensoren angewiesen ist. Das ist tatsächlich der beste und ultimative Wunsch des autonomen Fahrens: mit einem Augenpaar wie ein Mensch zu fahren. Solche Konzepte werden im Allgemeinen mit den beiden oben genannten großen Modellen in Verbindung gebracht, da die komplexe Semantik von Bildern starke Abstraktionsfähigkeiten erfordert, um nützliche Informationen zu extrahieren. Im Rahmen der jüngsten kontinuierlichen Werbeoffensive von Tesla überschneidet sich dieses Konzept auch mit dem unten erwähnten End-to-End. Tatsächlich gibt es jedoch viele Möglichkeiten, rein visuelles Fahren zu erreichen, und End-to-End ist natürlich eine davon, aber nicht die einzige. Das schwierigste Problem bei der Realisierung rein visuellen autonomen Fahrens besteht darin, dass das Sehen von Natur aus unempfindlich gegenüber 3D-Informationen ist, und große Modelle haben dies nicht wesentlich geändert. Dies spiegelt sich insbesondere wider in: 1) Die Art und Weise, wie elektromagnetische Wellen passiv empfangen werden, macht das Sehen anders als andere Sensoren, die geometrische Informationen im 3D-Raum messen können. 2) Die Perspektive macht entfernte Objekte äußerst fehleranfällig. Dies ist sehr unfreundlich für die nachgelagerte Planung und Steuerung, die standardmäßig in einem 3D-Raum mit gleichen Fehlern implementiert ist. Ist das Fahren mit Sicht jedoch dasselbe wie die Fähigkeit, Entfernung und Geschwindigkeit in 3D genau einzuschätzen? Ich denke, dass dies ein Darstellungsproblem ist, das zusätzlich zum semantischen Verständnis einer eingehenden Untersuchung im rein visuellen autonomen Fahren würdig ist.

End-to-End-Autonomes Fahren

Dieses Konzept bezieht sich auf das Steuersignal vom Sensor zum endgültigen Ausgang (tatsächlich denke ich, dass es im Großen und Ganzen auch Wegpunktinformationen für die Planung auf der vorgelagerten Ebene umfassen kann) mithilfe einer gemeinsamen Optimierung Modell. Dies kann entweder eine direkte End-to-End-Methode sein, die wie ALVINN bereits in den 1980er Jahren Sensordaten einspeist und Steuersignale direkt über ein neuronales Netzwerk ausgibt, oder es kann eine abgestufte End-to-End-Methode wie die diesjährige CVPR-Beste sein Papier UniAD. Ein gemeinsamer Punkt dieser Methoden ist jedoch, dass das Downstream-Überwachungssignal direkt an den Upstream weitergeleitet werden kann, anstatt dass jedes Modul seine eigenen selbstdefinierten Optimierungsziele hat. Insgesamt ist dies eine richtige Idee, denn Deep Learning ist auf eine solche gemeinsame Optimierung angewiesen, um Erfolg zu haben. Bei Systemen wie autonomem Fahren oder Allzweckrobotern, die oft äußerst komplex sind und mit der physischen Welt zu tun haben, müssen jedoch viele Probleme hinsichtlich der technischen Umsetzung sowie der Datenorganisation und -nutzungseffizienz überwunden werden.

Feed-Forward End-to-End-Autonomes Fahren

Dieses Konzept scheint selten erwähnt zu werden, aber tatsächlich finde ich, dass die Existenz von End-to-End selbst wertvoll ist, aber das Problem darin liegt, die Verwendung zu beobachten dieses Feed-Forward-Weges. Tatsächlich habe ich, mich eingeschlossen, immer davon ausgegangen, dass die End-to-End-Fahrt in Form von Feed-Forward erfolgen muss, da 99 % der aktuellen Deep-Learning-basierten Methoden eine solche Struktur annehmen, was bedeutet, dass die Endausgabe besorgniserregend ist (z. B. Steuersignale)u = f(x), x sind die verschiedenen Beobachtungen des Sensors. Dabei kann f eine sehr komplexe Funktion sein. Tatsächlich hoffen wir jedoch, dass die endgültige Ausgabe bei einigen Problemen bestimmte Eigenschaften erfüllt oder ihnen nahe kommt, sodass es für die Feed-Forward-Form schwierig ist, eine solche Garantie zu geben. Es gibt also eine andere Möglichkeit, u* = argmin g(u, x) s.t h(u, x)

Mit der Entwicklung großer Modelle hat diese direkte Feed-Forward-End-to-End-Lösung für autonomes Fahren eine Welle der Wiederbelebung eingeläutet. Natürlich sind große Modelle sehr leistungsstark, aber ich stelle eine Frage und hoffe, dass jeder darüber nachdenkt: Wenn das große Modell durchgehend allmächtig ist, bedeutet das, dass das große Modell in der Lage sein sollte, Go/Gobang-Ende zu spielen? -bis zum Ende? Paradigmen wie AlphaGo sollten bedeutungslos sein? Ich glaube, jeder weiß, dass die Antwort Nein ist. Natürlich kann diese Feed-Forward-Methode als schneller Näherungslöser verwendet werden und in den meisten Szenarien gute Ergebnisse erzielen.

Nach den verschiedenen Lösungen zu urteilen, die ihre Verwendung des Neural Planner offengelegt haben, bietet der neuronale Teil nur eine Reihe von Initialisierungsvorschlägen für nachfolgende Optimierungslösungen, um das Problem der stark nicht konvexen Optimierung bei nachfolgenden Optimierungen zu lindern. Dies ist im Wesentlichen dasselbe wie der schnelle Rollout in AlphaGo. Aber AlphaGo wird die anschließende MCTS-Durchsuchung nicht als „Vertuschungslösung“ bezeichnen. . .

Abschließend hoffe ich, dass dies allen dabei helfen kann, die Unterschiede und Zusammenhänge zwischen diesen Konzepten zu verdeutlichen und dass jeder bei der Diskussion von Problemen klar verstehen kann, worüber er spricht. . .

Lassen Sie uns über mehrere große Modelle und autonome Fahrkonzepte sprechen, die in letzter Zeit populär geworden sind.

Originallink: https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

Das obige ist der detaillierte Inhalt vonLassen Sie uns über mehrere große Modelle und autonome Fahrkonzepte sprechen, die in letzter Zeit populär geworden sind.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Neueste jährliche Zusammenstellung der besten technischen TechnikenApr 10, 2025 am 11:22 AM

Für diejenigen unter Ihnen, die in meiner Kolumne neu sein könnten, erforsche ich allgemein die neuesten Fortschritte in der KI auf dem gesamten Vorstand, einschließlich Themen wie verkörpertes KI, KI-Argumentation, High-Tech

Europas KI -Kontinent -Aktionsplan: Gigafactories, Datenlabors und grüne KIApr 10, 2025 am 11:21 AM

Der ehrgeizige Aktionsplan in Europa Continent Continent zielt darauf ab, die EU als weltweit führend in der künstlichen Intelligenz zu etablieren. Ein Schlüsselelement ist die Schaffung eines Netzwerks von AI Gigafactories, in dem jeweils rund 100.000 fortschrittliche KI -Chips enthalten sind - das vierfache Capaci

Ist die unkomplizierte Agent -Geschichte von Microsoft genug, um mehr Fans zu erstellen?Apr 10, 2025 am 11:20 AM

Der einheitliche Ansatz von Microsoft bei AI -Agentenanwendungen: Ein klarer Sieg für Unternehmen Die jüngste Ankündigung von Microsoft zu neuen KI -Agentenfunktionen beeindruckte von der klaren und einheitlichen Präsentation. Im Gegensatz zu vielen technischen Ankündigungen, die in TE festgefahren sind

Verkauf von KI -Strategie an Mitarbeiter: Shopify -CEO ManifestoApr 10, 2025 am 11:19 AM

Das jüngste Memo von Shopify -CEO Tobi Lütke erklärt kühn für jeden Mitarbeiter eine grundlegende Erwartung und kennzeichnet eine bedeutende kulturelle Veränderung innerhalb des Unternehmens. Dies ist kein flüchtiger Trend; Es ist ein neues operatives Paradigma, das in P integriert ist

IBM startet Z17 Mainframe mit vollem KI -IntegrationApr 10, 2025 am 11:18 AM

IBMs Z17 Mainframe: Integration von KI für verbesserten Geschäftsbetrieb Letzten Monat erhielt ich im New Yorker Hauptquartier von IBM eine Vorschau auf die Fähigkeiten des Z17. Aufbau des Erfolgs des Z16 (im Jahr 2022 eingeführt und nachweisliche Einnahmen nachweisen

5 CHATGPT -Aufforderungen, abhängig von anderen aufzuhören und sich selbst vollständig zu vertrauenApr 10, 2025 am 11:17 AM

Schalte das unerschütterliche Vertrauen frei und beseitige die Notwendigkeit einer externen Validierung! Diese fünf Chatgpt-Eingabeaufforderungen führen Sie zu einer vollständigen Selbstständigkeit und einer transformativen Verschiebung der Selbstwahrnehmung. Einfach kopieren, einfügen und die Klammer anpassen

KI ist Ihnen gefährlich ähnlich wie Ihr GeistApr 10, 2025 am 11:16 AM

Eine aktuelle [Studie] von Anthropic, einer Sicherheit für künstliche Intelligenz und Forschungsunternehmen, beginnt die Wahrheit über diese komplexen Prozesse zu offenbaren und zeigt eine Komplexität, die unserer eigenen kognitiven Domäne beunruhigend ähnlich ist. Natürliche Intelligenz und künstliche Intelligenz können ähnlicher sein als wir denken. Snooping Inside: Anthropic Interpretierbarkeitsstudie Die neuen Ergebnisse der von Anthropic durchgeführten Forschungsergebnisse stellen im Bereich der mechanistischen Interpretierbarkeit erhebliche Fortschritte dar, die darauf abzielen, das interne Computer der KI zu verkehren - nicht nur zu beobachten, was KI tut, sondern verstehen, wie es auf künstlicher Neuronebene tut. Stellen Sie sich vor, Sie versuchen, das Gehirn zu verstehen, indem Sie zeichnen, welche Neuronen feuern, wenn jemand ein bestimmtes Objekt sieht oder über eine bestimmte Idee nachdenkt. A

Dragonwing präsentiert Qualcomms Edge -DynamikApr 10, 2025 am 11:14 AM

Qualcomms Dragonwing: Ein strategischer Sprung in Unternehmen und Infrastruktur Qualcomm erweitert seine Reichweite über Mobile aggressiv und zielt auf Unternehmens- und Infrastrukturmärkte weltweit mit seiner neuen Dragonwing -Marke ab. Dies ist nicht nur eine Rebran

See all articles