Heim >Technologie-Peripheriegeräte >KI >Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend

Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend

王林
王林Original
2024-07-26 16:07:54602Durchsuche
Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend
Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Verkörperte Intelligenz ist der einzige Weg, allgemeine künstliche Intelligenz zu erreichen. Ihr Kern liegt in der Interaktion intelligenter Agenten mit dem digitalen Raum und der physischen Welt. Erledige komplexe Aufgaben. In den letzten Jahren haben multimodale Großmodelle und Robotertechnologie große Fortschritte gemacht, und die verkörperte Intelligenz ist zu einem neuen Schwerpunkt des globalen Technologie- und Industriewettbewerbs geworden. Allerdings fehlt derzeit eine Übersicht, die den aktuellen Stand der Entwicklung der verkörperten Intelligenz umfassend analysieren kann. Daher führte das „Institute of Multi-Agent and Embodied Intelligence“ des „Pengcheng Laboratory“ zusammen mit Forschern des HCP Laboratory der Sun Yat-sen-Universität eine umfassende Analyse der neuesten Fortschritte in der „verkörperten Intelligenz“ durch und leitete „eine globale Ära multimodaler großer Modelle“ ein Die erste Überprüfung der verkörperten Intelligenz.
Diese Überprüfung untersuchte fast 400 Dokumente und führte eine umfassende Analyse der Forschung zur verkörperten Intelligenz aus mehreren Dimensionen durch. In dieser Rezension werden zunächst einige repräsentative „verkörperte Roboter und verkörperte Simulationsplattformen“ vorgestellt und eine eingehende Analyse ihres Forschungsschwerpunkts und ihrer Grenzen bereitgestellt. Anschließend werden vier Hauptforschungsinhalte gründlich analysiert: 1)
Verkörperte Wahrnehmung
, 2)
Verkörperte Interaktion, 3) Verkörperte Intelligenz und 4) Virtual to Reality Transfer, diese Forschungsinhalte decken den neuesten Stand der Technik ab. Kunstmethoden, grundlegende Paradigmen und umfassende Datensätze. Darüber hinaus untersucht die Rezension die Herausforderungen, denen sich verkörperte Agenten in digitalen Räumen und physischen Welten gegenübersehen, und betont deren Bedeutung für die aktive Interaktion in dynamischen digitalen und physischen Umgebungen. Abschließend fasst die Rezension die Herausforderungen und Grenzen der verkörperten Intelligenz zusammen und diskutiert ihre möglichen zukünftigen Richtungen. Mit dieser Rezension soll eine grundlegende Referenz für die Forschung zur verkörperten Intelligenz bereitgestellt und damit verbundene technologische Innovationen gefördert werden. Darüber hinaus wurde in dieser Rezension auch eine Liste mit verkörperten Geheimdienstpapieren auf Github veröffentlicht. Verwandte Papiere und Code-Repositories werden kontinuierlich aktualisiert, also achten Sie bitte darauf. T-Paper-Adresse: https://arxiv.org/pdf/2407.06886
  • 1. Das vergangene und gegenwärtige Leben der verkörperten Intelligenz
Das Konzept der verkörperten Intelligenz wurde erstmals von Alan Turing in „Embodied Turing“ vorgeschlagen 1950 eingeführter Test, um festzustellen, ob ein intelligenter Agent mehr als nur Intelligenz zeigen kann, die abstrakte Probleme in einer virtuellen Umgebung (digitalem Raum) löst (intelligente Agenten sind die Grundlage verkörperter Intelligenz, existieren im digitalen Raum und in der physischen Welt und sind verkörpert in Form verschiedener Einheiten, darunter nicht nur Roboter, sondern auch andere Geräte), können auch mit der Komplexität und Unvorhersehbarkeit der physischen Welt umgehen. Daher wird die Entwicklung verkörperter Intelligenz als grundlegender Weg zur Erlangung allgemeiner künstlicher Intelligenz angesehen. Es ist besonders wichtig, sich mit der Komplexität der verkörperten Intelligenz auseinanderzusetzen, ihren aktuellen Entwicklungsstand einzuschätzen und ihre zukünftige Entwicklung zu berücksichtigen. Heutzutage umfasst verkörperte Intelligenz mehrere Schlüsseltechnologien wie Computer Vision, Verarbeitung natürlicher Sprache und Robotik. Die repräsentativsten sind „verkörperte Wahrnehmung“, „verkörperte Interaktion“, „verkörperte Intelligenz“ und „Virtual-Reality-Migration“. Bei verkörperten Aufgaben müssen verkörperte Agenten die menschlichen Absichten in Sprachanweisungen vollständig verstehen, die Umgebung proaktiv erkunden, multimodale Elemente aus virtuellen und physischen Umgebungen umfassend wahrnehmen und geeignete Operationen ausführen, um komplexe Aufgaben zu erledigen. Der schnelle Fortschritt multimodaler Modelle zeigt eine größere Vielfalt, Flexibilität und Generalisierungsfähigkeiten als herkömmliche Deep-Reinforcement-Learning-Methoden in komplexen Umgebungen. Mit hochmodernen visuellen Encodern vorab trainierte visuelle Darstellungen liefern präzise Schätzungen von Objektkategorien, Posen und Geometrien und ermöglichen es verkörperten Modellen, komplexe und dynamische Umgebungen umfassend wahrzunehmen. Leistungsstarke große Sprachmodelle ermöglichen es Robotern, Anweisungen in menschlicher Sprache besser zu verstehen und bieten eine praktikable Methode zur Abstimmung visueller und sprachlicher Darstellungen für verkörperte Roboter. Weltmodelle weisen erhebliche Simulationsfähigkeiten und ein gutes Verständnis physikalischer Gesetze auf und ermöglichen es verkörperten Modellen, die Physik und reale Umgebungen vollständig zu verstehen. Diese Fortschritte ermöglichen es der verkörperten Intelligenz, komplexe Umgebungen umfassend wahrzunehmen, auf natürliche Weise mit Menschen zu interagieren und Aufgaben zuverlässig auszuführen. Die folgende Abbildung zeigt die typische Architektur eines verkörperten Agenten.

                            Embodied Agent Framework

In dieser Rezension geben wir einen umfassenden Überblick über den aktuellen Fortschritt der verkörperten Intelligenz, einschließlich: (1) E verkörperte Roboter
—— Werkzeug-Hardwarelösung für verkörperte Intelligenz in der physischen Welt; (2)

Verkörperte SimulationsplattformDer Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend – ein digitaler Raum zum effizienten und sicheren Training verkörperter Intelligenz;

- Interagieren Sie effektiv und vernünftig mit der Umgebung und ändern Sie sogar die Umgebung, um bestimmte Aufgaben zu erledigen (5)
Verkörperte Intelligenz - Verwenden Sie multimodale große Modelle, um Abstraktionsanweisungen zu verstehen, sie in eine Reihe von Unteraufgaben aufzuteilen und diese dann Schritt für Schritt auszuführen Schritt für Schritt; (6) Virtual to Reality Transfer – Übertragen und verallgemeinern Sie die im digitalen Raum erlernten Fähigkeiten auf die physische Welt. Die folgende Abbildung zeigt den Systemrahmen der verkörperten Intelligenz vom digitalen Raum bis zur physischen Welt. Ziel dieser Rezension ist es, umfassendes Hintergrundwissen, Forschungstrends und technische Erkenntnisse zur verkörperten Intelligenz bereitzustellen.

                                                                                       Gesamtarchitektur dieser Rezension

2. Verkörperter Roboter

unter anderem Roboter, intelligente Haushaltsgeräte, intelligente Brillen und selbstfahrende Fahrzeuge. Unter ihnen haben Roboter als eine der bekanntesten verkörperten Formen große Aufmerksamkeit erregt. Je nach Anwendungsszenario werden Roboter in verschiedenen Formen entwickelt, um ihre Hardwarefunktionen zur Erledigung spezifischer Aufgaben voll auszunutzen. Wie in der folgenden Abbildung dargestellt, können verkörperte Roboter im Allgemeinen unterteilt werden in: (1) Roboter mit fester Basis, wie z. B. Roboterarme, die häufig in der Laborautomatisierungssynthese, im Bildungswesen, in der Industrie und in anderen Bereichen eingesetzt werden; sind hocheffizient. Sie sind bekannt für ihre Mobilität und werden häufig in den Bereichen Logistik, Lagerhaltung und Sicherheitsinspektionen eingesetzt. (3) Raupenroboter mit starken Geländefähigkeiten und Mobilität haben ihr Potenzial in der Landwirtschaft, im Baugewerbe und bei der Katastrophenhilfe gezeigt. Vierbeiner Der für seine Stabilität und Anpassungsfähigkeit bekannte Roboter eignet sich ideal für die Ortung in komplexem Gelände, bei Rettungseinsätzen und für militärische Anwendungen. (5) Humanoide Roboter, bei denen ihre geschickten Hände der Schlüssel sind, werden häufig in der Dienstleistungsbranche, im Gesundheitswesen und in kollaborativen Umgebungen eingesetzt. (6) Bionische Roboter führen Aufgaben in komplexen und dynamischen Umgebungen aus, indem sie die effektiven Bewegungen und Funktionen natürlicher Organismen simulieren.

Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend

                                                                                                                                                                          Verschiedene Formen verkörperter Roboter

3. Verkörperte Intelligenz-Simulationsplattformen sind für die verkörperte Intelligenz von entscheidender Bedeutung, da sie eine kostengünstige Möglichkeit bieten Die experimentelle Methode kann die Sicherheit durch die Simulation potenziell gefährlicher Szenarien gewährleisten, ist skalierbar, um Tests in einer Vielzahl von Umgebungen durchzuführen, verfügt über Rapid-Prototyping-Funktionen, kann einer breiteren Forschungsgemeinschaft Komfort bieten und bietet eine kontrollierte Umgebung für präzise Forschung und die Generierung von Daten für die Schulung und Bewertung sowie Bereitstellung eines standardisierten Benchmarks für den Algorithmenvergleich. Damit der Agent mit der Umgebung interagieren kann, muss eine realistische simulierte Umgebung erstellt werden. Dies erfordert die Berücksichtigung der physikalischen Eigenschaften der Umgebung, der Eigenschaften von Objekten und ihrer Wechselwirkungen. Wie in der folgenden Abbildung dargestellt, werden in dieser Überprüfung zwei Simulationsplattformen analysiert: eine allgemeine Plattform, die auf der zugrunde liegenden Simulation basiert, und eine Simulationsplattform, die auf realen Szenarien basiert.

                                                       ​ Simulationsplattform basierend auf realen Szenen

Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend

4. Verkörperte Wahrnehmung

Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend

Der „Nordstern“ der zukünftigen visuellen Wahrnehmung ist verkörperungszentriertes visuelles Denken und soziale Intelligenz. Wie in der folgenden Abbildung dargestellt, müssen sich Agenten mit verkörperter Wahrnehmung nicht nur Objekte in Bildern erkennen, sondern sich in der physischen Welt bewegen und mit der Umgebung interagieren, was ein gründlicheres Verständnis des dreidimensionalen Raums und dynamischer Umgebungen erfordert. Verkörperte Wahrnehmung erfordert visuelle Wahrnehmungs- und Denkfähigkeiten, das Verstehen dreidimensionaler Beziehungen in einer Szene sowie das Vorhersagen und Ausführen komplexer Aufgaben auf der Grundlage visueller Informationen. In dieser Rezension werden aktive visuelle Wahrnehmung, visuelle 3D-Lokalisierung, visuelle Sprachnavigation, nicht-visuelle Wahrnehmung (taktile Sensoren) usw. vorgestellt.
                                                                                                         

5. Verkörperte Interaktion
Szenen der Interaktion mit Mensch und Umwelt. Zu den typischen verkörperten Interaktionsaufgaben gehören die verkörperte Beantwortung von Fragen und das verkörperte Erfassen. Wie in der folgenden Abbildung dargestellt, muss der Agent in der verkörperten Frage-und-Antwort-Aufgabe die Umgebung aus der Ich-Perspektive erkunden, um die zur Beantwortung der Frage erforderlichen Informationen zu sammeln. Ein Agent mit autonomen Erkundungs- und Entscheidungsfähigkeiten muss nicht nur überlegen, welche Maßnahmen er ergreifen soll, um die Umgebung zu erkunden, sondern auch entscheiden, wann er mit der Erkundung aufhört, um Fragen zu beantworten, wie in der folgenden Abbildung dargestellt.架 Zusätzlich zum Frage-und-Antwort-Rahmen 问 Neben der Interaktion mit Menschen umfasst die Interaktion auch die Durchführung von Operationen, die auf menschlichen Anweisungen basieren, wie etwa das Ergreifen und Platzieren von Objekten, wodurch intelligente Körper und Menschen sowie Interaktionen zwischen Objekten vervollständigt werden. Wie gezeigt, erfordert verkörpertes Greifen ein umfassendes semantisches Verständnis, Szenenbewusstsein, Entscheidungsfindung und eine robuste Kontrollplanung. Die verkörperte Greifmethode kombiniert das traditionelle kinematische Greifen von Robotern mit groß angelegten Modellen (z. B. großen Sprachmodellen und Basismodellen der visuellen Sprache) und ermöglicht es Agenten, Greifaufgaben unter multisensorischer Wahrnehmung auszuführen, einschließlich visueller aktiver Wahrnehmung, Sprachverständnis und Argumentation.

Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend

                                                                                                                                                                         Sprachgesteuertes interaktives Crawling-Framework

6. Verkörperter Agent

Der Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend

Ein Agent ist definiert als die Fähigkeit, die Umgebung zu spüren und Maßnahmen zu ergreifen, um ein bestimmtes Ziel zu erreichen autonome Einheit. Jüngste Fortschritte bei multimodalen Großmodellen haben die Anwendung von Agenten in realen Szenarien weiter erweitert. Wenn diese multimodalen großen modellbasierten Agenten in physische Einheiten verkörpert werden, sind sie in der Lage, ihre Fähigkeiten effektiv vom virtuellen Raum in die physische Welt zu übertragen und so zu verkörperten Agenten zu werden. Damit verkörperte Agenten in der informationsreichen und komplexen realen Welt agieren können, wurden sie mit leistungsstarken multimodalen Wahrnehmungs-, Interaktions- und Planungsfähigkeiten entwickelt. Wie in der folgenden Abbildung dargestellt, umfassen verkörperte Agenten zum Erledigen von Aufgaben normalerweise die folgenden Prozesse:
(1) Zerlegen Sie abstrakte und komplexe Aufgaben in spezifische Unteraufgaben, dh die Planung verkörperter Aufgaben auf hoher Ebene.
(2) Setzen Sie diese Teilaufgaben schrittweise um, indem Sie die verkörperten Wahrnehmungs- und Interaktionsmodelle effektiv nutzen oder die Strategiefunktionen des Basismodells nutzen, das als verkörperte Aktionsplanung auf niedriger Ebene bezeichnet wird.
Es ist erwähnenswert, dass bei der Missionsplanung erst nachgedacht werden muss, bevor gehandelt wird, und daher oft im digitalen Raum in Betracht gezogen wird. Im Gegensatz dazu muss die Aktionsplanung effektive Wechselwirkungen mit der Umgebung berücksichtigen und diese Informationen an den Missionsplaner zurückgeben, um die Missionsplanung anzupassen. Daher ist es für verkörperte Agenten von entscheidender Bedeutung, ihre Fähigkeiten vom digitalen Raum auf die physische Welt auszurichten und zu verallgemeinern.模 Basierend auf einem multimodalen und großen Modell bezieht sich das Körpergerüst des Körpers


7 (Sim-to-Real-Anpassung) auf den Prozess der Übertragung von Fähigkeiten oder Verhaltensweisen, die in einer simulierten Umgebung erlernt wurden ( digitaler Raum) in die reale Welt (physische Welt). Der Prozess umfasst die Validierung und Verbesserung der Wirksamkeit von in der Simulation entwickelten Algorithmen, Modellen und Steuerungsstrategien, um sicherzustellen, dass sie in der physischen Umgebung stabil und zuverlässig funktionieren. Um eine Anpassung der Simulation an die Realität zu erreichen, sind verkörperte Weltmodelle, Datenerfassungs- und Trainingsmethoden sowie verkörperte Steuerungsalgorithmen drei Schlüsselelemente. Die folgende Abbildung zeigt fünf verschiedene Sim-to-Real-Paradigmen.
                                                                                                                                         Fünf Virtual-to-Reality-Migrationslösungen

8. Herausforderungen und zukünftige Entwicklungsrichtungen

stellte sich einigen Herausforderungen und präsentierte die spannenden zukünftigen Richtungen:

(1) Hochwertiger Roboterdatensatz. Die Beschaffung ausreichender Roboterdaten aus der realen Welt bleibt eine große Herausforderung. Das Sammeln dieser Daten ist zeitaufwändig und ressourcenintensiv. Sich ausschließlich auf simulierte Daten zu verlassen, wird das Problem der Lücke zwischen Simulation und Realität verschärfen. Die Erstellung vielfältiger realer Robotik-Datensätze erfordert eine enge und umfassende Zusammenarbeit zwischen den Institutionen. Darüber hinaus ist die Entwicklung realistischerer und effizienterer Simulatoren von entscheidender Bedeutung, um die Qualität der Simulationsdaten zu verbessern. Um ein universelles verkörpertes Modell zu erstellen, das szenario- und aufgabenübergreifende Anwendungen im Bereich der Robotik erreichen kann, ist es notwendig, umfangreiche Datensätze zu erstellen und hochwertige simulierte Umgebungsdaten zur Unterstützung realer Daten zu verwenden.

(2)Effektive Nutzung menschlicher Demonstrationsdaten. Um menschliche Demonstrationsdaten effizient zu nutzen, müssen von Menschen demonstrierte Aktionen und Verhaltensweisen genutzt werden, um Robotersysteme zu trainieren und zu verbessern. Dieser Prozess umfasst das Sammeln, Verarbeiten und Lernen aus großen, hochwertigen Datensätzen, wobei Menschen die Aufgaben ausführen, die der Roboter lernen muss. Daher ist es wichtig, große Mengen unstrukturierter, multimodaler und multimodaler menschlicher Demonstrationsdaten in Kombination mit Aktionslabeldaten effektiv zu nutzen, um verkörperte Modelle zu trainieren, die in relativ kurzer Zeit eine Vielzahl von Aufgaben erlernen können. Durch die effiziente Nutzung menschlicher Demonstrationsdaten können Robotersysteme ein höheres Maß an Leistung und Anpassungsfähigkeit erreichen und so komplexe Aufgaben in dynamischen Umgebungen besser ausführen.

(3)Komplexe Umgebungserkennung. Unter komplexer Umgebungserkennung versteht man die Fähigkeit verkörperter Agenten, komplexe reale Umgebungen in physischen oder virtuellen Umgebungen wahrzunehmen, zu verstehen und darin zu navigieren. Bei unstrukturierten offenen Umgebungen stützen sich aktuelle Arbeiten in der Regel auf den Aufgabenzerlegungsmechanismus von vorab trainiertem LLM, wobei umfassendes gesundes Menschenverstandswissen für die einfache Aufgabenplanung genutzt wird, es mangelt jedoch an spezifischem Szenenverständnis. Die Verbesserung des Wissenstransfers und der Verallgemeinerung in komplexen Umgebungen ist von entscheidender Bedeutung. Ein wirklich vielseitiges Robotersystem sollte in der Lage sein, Anweisungen in natürlicher Sprache in einer Vielzahl unterschiedlicher und unsichtbarer Szenarien zu verstehen und auszuführen. Dies erfordert die Entwicklung anpassbarer und skalierbarer verkörperter Agentenarchitekturen.

(4)Langstreckenmissionsausführung. Die Ausführung eines einzelnen Befehls erfordert in der Regel, dass der Roboter eine weitreichende Aufgabe ausführt, beispielsweise einen Befehl wie „Küche putzen“, bei dem es darum geht, Gegenstände neu anzuordnen, den Boden zu fegen, Tische abzuwischen und mehr. Für den erfolgreichen Abschluss dieser Aufgaben muss der Roboter in der Lage sein, eine Reihe von Aktionen auf niedriger Ebene über einen längeren Zeitraum zu planen und auszuführen. Obwohl aktuelle Aufgabenplaner auf hoher Ebene erste Erfolge gezeigt haben, scheitern sie in verschiedenen Szenarien häufig aufgrund mangelnder Anpassung an die verkörperten Aufgaben. Die Bewältigung dieser Herausforderung erfordert die Entwicklung effizienter Planer mit starken Wahrnehmungsfähigkeiten und umfassendem Wissen über den gesunden Menschenverstand.

(5)Erkennung kausaler Zusammenhänge. Bestehende datengesteuerte verkörperte Agenten treffen Entscheidungen auf der Grundlage von Korrelationen innerhalb der Daten. Diese Modellierungsmethode kann es dem Modell jedoch nicht ermöglichen, den kausalen Zusammenhang zwischen Wissen, Verhalten und Umwelt wirklich zu verstehen, was zu voreingenommenen Strategien führt. Dies macht es schwierig, sie in realen Umgebungen interpretierbar, robust und zuverlässig zu betreiben. Daher muss verkörperte Intelligenz auf Weltwissen basieren und über autonome kausale Argumentationsfähigkeiten verfügen.

(6)Lernen Sie weiter. Bei Robotikanwendungen ist kontinuierliches Lernen für den Einsatz von Roboterlernstrategien in unterschiedlichen Umgebungen von entscheidender Bedeutung, dieser Bereich bleibt jedoch noch wenig erforscht. Während einige neuere Forschungsarbeiten Unterthemen des kontinuierlichen Lernens untersucht haben, wie z. B. inkrementelles Lernen, schnelle Bewegungsanpassung und Lernen durch Mensch-Computer-Interaktion, sind diese Lösungen normalerweise für eine einzelne Aufgabe oder Plattform konzipiert und haben das zugrunde liegende Modell noch nicht berücksichtigt. Offene Forschungsfragen und mögliche Ansätze umfassen: 1) das Mischen unterschiedlicher Anteile früherer Datenverteilungen bei der Feinabstimmung auf die neuesten Daten, um katastrophales Vergessen zu mildern, 2) die Entwicklung effizienter Prototypen aus früheren Verteilungen oder Kursen für das Inferenzlernen für neue Aufgaben, 3) die Verbesserung der Trainingsstabilität und Stichprobeneffizienz von Online-Lernalgorithmen, 4) Identifizierung prinzipieller Methoden zur nahtlosen Integration von Modellen mit großer Kapazität in Kontrollrahmen, möglicherweise durch hierarchisches Lernen oder langsam-schnelle Kontrolle, um Echtzeit-Schlussfolgerungen zu erreichen.

(7)Einheitlicher Bewertungsmaßstab. Obwohl es viele Benchmarks zur Bewertung von Low-Level-Kontrollstrategien gibt, unterscheiden sich diese häufig erheblich in ihren Bewertungsfähigkeiten. Darüber hinaus sind die in diesen Benchmarks enthaltenen Objekte und Szenen häufig auf den Simulator beschränkt. Um verkörperte Modelle vollständig zu bewerten, sind Benchmarks erforderlich, die mehrere Fähigkeiten unter Verwendung realistischer Simulatoren abdecken. Im Hinblick auf die Aufgabenplanung auf hoher Ebene bewerten viele Benchmarks die Planungsfähigkeiten anhand von Frage-und-Antwort-Aufgaben.然而,更理想的方法是綜合評估高階任務規劃器和低階控制策略的執行能力,特別是在執行長時間任務和衡量成功率方面,而不僅僅依賴對規劃器的單獨評估。這種綜合方法能夠更全面地評估具身智慧系統的能力。

總之,具身智能使智能體能夠感知、認知並與數位空間和物理世界中的各種物體互動,顯示了其在實現通用人工智慧方面的重要意義。本篇綜述全面回顧了具身機器人、具身模擬平台、具身感知、具身交互、具身智能體、虛擬到現實的機器人控制以及未來的研究方向,這對沿著促進具身智能的發展具有重要意義。

關於鵬城實驗室多智能體與具身智能研究所

隸屬鵬城實驗室的多智能體與具身智能研究所匯集了數十名機器人與機器人領域頂尖青年科學家,依托鵬城雲腦、中國算力網等自主可控AI 基礎設施,致力於打造多智能體協同與模擬訓練平台、雲端協同具身多模態大模型等通用基礎平台,賦能工業互聯網、社會治理與服務等重大應用需求。

Das obige ist der detaillierte Inhalt vonDer Erste auf der Welt! Das Pengcheng Laboratory und das CUHK untersuchen nahezu 400 Dokumente und analysieren die verkörperte Intelligenz eingehend. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn