Heim > Artikel > Technologie-Peripheriegeräte > Was soll ich tun, wenn die KI „er, sie, es“ nicht verstehen kann? Verben sind zu einem neuen Durchbruch geworden. Wenn der Roboter Butter hört, weiß er, wie man Messer und Gabel aufnimmt.
Wenn Sie der KI Anweisungen geben, haben Sie immer das Gefühl, dass die Kommunikation mit Menschen anders ist?
Ja, KI kann einige spezifische menschliche Anweisungen verstehen, wie zum Beispiel:
Helfen Sie, einen Stuhl aus dem Restaurant zu bewegen.
Aber wenn es durch vage Anweisungen mit nur Pronomen (er/sie/es/dies/das/das/Ding...) und Verben ersetzt würde, wäre die KI verwirrt:
Hilfe Finden Sie etwas, worauf Sie Ihre Füße legen können.
Jetzt haben einige Forscher endlich einen neuen Weg gefunden, damit umzugehen: Wäre es nicht genug, wenn die KI lernen würde, Verben zu verstehen?
Das Verb selbst ist an einige bestimmte Substantive gebunden. Beispielsweise ist die Aktion „Butter verteilen“ definitiv untrennbar mit Substantiven wie „Messer“ und „Gabel“ verbunden.
Sie müssen sie nur zuordnen. Es sind auch keine Substantivbefehle wie „Messer und Gabel“ erforderlich, um das Zielobjekt genau zu finden:
# 🎜🎜 #
Derzeit ist dieses Papier offiziell in NeurIPS 2022 enthalten, und das zugehörige Modell ist ebenfalls Open Source: Also Wie trainiert es das KI-Verb? Das Abdecken von Substantiven ermöglicht es der KI, „Bilder anzusehen, um Objekte zu finden“ Das Papier schlägt ein Framework namens TOIST vor. TOIST steht für „Task Oriented Instance Segmentation Transformer“ (Task Oriented Instance Segmentation Transformer), eine neue Instanzsegmentierungslösung basierend auf Transformer.Die Instanzsegmentierung unterscheidet sich vom „vollständigen Bildausschnitt“ der semantischen Segmentierung. Im folgenden Bild wird beispielsweise das Substantiv „Fließheckauto“ verwendet direkt finden Geben Sie das entsprechende Objekt aus:
Bisher wurden Instanzsegmentierungsmodelle normalerweise in „zwei Schritte“ unterteilt. Der erste Schritt besteht darin Erkennen möglicher Ziele. Im zweiten Schritt werden mögliche Ziele eingestuft und das wahrscheinlichste Ergebnis vorhergesagt. Aber im Gegensatz zu diesem Ansatz übernimmt das TOIST-Framework direkt eine vollständige Transformer-Architektur, in der der Selbstaufmerksamkeitsmechanismus im Decoder die Präferenzbeziehung zwischen Kandidatenzielen herstellen kann. TOIST Das Gesamtgerüst ist in drei Teile gegliedert. Unter diesen ist der multimodale Encoder (brauner Teil) für das Extrahieren von Feature-Markern verantwortlich, und der Transformer-Encoder (grüner Teil) ist für die Aggregation der Features der beiden Modalitäten verantwortlich und basiert auf dem Transformator-Decoder (blauer Teil) zur Vorhersage des am besten geeigneten Ziels. Anschließend schlug das Papier eine neue Nomen-Pronomen-Destillationsmethode (Nomen-Pronomen-Destillation) zum Trainieren des Modells vor. Konkret wird die KI auf der Grundlage des Wissensdestillationsrahmens (Lehrer-Schüler-Modell oben) darauf trainiert, Substantivprototypen basierend auf dem Kontext in einer unbeaufsichtigten Lernweise zu „erraten“. Zum Beispiel lautet die ursprüngliche Instanzsegmentierungsaufgabe „Grabe ein Loch mit einem Skateboard“, aber beim Training des Modells wird das Substantiv „Skateboard“ durch das Pronomen „etwas“ ersetzt: # 🎜🎜 #Auf diese Weise kann die KI das richtige Substantiv aus dem Nichts erraten und das richtige Ziel im Bild segmentieren: #🎜🎜 ##🎜🎜 #
Wie wirkt sich dieser Segmentierungseffekt in konkreten Fällen aus?Zielerkennungsgenauigkeit um 10,9 % erhöht
Das Papier testete TOIST am groß angelegten Aufgabendatensatz COCO-Tasks.
Einfach ausgedrückt: TOIST schneidet besser ab als das vorherige Instanzsegmentierungs- und Zielerkennungsmodell SOTA, und mit der „erweiterten Version“ TOIST, die durch die Nomen-Pronomen-Destillationsmethode hinzugefügt wird, ist die Leistung sogar besser als TOIST . Gehen Sie eine Etage höher.
Unter anderem stieg bei der Zielerkennungsaufgabe die „erweiterte Version“ von TOISTs Entscheidungsbox-Genauigkeit mAP um 10,9 % und bei der Instanzsegmentierungsaufgabe die Maskengenauigkeit war 6,6 % höher als Mask-RCNN+GGNN.
Was die vorgeschlagene Nomen-Pronomen-Destillationsmethode betrifft, wurde die Genauigkeit der Instanzsegmentierungsaufgabe im Vergleich zur Originalversion von TOIST um 2.8 verbessert % bzw. 3,8 %. Spezifisch für die Fallleistung liegt der Modelleffekt auch sehr nahe am tatsächlichen wahren Wert der Segmentierung.In Abbildung (d) hat der Algorithmus beispielsweise sogar erkannt, dass der Bierflaschenverschluss mithilfe eines Tisches geöffnet werden kann, was als perfekte Bewertung für das Verständnis bezeichnet werden kann:
Bezüglich der ursprünglichen Absicht, dies zu tun Nachforschungen antwortete der Autor:
Unser Labor ist eigentlich für die Erforschung von Robotern verantwortlich, aber bei täglichen Umfragen haben wir herausgefunden, dass Benutzer es manchmal vorziehen, dem Roboter „Bedürfnisse“ zu beschreiben, anstatt ihm direkt zu sagen, was er tun soll.
Mit anderen Worten, KI-Algorithmen werden verwendet, um den Roboter dazu zu bringen, „noch einen Schritt zu denken“, anstatt nur ein Assistent zu sein, der Befehle befolgt.
Die Autoren dieses Artikels kommen vom Tsinghua University Intelligent Industry Research Institute (AIR), der Peking University und dem Intel Research Institute. Einer der Autoren ist auch der Dekan des AIR.
Li Pengfei, der Erstautor des Artikels, ist Doktorand am Institut für Intelligente Industrie der Tsinghua-Universität. Zu seinen Forschungsinteressen gehört das autonome Fahren und Computer Vision.
Der korrespondierende Autor Zhao Hao ist neuer Assistenzprofessor am Intelligent Industry Research Institute der Tsinghua-Universität, Forschungswissenschaftler am Intel China Research Institute und gemeinsamer Postdoktorand an der Peking-Universität. Er schloss sein Studium an der Fakultät für Elektrotechnik ab an der Tsinghua-Universität. Seine Forschungsinteressen sind Roboter und Computer.
Papieradresse: https://arxiv.org/abs/2210.10775
Projektadresse: https://github.com/AIR-DISCOVER/TOIST
Das obige ist der detaillierte Inhalt vonWas soll ich tun, wenn die KI „er, sie, es“ nicht verstehen kann? Verben sind zu einem neuen Durchbruch geworden. Wenn der Roboter Butter hört, weiß er, wie man Messer und Gabel aufnimmt.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!