Heim >Technologie-Peripheriegeräte >KI >Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz', um es der KI zu ermöglichen, die Welt wirklich zu verstehen

Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz', um es der KI zu ermöglichen, die Welt wirklich zu verstehen

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOriginal: 2024-06-01 19:56:001329Durchsuche

Li Feifeis „räumliche Intelligenz“-Wahl für Unternehmertum, das komplette TED-Interpretationsvideo wurde veröffentlicht.

Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz, um es der KI zu ermöglichen, die Welt wirklich zu verstehen

Vor einiger Zeit berichtete Reuters exklusiv, dass die bekannte „KI-Patin“ Li Feifei ein „Startup-Unternehmen“ gründet und eine Seed-Finanzierungsrunde abgeschlossen hat. Bei der Vorstellung des Startups zitierte ein Informant einen TED-Vortrag von Li Feifei in Vancouver und deutete an, dass er in diesem TED-Vortrag das Konzept der räumlichen Intelligenz vorgestellt habe.

Gerade heute hat Li Feifei das Video ihrer kompletten Rede bei TED Vancouver auf X veröffentlicht.

Sie stellte vor: Um Einsicht zu werden, wird Einsicht in Verständnis umgewandelt und Verständnis wird in die Tat umgesetzt /transcript Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz, um es der KI zu ermöglichen, die Welt wirklich zu verstehen Um das Konzept der „räumlichen Intelligenz“ näher zu erläutern, zeigte er das Bild einer Katze, die mit ausgestreckter Pfote ein Glas an die Tischkante schiebt. Im Bruchteil einer Sekunde, sagt er, kann das menschliche Gehirn „die Geometrie dieses Glases, seine Position im dreidimensionalen Raum, seine Beziehung zum Tisch, zur Katze und all diesen anderen Dingen“ beurteilen und dann vorhersagen, was passieren wird Maßnahmen ergreifen, um dies zu verhindern.

Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz, um es der KI zu ermöglichen, die Welt wirklich zu verstehen

„Die Natur hat einen positiven Kreislauf aus Beobachtung und Aktion geschaffen, der auf räumlicher Intelligenz basiert“, sagte sie und fügte hinzu, dass ihr Labor in Stanford versucht, Computern beizubringen, „wie man sich in einer dreidimensionalen Welt verhält“. , wobei große Sprachmodelle verwendet werden, um einem Roboterarm zu ermöglichen, Aufgaben wie das Öffnen von Türen und das Zubereiten von Sandwiches basierend auf verbalen Anweisungen auszuführen.

Das Folgende ist die Abschrift von Li Feifeis Rede bei TED 2024:

Lass mich dir zuerst zeigen, dass dies die Welt vor 540 Millionen Jahren ist, voller reiner und endloser Dunkelheit. Diese Dunkelheit ist nicht auf einen Mangel an Licht zurückzuführen, sondern auf einen Mangel an Augen zum Sehen. Obwohl das Sonnenlicht die Meeresoberfläche durchdringt und bis in 1.000 Meter Tiefe reicht und Licht aus hydrothermalen Quellen den mit Leben gefüllten Meeresboden beleuchtet, gibt es in diesen uralten Gewässern kein einziges Auge, keine Netzhaut, keine Hornhaut und keine Linse . Daher sind alles Licht und alle Lebewesen unsichtbar. Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz, um es der KI zu ermöglichen, die Welt wirklich zu verstehen

Es gab eine Zeit, in der das Konzept des „Sehens“ selbst noch nicht existierte. Bis zur Entstehung der Trilobiten waren sie die ersten Lebewesen, die Licht wahrnahmen, was den Beginn einer neuen Welt markierte. Zum ersten Mal erkennen sie, dass es neben ihnen noch eine größere Welt gibt. Diese visuelle Fähigkeit könnte zur kambrischen Explosion geführt haben, die es einer großen Anzahl von Tierarten ermöglichte, Spuren im Fossilienbestand zu hinterlassen. Von der passiven Wahrnehmung von Licht bis hin zur aktiven Nutzung des Sehens zum Verständnis der Welt begannen sich biologische Nervensysteme zu entwickeln, das Sehen wurde in Einsicht und dann in gelenktes Handeln umgewandelt, was schließlich zur Intelligenz führte.

Heutzutage geben wir uns nicht mehr mit der von der Natur gegebenen visuellen Intelligenz zufrieden, sondern sind bestrebt, Maschinen zu schaffen, die so „sehen“ können wie wir, oder sogar noch intelligenter.

Vor neun Jahren habe ich diese Bühne betreten, um frühe Fortschritte in der Computer Vision, einem Teilgebiet der künstlichen Intelligenz, vorzustellen. Damals wurden erstmals neuronale Netzwerkalgorithmen, Grafikprozessoren (GPUs) und Big Data kombiniert und gemeinsam eine neue Ära der modernen künstlichen Intelligenz eingeläutet. Ein Beispiel ist der ImageNet-Datensatz, ein Datensatz mit 15 Millionen Bildern, den mein Labor mehrere Jahre lang zusammengestellt hat. Wir haben sehr schnelle Fortschritte gemacht und die Geschwindigkeit und Genauigkeit des Algorithmus haben sich von der ersten Bildanmerkung bis heute deutlich verbessert. Wir haben sogar Algorithmen entwickelt, die Objekte in Bildern identifizieren und Beziehungen zwischen ihnen vorhersagen können. Diese Arbeit wird von meinen Studenten und Mitarbeitern durchgeführt. Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz, um es der KI zu ermöglichen, die Welt wirklich zu verstehen

Erinnern Sie sich daran, dass ich Ihnen das letzte Mal den ersten Computer-Vision-Algorithmus gezeigt habe, der Fotos in menschlicher natürlicher Sprache beschreiben kann. Das war eine Arbeit, die ich mit meinem Schüler Andrej Karpathy gemacht habe. An diesem Punkt ergriff ich die Chance und sagte: „Andrej, können wir einen umgekehrten Computer bauen?“ Andrej sagte: „Haha, das ist unmöglich.“ . Dies alles ist einer Familie von Diffusionsmodellen zu verdanken, die die heutigen generativen KI-Algorithmen antreiben, die von Menschen eingegebene Sätze in völlig neue Fotos und Videos umwandeln.

Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz, um es der KI zu ermöglichen, die Welt wirklich zu verstehen

Viele von Ihnen haben die erstaunliche Videoarbeit von Sora von OpenAI gesehen. Aber auch ohne massive GPU-Ressourcen konnten meine Studenten und unsere Mitarbeiter einige Monate vor Sora erfolgreich ein generatives Videomodell namens Walt entwickeln.

Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz, um es der KI zu ermöglichen, die Welt wirklich zu verstehen

Dennoch sind wir immer noch am Erforschen und Verbessern. Uns ist aufgefallen, dass das resultierende Video immer noch einige Unvollkommenheiten aufwies, etwa die Details in den Augen der Katze und wie sie sich durch die Wellen bewegte, ohne nass zu werden. Aber wie uns die Erfahrung der Vergangenheit gelehrt hat, werden wir aus diesen Fehlern lernen, uns weiter verbessern und die Zukunft unserer Träume gestalten. Wir hoffen, dass die KI in Zukunft mehr Dinge für uns tun oder uns dabei helfen wird, sie besser zu machen.

Ich betone seit vielen Jahren, dass das Fotografieren und das wirkliche „Sehen“ und Verstehen zwei verschiedene Dinge sind. Heute möchte ich etwas hinzufügen. Bloßes Sehen reicht nicht aus. Echtes „Sehen“ dient dem Handeln und Lernen. Wenn wir in drei Dimensionen von Raum und Zeit handeln, lernen wir, wie wir es durch Beobachtung besser machen können. Die Natur schafft durch „räumliche Intelligenz“ einen positiven Kreislauf, der Vision und Handeln verbindet.

Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz, um es der KI zu ermöglichen, die Welt wirklich zu verstehen

Um zu veranschaulichen, wie räumliche Intelligenz funktioniert, schauen Sie sich dieses Foto an. Wenn Sie plötzlich den Drang verspüren, etwas zu tun, bedeutet das, dass Ihr Gehirn sofort die Geometrie des Glases, seine Position im Raum und seine Beziehung zu umgebenden Objekten analysiert hat. Dieser Handlungsdrang ist allen Lebewesen mit räumlicher Intelligenz innewohnend und verknüpft Wahrnehmung und Handeln eng miteinander.

Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz, um es der KI zu ermöglichen, die Welt wirklich zu verstehen

Wenn wir wollen, dass künstliche Intelligenz ihre derzeitigen Fähigkeiten übertrifft, brauchen wir sie nicht nur zum Sehen und Sprechen, sondern auch zum Handeln. Wir haben an dieser Front aufregende Fortschritte gemacht. Der neueste Meilenstein der räumlichen Intelligenz besteht darin, Computern das Sehen, Lernen und Handeln beizubringen und kontinuierlich zu lernen, besser zu sehen und zu handeln. Dies ist nicht einfach, da die Natur Millionen von Jahren brauchte, um die Fähigkeit zu entwickeln, sich beim Empfang auf die Augen zu verlassen Licht und wandeln zweidimensionale Bilder in dreidimensionale Informationen um.

Erst kürzlich hat ein Forscherteam von Google einen Algorithmus entwickelt, um eine Reihe von Fotos in einen dreidimensionalen Raum umzuwandeln, wie das Beispiel, das wir hier zeigen. Meine Studenten und unsere Mitarbeiter gingen noch einen Schritt weiter und entwickelten einen Algorithmus, der nur ein Bild als Eingabe verwendet und es in eine dreidimensionale Form umwandelt. Hier sind einige weitere Beispiele.

Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz, um es der KI zu ermöglichen, die Welt wirklich zu verstehen

Erinnern Sie sich daran, dass wir über ein Computerprogramm gesprochen haben, das menschliche verbale Beschreibungen in Videos umwandeln kann. Ein Forscherteam der University of Michigan hat einen Weg gefunden, einen Satz in eine dreidimensionale Raumaufteilung zu übersetzen. Meine Kollegen in Stanford, unsere Studenten und ich haben einen Algorithmus entwickelt, der nur ein einziges Bild aufnimmt und eine unendliche Anzahl möglicher Räume schafft, die der Betrachter erkunden kann.

Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz, um es der KI zu ermöglichen, die Welt wirklich zu verstehen

Das sind die spannenden Fortschritte, die wir auf dem Gebiet der räumlichen Intelligenz gemacht haben, und sie zeigen auch die Möglichkeiten unserer zukünftigen Welt auf. Bis dahin werden die Menschen in der Lage sein, die gesamte Welt in eine digitale Form zu verwandeln, eine digitale Welt, die in der Lage ist, den Reichtum und die Nuancen der realen Welt zu simulieren.

Während sich der Fortschritt der räumlichen Intelligenz beschleunigt, entfaltet sich vor unseren Augen diese neue Ära des positiven Kreislaufs. Diese Hin- und Her-Interaktion katalysiert das Roboterlernen, eine Schlüsselkomponente jedes verkörperten Intelligenzsystems, das die dreidimensionale Welt verstehen und mit ihr interagieren muss.

Vor zehn Jahren ermöglichte ImageNet, das in meinem Labor entwickelt wurde, eine Datenbank mit Millionen hochwertiger Fotos für das Training von Computer Vision. Heute sammeln wir ein verhaltensbasiertes „ImageNet“ von Verhaltensweisen und Aktionen, um Computern und Robotern beizubringen, wie sie sich in einer dreidimensionalen Welt verhalten sollen. Aber dieses Mal sammeln wir keine statischen Bilder, sondern bauen eine Simulationsumgebung auf, die auf einem dreidimensionalen Raummodell basiert. Dadurch erhält der Computer unendlich viele Möglichkeiten, sein Verhalten zu erlernen.

Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz, um es der KI zu ermöglichen, die Welt wirklich zu verstehen

Wir machen auch aufregende Fortschritte in der Robotersprachintelligenz. Mithilfe von Eingaben, die auf großen Sprachmodellen basierten, waren meine Studenten und Mitarbeiter das erste Team, das einen Roboterarm entwickelt hat, der auf der Grundlage verbaler Befehle eine Vielzahl von Aufgaben ausführen kann, beispielsweise das Öffnen einer Schublade oder das Trennen eines Telefons vom Ladekabel Machen Sie ein Sandwich mit Brot, Salat und Tomaten und legen Sie sogar eine Serviette darauf. Normalerweise würde ich bei einem Sandwich wahrscheinlich höhere Ansprüche stellen als bei einem Roboterarm, aber es ist ein guter Anfang.

Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz, um es der KI zu ermöglichen, die Welt wirklich zu verstehen

In unserer Antike, in diesem primitiven Ozean, löste die Fähigkeit, die umgebende Umwelt zu beobachten und wahrzunehmen, im Kambrium die Explosion biologischer Arten aus. Heute berührt dieses Licht „das Leben in digitaler Form“. Räumliche Intelligenz ermöglicht es Maschinen, nicht nur miteinander, sondern auch mit Menschen oder mit der dreidimensionalen Welt in realer oder virtueller Form zu interagieren für viele Menschen wichtig sein.

Nehmen wir das Gesundheitswesen als Beispiel: In den letzten zehn Jahren hat mein Labor die ersten Schritte unternommen, um zu erforschen, wie man mithilfe künstlicher Intelligenz die Wirksamkeit der Patientenbehandlung beeinflussen und mit der Herausforderung der Ermüdung des medizinischen Personals umgehen kann.

Wir testen intelligente Sensoren mit Mitarbeitern der Stanford School of Medicine und anderen Krankenhäusern. Es kann erkennen, wenn ein Arzt ein Patientenzimmer betritt, ohne sich ordnungsgemäß die Hände zu waschen, und chirurgische Instrumente verfolgen oder das Pflegeteam alarmieren, wenn für den Patienten ein Risiko besteht, beispielsweise ein Sturz. Diese Technologien sind eine Art Umgebungsintelligenz, wie ein zusätzliches Augenpaar, das wirklich Veränderungen in der Welt bewirken kann. Ich würde mehr interaktive Unterstützung für unsere Patienten, Ärzte und Pflegekräfte bevorzugen, die dringend ein zusätzliches Paar Hände benötigen. Stellen Sie sich einen autonomen Roboter vor, der medizinische Versorgung liefert, während sich das Pflegepersonal auf den Patienten konzentriert, oder in der erweiterten Realität einen Chirurgen durch sicherere, schnellere und weniger invasive Verfahren führt.

Oder stellen Sie sich ein Szenario vor, in dem schwer gelähmte Patienten einen Roboter mit ihren Gedanken steuern könnten. Das ist richtig, Gehirnwellen zu nutzen, um die alltäglichen Aufgaben zu erledigen, die Sie und ich für selbstverständlich halten. Einen Einblick in diese zukünftige Möglichkeit erhalten Sie in diesem aktuellen Experiment aus meinem Labor. In diesem Video wird ein Roboterarm, der ein japanisches Sukiyaki kocht, vollständig durch elektrische Signale des Gehirns gesteuert, die nicht-invasiv über eine EEG-Kappe erfasst werden.

Li Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz, um es der KI zu ermöglichen, die Welt wirklich zu verstehen

Vor etwa 500 Millionen Jahren stellte die Entstehung des Sehens die dunkle Welt auf den Kopf und löste den tiefgreifendsten Evolutionsprozess aus: die Entwicklung der Intelligenz in der Tierwelt. Ebenso erstaunlich sind die erstaunlichen Fortschritte in der künstlichen Intelligenz im letzten Jahrzehnt. Aber ich glaube, dass das volle Potenzial dieser digitalen kambrischen Explosion erst dann voll ausgeschöpft wird, wenn wir Computer und Roboter haben, die von räumlicher Intelligenz angetrieben werden, so wie es die Natur einst mit Menschen tat.

Dies wird eine aufregende Zeit, da unsere digitalen Begleiter lernen werden, mit dem wunderschönen dreidimensionalen Raum, der menschlichen Welt, zu argumentieren und mit ihm zu interagieren, während sie gleichzeitig weitere neue Welten erschaffen, die wir erkunden können. Es wird nicht einfach sein, diese Zukunft zu erreichen. Es erfordert sorgfältige Überlegungen und eine ständige Weiterentwicklung der Technologie, bei der der Mensch im Mittelpunkt steht. Aber wenn wir es richtig machen, werden Computer und Roboter mit räumlicher Intelligenz nicht nur zu nützlichen Werkzeugen, sondern auch zu vertrauenswürdigen Partnern, die die menschliche Produktivität steigern und ein harmonisches Zusammenleben fördern. Gleichzeitig wird unsere persönliche Würde stärker in den Vordergrund gerückt, was zum gemeinsamen Wohlstand der menschlichen Gesellschaft führt.

Was mich an der Zukunft am meisten begeistert, ist, dass die KI schärfer, aufschlussreicher und räumlich bewusster wird. Sie werden mit den Menschen gehen und ständig nach besseren Wegen suchen, um eine bessere Welt zu schaffen.

Das obige ist der detaillierte Inhalt vonLi Feifei interpretiert die unternehmerische Richtung „räumliche Intelligenz', um es der KI zu ermöglichen, die Welt wirklich zu verstehen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

循环对象算法数据库人工智能 https 传感器

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Mistral AI schlägt GPT-4o in Sekunden und Llama 3 70B in 22B und eröffnet sein erstes CodemodellNächster Artikel：Mistral AI schlägt GPT-4o in Sekunden und Llama 3 70B in 22B und eröffnet sein erstes Codemodell

In Verbindung stehende Artikel

Mehr sehen