Heim >Technologie-Peripheriegeräte >KI >Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

WBOY
WBOYnach vorne
2023-04-18 10:49:021400Durchsuche

Die Explosion der künstlichen Intelligenz verzerrt unser Zeitgefühl.

Können Sie glauben, dass Stable Diffusion erst 4 Monate alt ist und ChatGPT erst seit weniger als einem Monat existiert?

Um eine anschauliche Metapher zu verwenden: Wenn Sie mit den Augen blinzeln, werden Sie eine brandneue Branche verpassen.

Im KI-Bereich schießen im Jahr 2022 groß angelegte generative Modelle wie Pilze nach einem Regen aus dem Boden und verändern die Landschaft der gesamten KI-Branche.

Darüber hinaus verlassen diese Modelle schnell das Labor und werden in der Realität angewendet.

Zum Beispiel hat die LLM-Technologie zwei aufstrebende Bereiche inspiriert – Entscheidungsagenten (Spiele, Roboter usw.) und AI4Science.

Jim Fan, der Schüler von Li Feifei, hat für uns die zehn wichtigsten KI-Highlight-Momente im Jahr 2022 zusammengefasst. Drehen wir die Uhr zurück und sehen, welche erstaunlichen KI-Durchbrüche es im Jahr 2022 geben wird.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

1. Text-Bild-Generierung

DALLE-2 ist das erste groß angelegte Diffusionsmodell, das realistische hochauflösende Bilder aus beliebigen Titeln generieren kann.

Es löste die künstlerische Revolution der KI aus und brachte viele neue Anwendungen, Startups und Denkweisen hervor.

Aber DALLE-2 ist hinter den Mauern von OpenAI geschützt und nicht Open Source.

Nach OpenAI machten StabilityAI und runwayml der LMU einen heldenhaften Schritt und trainierten ihr eigenes text2image-Modell im Internetmaßstab basierend auf dem „Potential Diffusion“-Algorithmus. Sie nennen das Modell „stabile Diffusion“ und veröffentlichen den Code und die Gewichte als Open Source.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Es stellt sich heraus, dass die Offenheit von Stable Diffusion große Veränderungen im Spiel mit sich gebracht hat.

Mittlerweile entwickeln viele Startups und Forschungslabore neue Anwendungen auf Basis von Stable Diffusion, und Stable Diffusion selbst wird von der Open-Source-Community kontinuierlich verbessert.

Vor kurzem hat Stable Diffusion Version 2.1 erreicht und kann auf einer einzelnen GPU ausgeführt werden.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Darüber hinaus gibt es dieses Jahr zwei image2text-Modelle von GoogleAI. GoogleAI hat weder das Modell noch die API veröffentlicht, aber aus dem Papier können wir dennoch viele interessante Erkenntnisse gewinnen.

Bilder

https://imagen.research.google

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Parti

https://parti.research.google. Es handelt sich um ein Transformer-Modell ohne Diffusion.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

2. Text-Text-Generierung

Jeder weiß, dass ich von ChatGPT spreche!

Dies ist die einzige Anwendung in der Geschichte, die in 5 Tagen 1 Million Benutzer gewonnen hat.

ChatGPT hat auch unsere menschliche Kreativität stark inspiriert.

Sehen Sie alle nützlichen und einfallsreichen Ideen zu ChatGPT in dieser Liste: https://github.com/f/awesome-chat

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Sowohl ChatGPT als auch GPT-3.5 verwenden eine neue Technologie namens RLHF („Reinforcement Learning“) aus menschlichem Feedback").

Das bedeutet auch, dass das Erinnerungsprojekt möglicherweise bald verschwindet.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Die Popularität von ChatGPT hat eine Welle neuer Startups und Konkurrenten hervorgebracht, wie Jasper Chat, YouChat, Replit’s Ghostwriter Chat und perplexity_ai.

Diese Konkurrenten bieten so intuitive Suchmethoden, dass selbst Google-Führungskräfte ins Schwitzen kommen

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

3. Text – Robotermodell

Wie man GPT-Arme und -Beine gibt, um sie zu machen? Können Sie Ihre unordentliche Küche aufräumen? ?

Im Gegensatz zu NLP müssen Robotermodelle mit der physischen Welt interagieren.

Dieses Jahr haben große vorab trainierte Transformer endlich damit begonnen, die schwierigsten Probleme im Bereich der Robotik zu lösen!

Es kann beliebige gemischte Texte, Bilder und Videos als Eingabeaufforderungen empfangen und die Steuerung des Roboterarms ausgeben. Unser Modell heißt VIMA („VisuoMotor Attention“) und ist komplett Open Source.

Jetzt kann ein einzelner Agent visuelle Ziele, einmalige Nachahmungen von Videos, neue Konzeptgrundlagen, visuelle Einschränkungen usw. lösen, mit starker Skalierbarkeit der Modellkapazität und Daten.

RT-1

Auf einem ähnlichen Weg wie VIMA veröffentlichten Forscher von GoogleAI RT-1, einen Robotertransformator, der auf 700 Aufgaben und 130.000 menschliche Demonstrationen trainiert wurde.

Diese Daten wurden über 17 Monate hinweg von 13 Robotern gesammelt, einer buchstäblichen Armee aus Stahl!

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

4. Text - Video

Im Wesentlichen ist ein Video eine Reihe von Bildern, die im Laufe der Zeit gebündelt werden und uns die Illusion von Bewegung vermitteln.

Wenn wir text2image machen können, warum dann nicht eine Zeitleiste hinzufügen, um noch mehr Spaß zu haben?

Derzeit gibt es drei Hauptwerke im Text-Video-Bereich, aber keines davon ist Open Source.

Make-A-Video

Das erste ist Make-A-Video von Meta AI: Die Text-Video-Generierung kann ohne die Notwendigkeit gepaarter Text-Video-Daten erfolgen.

Sie können sich hier für den Testzugang anmelden: https://makeavevideo.studio

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Papierlink: https://arxiv.org/abs/2209.14792

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Imagen Video

Google AI Imagen Video : Es verwendet ein Diffusionsmodell, um hochauflösende Videos zu generieren, basierend auf dem Imagen-Standbildgenerator.

Demo: http://imagen.research.google/video/

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Papierlink: https://arxiv.org/abs/2210.02303

Phenaki

Phenaki von Google AI: von Open Generate Videos variabler Länge aus Textbeschreibungen von Domains. Vorführung: https://phenaki.video Um fantastische visuelle Effekte in Filmen und Spielen zu erzeugen, wird die 3D-Modellierung zum nächsten blauen Ozean für generative Text-X-Modelle.

Überraschenderweise sind im Jahr 2022 viele vielversprechende generative 3D-Modelle entstanden. Hier listet Fan 3 Modelle auf. Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

DreamFusion

Das erste, das erscheint, ist DreamFusion, das gemeinsam vom Google AI-Forschungsteam und der UC Berkeley entwickelt wurde.

Link zum Papier: https://arxiv.org/pdf/2209.14988.pdf

Dieses Modell verwendet ein 2D-Text-zu-Bild-Diffusionsmodell, um eine Text-zu-3D-Synthese durchzuführen.

Basierend auf dem NeRF-Algorithmus kann DreamFusion 3D-Modelle aus gegebenem Text generieren.

Das Modell kann aus jedem Winkel betrachtet werden, kann bei jeder Beleuchtung neu beleuchtet werden und kann zu jeder dreidimensionalen Umgebung zusammengesetzt werden.

Magic3DLi Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Das zweite Ergebnis sind zwei Projekte des NVIDIA AI-Teams mit den Namen GET3D und Magic3D.

GET3D-Papier-Link: https://nv-tlabs.github.io/GET3D/assets/paper.pdf

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Magic3D-Papier-Link: https://arxiv.org/pdf/2211.10440.pdf

GET3D wird nur mit 2D-Bildern trainiert und generiert 3D-Grafiken mit hochauflösenden Texturen und komplexen geometrischen Details.

Mit diesem Modell können Benutzer ihre Formen sofort in 3D-Renderer und Game-Engines importieren und anschließend bearbeiten.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der ListeMagic3D ähnelt DreamFusion und verwendet ein Text-zu-Bild-Modell zur Generierung von 2D-Bildern, die dann in volumetrische NeRF-Daten (Neural Radiation Field) optimiert werden, wodurch das bei niedriger Auflösung generierte Grobmodell in ein Feinmodell mit hoher Auflösung optimiert wird .

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Nach Angaben des NVIDIA AI-Teams kann die resultierende Magic3D-Methode 3D-Objekte schneller generieren als DreamFusion.

Point-E

Nachdem der zu Beginn des Jahres auf den Markt gebrachte DALL-E 2 mit seinem genialen Pinsel alle überraschte, veröffentlichte OpenAI am Dienstag sein neuestes Bildgenerierungsmodell „POINT-E“, das direkt 3D-Modelle generieren kann aus Text.


Link zum Papier: https://arxiv.org/pdf/2212.08751.pdf

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der ListeIm Vergleich zu Konkurrenten (wie DreamFusion von Google), die mehrere GPUs benötigen, um mehrere Stunden lang zu arbeiten, benötigt POINT-E nur eine einzige GPU 3D-Bilder können innerhalb von Minuten erstellt werden.

Tests zufolge kann POINT-E 3D-Bilder grundsätzlich in Sekunden nach der Eingabeaufforderung ausgeben. Darüber hinaus unterstützen die Ausgabebilder auch benutzerdefinierte Bearbeitung, Speicherung und andere Funktionen. 6. KI, die „Minecraft“ spielen kann

„Minecraft“ ist ein hervorragendes Spiel, um die allgemeine Intelligenz von KI zu testen. Erstens ist es ein unendlich offenes Sandbox-Spiel, das die Kreativität des Spielers extrem widerspiegelt. Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Zweitens hat das Spiel eine Spielerbasis von 140 Millionen, was doppelt so viel ist wie die Gesamtbevölkerung des Vereinigten Königreichs. Bei einer so großen Benutzerbasis gibt es einen endlosen Vorrat an Spieldaten für das KI-Lernen.

Kann KI also ihre Vorstellungskraft wie Menschen nutzen?

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Jim Fan und Kollegen haben zusammengearbeitet, um die erste KI „MineDojo“ zum Spielen von „Minecraft“ zu entwickeln, die viele Aufgaben unter Eingabeaufforderungen in natürlicher Sprache lösen kann.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Link zum Papier: https://arxiv.org/pdf/2206.08853.pdf

Fans ultimatives Ziel ist der Aufbau eines „verkörperten ChatGPT“. Derzeit ist die MineDojo-Plattform vollständig Open Source.

Gleichzeitig kündigte das Team von Jeff Clune ein Modell namens Video Pre-Training (VPT) an, das Tastatur- und Mausbewegungen direkt ausgeben kann.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Link zum Papier: https://arxiv.org/pdf/2206.11795.pdf

VPT hat eine breitere Perspektive, ist aber nicht durch Sprachbedingungen eingeschränkt. An diesem Punkt ergänzen sich MineDojo und VPT.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

7. AI Diplomat

CICERO, eingeführt von Meta AI, ist der erste Agent für künstliche Intelligenz, der im Spiel „Diplomacy“ eine Leistung auf menschlichem Niveau erreicht.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Link zum Papier: https://www.science.org/doi/10.1126/science.ade9097

„Diplomacy“ ist ein klassisches Strategiespiel für sieben Spieler, das man als Brettspiel bezeichnen kann Risiko und Solitaire Eine Kombination aus dem Pokerspiel und der TV-Show Survivor. Das Spiel erfordert umfangreiche Verhandlungen in natürlicher Sprache, um mit Menschen zusammenzuarbeiten und zu konkurrieren.

Das Aufkommen von CICERO zeigt jedoch, dass künstliche Intelligenz mittlerweile die Fähigkeit besitzt, andere zu überzeugen und zu bluffen.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Aktuell hat DeepMind auch die Entwicklung eines eigenen diplomatischen KI-Agenten angekündigt. Was passiert also, wenn CICERO dieses KI-Modell verwendet?

8. Audio-Text-Modell

Whisper ist ein groß angelegtes Open-Source-Spracherkennungsmodell, das eine nahezu menschliche Robustheit und Genauigkeit bei der englischen Spracherkennung aufweist.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Link zum Papier: https://arxiv.org/pdf/2212.04356.pdf

Whisper wurde anhand von 680.000 Stunden Audiodaten aus dem Internet trainiert. Open AI betont, dass die Spracherkennungsfähigkeiten von Whisper menschliches Niveau erreicht haben.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Open AI Open Source Whisper soll mehr Text-Tokens für das Training des mit Spannung erwarteten GPT-4 freischalten?

9. Kernfusion

DeepMind und die Ecole Polytechnique Fédérale de Lausanne (EPFL) in der Schweiz haben gemeinsam das erste Deep-Reinforcement-Learning-System im Zusammenhang mit der Kernfusion entwickelt, das die Stabilität des Kernfusionsplasmas im Tokamak aufrechterhalten kann.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Link zum Papier: https://www.nature.com/articles/s41586-021-04301-9

Ebenfalls diesen Monat gab das US-Energieministerium einen großen Durchbruch bekannt: die erste menschliche Errungenschaft Nettoenergiegewinn der Kernfusionsreaktion!

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Dies ist das erste Mal, dass Menschen diesen Meilenstein erreicht haben. In diesem Leben könnten wir eine Fusionszivilisation werden!

10. In der Biologie angewendeter Transformator

Im Jahr 2021 startete AlphaFold die Vorhersage der 3D-Struktur von Proteinen anhand eines Sprachmodells.

Im Juli kündigte DeepMind „Protein Universe“ an – die Erweiterung der Proteindatenbank von AlphaFold auf 200 Millionen Strukturen!

Darüber hinaus hat das NVIDIA AI-Forschungsteam auch das BioNeMo-Framework für groß angelegte Sprachmodelle erweitert, um Biotechnologieunternehmen und Forschern dabei zu helfen, Biomoleküldaten zu generieren, vorherzusagen und zu verstehen.

Li Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste

Video-Erklärung: https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s

Das Obige ist Jim Fans Inventar der zehn besten KI-Highlights im Jahr 2022. Fan sagte natürlich auch, dass es unzählige spannende Arbeiten gibt, die zur Weiterentwicklung der künstlichen Intelligenz beigetragen haben.

Jedes Papier ist ein Baustein im KI-Gebäude, und alle Bemühungen sollten gefeiert werden.

Allerdings betonte Fan am Ende auch, dass wir uns mit zunehmender Leistungsfähigkeit künstlicher Intelligenzsysteme der potenziellen Gefahren und Risiken bewusst sein und Maßnahmen ergreifen müssen, um diese zu mindern.

Ob durch sorgfältige Trainingsgestaltung, angemessene Aufsicht oder neue Schutzmethoden – die Sicherheit und Ethik künstlicher Intelligenz sind zu einem Thema geworden, das von immer mehr KI-Experten diskutiert wird.

Es besteht kein Zweifel daran, dass 2022 ein Jahr voller Wunder und ein erstaunliches Jahr ist. Welche Durchbrüche werden im nächsten Jahr erzielt, die die Welt schockieren werden? Wir schauen mit Ihnen zu.

Referenzen:

https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw

Das obige ist der detaillierte Inhalt vonLi Feifei zieht eine Bilanz der zehn wichtigsten KI-Highlights des Jahres: Kernfusion, ChatGPT und AlphaFold stehen auf der Liste. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen