


KI schreibt Romane, malt und schneidet Videos. Generative KI ist sogar noch beliebter!
Seit kurzem erfreut sich generative KI wieder großer Beliebtheit! Ein WeChat-Applet namens „Dream Stealer“ wurde sofort ein Hit und erreichte einen Rekord von täglich 50.000 neuen Benutzern.
Dream Stealer ist eine KI-Plattform, die Bilder basierend auf eingegebenem Text generieren kann. Es ist ein Zweig von AIGC (AI-Generated Content).
Nachdem Benutzer ihrer Fantasie freien Lauf gelassen und eine Textbeschreibung eingegeben haben, kann Dream Stealer Bilder in drei Verhältnissen generieren: 1:1, 9:16 und 16:9. Zusätzlich zu den einfachen Ölgemälden stehen außerdem 24 Malstile zur Auswahl Zu den Malkategorien wie Aquarell und Skizze gehören auch spezielle Stile wie Cyberpunk, Vaporwave, Pixel Art, Ghibli und CG-Rendering.
Bild: Der Technology Cloud Report-Editor hat zum Generieren das WeChat-Applet „Dream Stealer“ verwendet
Tatsächlich ist dies nicht die erste KI-Software, die „Text zum Erstellen von Bildern verwendet“. Von Midjourney bis Stable Diffusion war generative KI in den letzten zwei Jahren das heißeste Thema.
Generative KI hat als wichtige Richtung in der Entwicklung von KI großes Entwicklungspotenzial.
Nach Angaben von Gartner im ersten Halbjahr wird erwartet, dass generative KI bis 2025 10 % aller generierten Daten ausmachen wird, verglichen mit derzeit weniger als 1 %.
Manche Menschen glauben, dass 2022 das erste Jahr sein wird, in dem generative KI aus der Technologie reift und in die Grundlagen der Gesellschaft vordringt.
Das explosionsartige Wachstum der generativen KI: von Bildern zu Videos
In den letzten Jahren kann die Entwicklung der KI-Technologie im visuellen Bereich als „rasant“ bezeichnet werden.
Im Januar letzten Jahres veröffentlichte OpenAI, ein Unternehmen, das sich zum Ziel gesetzt hat, „der gesamten Menschheit mit allgemeiner künstlicher Intelligenz zu helfen“, das bahnbrechende DALL-E auf Basis des GPT-3-Modells, das die Generierung von Bildern aus Text realisiert.
Im April dieses Jahres setzte das von OpenAI veröffentlichte DALL-E 2-Modell der zweiten Generation erneut einen neuen Maßstab im Bereich der Bilderzeugung.
Benutzer können durch kurze Textbeschreibungen (Eingabeaufforderung) entsprechende Bilder generieren, sodass auch Menschen, die nicht zeichnen können, ihre Fantasie in künstlerische Kreationen umsetzen können, wie zum Beispiel die vier Wörter, die durch den Satz „Alpaka spielt Basketball“ generiert werden. Das Bild sieht sehr gut aus im Einklang mit den Erwartungen aller.
Beispiel für ein vom DALL-E 2-Modell generiertes Bild
Da die Granularität der Textbeschreibungen immer weiter verfeinert wird, werden die generierten Bilder nicht nur immer genauer, und der Effekt ist für Nicht-Benutzer bereits ziemlich schockierend. Profis.
Aber Modelle wie DALL-E 2 bleiben immer noch im Bereich der zweidimensionalen Erstellung, also der Bilderzeugung, und können keine 360-Grad-3D-Modelle ohne Sackgassen generieren.
Allerdings kann dies die sehr kreativen Algorithmusforscher nicht aufhalten. Eine der neuesten Errungenschaften der Google-Forschung – das DreamFusion-Modell – kann 3D-Modelle durch die Eingabe einfacher Textaufforderungen generieren Generierte 3D-Modelle verfügen außerdem über Eigenschaften wie Dichte und Farbe, und mehrere generierte 3D-Modelle können sogar in eine Szene integriert werden.
Nach der Generierung von 3D-Bildern erweiterten die Algorithmus-Mitarbeiter von Meta ihre Ideen weiter, stellten höhere Schwierigkeitsgrade in Frage und begannen, die Verwendung von Textaufforderungen zur direkten Generierung von Videos zu erforschen.
Obwohl es sich bei einem Video im Wesentlichen um die Überlagerung einer Reihe von Bildern handelt, ist es im Vergleich zur Generierung von Bildern bei der Verwendung von Text zur Generierung eines Videos nicht nur erforderlich, mehrere Bilder derselben Szene zu generieren, sondern auch die Kontinuität zwischen benachbarten Bildern sicherzustellen. Sex. Da beim Training des Modells nur sehr wenige hochwertige Videodaten verfügbar sind, der Rechenaufwand jedoch sehr groß ist, erhöht sich die Komplexität der Videogenerierungsaufgabe erheblich.
Im September dieses Jahres veröffentlichten Forscher von Meta Make-A-Video, ein hochwertiges Kurzvideo-Generierungsmodell auf Basis künstlicher Intelligenz, das der Videoversion von DALL-E entspricht, die auch den Spitznamen „Made with Mouth“ trägt. Video“, das heißt, Sie können durch Textansagen neue Videoinhalte erstellen. Die Schlüsseltechnologie dahinter stammt auch aus der „Text-Bild“-Synthesetechnologie, die von Bildgeneratoren wie DALL-E verwendet wird.
Nur eine Woche später kündigte Google-CEO Pichai offiziell zwei Modelle an, die Metas Make-A-Video direkt herausfordern würden, nämlich Imagen Video und Phenaki.
Im Vergleich zu Make-A-Video hebt Imagen Video die hochauflösenden Eigenschaften von Videos hervor, kann Videoclips mit einer Auflösung von 1280 * 768 und 24 Bildern pro Sekunde generieren und auch Werke verschiedener künstlerischer Stile verstehen und generieren Die 3D-Struktur des Objekts wird während der Rotationsanzeige nicht verformt;
übernimmt sogar die Fähigkeit von Imagen, Text genau darzustellen, und auf dieser Grundlage können durch einfache Beschreibung verschiedene kreative Animationen generiert werden.
Imagen Video generiert Videobeispiele
Und Phenaki kann mehr als 2 Minuten lange Aufnahmen mit niedrigerer Auflösung basierend auf Eingabeaufforderungen von etwa 200 Wörtern generieren und so eine relativ vollständige Geschichte erzählen.
Phenaki-generiertes Videobeispiel
Derzeit gibt es in China viele generative KI-Anwendungen.
Zum Beispiel bietet die Jianying-APP von ByteDance KI-generierte Videofunktionen und kann kostenlos genutzt werden.
Die Bild-zu-Text-Videofunktion ähnelt der von Google. Ersteller können ein paar Schlüsselwörter oder einen kurzen Textabschnitt verwenden, um ein kreatives Kurzvideo zu erstellen.
Clip Screen kann auch Videomaterialien auf der Grundlage von Textbeschreibungen intelligent zuordnen und Videos in Werke mit eher vertikalem Inhalt packen, darunter Finanzen, Geschichte, Geisteswissenschaften und andere Kategorien.
Im Januar 2022 startete NetEase die One-Stop-KI-Musikerstellungsplattform „NetEase Tianyin“, die von Nutzern in Lieder umgewandelte Neujahrsgrüße generiert und in der ersten Jahreshälfte eine professionelle Website-Version auf den Markt brachte.
Im September 2021 wurde die Caiyun Xiaomeng APP gestartet, mit der verschiedene Texttypen erstellt werden können. Benutzer müssen nur einen Anfang von 1-1000 Wörtern angeben, und Caiyun Xiaomeng kann mit dem Schreiben der folgenden Geschichte fortfahren.
Tatsächlich gibt es viele Formen der KI-Erstellung. Wenn generative KI-Technologie auf das Schreiben angewendet wird, können maschinelle Versionen von Journalisten, Romanautoren, Dichtern, Drehbuchautoren usw. entstehen. Wenn sie auf die Bereiche Malerei, Musik und Tanz angewendet wird, kann sie Maler, Komponisten und Redakteure „kultivieren“. . Tanzpersonal.
Hinter der Explosion der generativen KI
Im vergangenen Jahr hat sich die generative KI noch besser entwickelt. Softwareriesen im KI-Bereich wie Google, Microsoft und Meta haben diese Technologie intern vorangetrieben und generative KI in ihre Produkte integriert.
Warum ist generative KI plötzlich so beliebt?
Tatsächlich entwickelt sich die generative KI-Technologie rasant, war jedoch aufgrund zu hoher technischer Schwellenwerte bisher auf einen kleinen Kreis in der Technologiebranche beschränkt.
Wenn wir auf die Entwicklungsgeschichte der KI-Technologie zurückblicken, werden wir feststellen, dass die Explosion generativer KI untrennbar mit drei Faktoren verbunden ist: bessere Modelle, mehr Daten und mehr Berechnungen.
Vor 2015 galten kleine Modelle als „modernste Technologie“ zum Verstehen von Sprache. Diese kleinen Modelle eignen sich hervorragend für analytische Aufgaben und werden für Aufgaben eingesetzt, die von der Vorhersage von Lieferzeiten bis zur Betrugsklassifizierung reichen.
Allerdings sind sie für allgemeine Generierungsaufgaben nicht ausdrucksstark genug. Das Generieren von Texten oder Codes auf menschlicher Ebene ist immer noch ein Traum.
Im Jahr 2017 veröffentlichte Google Research ein bahnbrechendes Papier (Attention is All You Need), in dem eine neue neuronale Netzwerkarchitektur für das Verständnis natürlicher Sprache beschrieben wird, sogenannte Transformatoren, die qualitativ hochwertige Sprachmodelle generieren kann und gleichzeitig über eine höhere Qualität verfügt Parallelisierbarkeit und die erforderliche Trainingszeit werden ebenfalls stark reduziert.
Wenn die Modelle größer werden, zeigen sie natürlich übermenschliche Leistungen. Der Rechenaufwand für das Training dieser Modelle stieg von 2015 bis 2020 um sechs Größenordnungen, wobei die Ergebnisse die Benchmarks für die menschliche Leistung in den Bereichen Handschrift, Sprach- und Bilderkennung, Leseverständnis und Sprachverständnis übertrafen.
Unter ihnen sticht GPT-3 von OpenAI hervor. Die Leistung dieses Modells hat einen großen Sprung gegenüber GPT-2 gemacht und zeigt bessere Fähigkeiten von der Codegenerierung bis zum Schreiben von Witzen.
Trotz aller Fortschritte in Grundlagenforschungsbereichen sind diese Modelle nicht universell.
Sie sind groß, schwierig auszuführen (erfordert GPU-Koordination), nicht allgemein verfügbar (nicht verfügbar oder nur in der geschlossenen Betaphase) und teuer in der Nutzung als Cloud-Dienst.
Aber trotz dieser Einschränkungen kamen die ersten generativen KI-Anwendungen auf den Markt.
Da die Datenverarbeitung immer billiger wurde, entwickelte die Industrie weiterhin bessere Algorithmen und größere Modelle.
Die Entwicklerberechtigungen wurden von der Closed Beta auf die Open Beta oder in einigen Fällen auf Open Source erweitert.
Jetzt, da die Plattformschicht solide ist, die Modelle immer besser, schneller und billiger werden und der Zugang zu Modellen tendenziell kostenlos und Open Source ist, ist die KI-Anwendungsschicht reif für eine Explosion der Kreativität.
Im August dieses Jahres wurde beispielsweise das Text-Bild-Generierungsmodell Stable Diffusion als Open-Source-Lösung veröffentlicht. Nachfolger können dieses Open-Source-Tool besser nutzen, um eine umfassendere Inhaltsökologie zu erschließen, die eine entscheidende Rolle dabei spielt, es einem breiteren Spektrum bekannt zu machen der C-End-Benutzer eine wichtige Rolle.
Die Popularität von Stable Diffusion liegt im Wesentlichen darin, dass Open Source Kreativität freisetzt.
Generative KI steht vor echten Herausforderungen
Die Risikokapitalinstitution Sequoia Capital erwähnte in einem Blogbeitrag auf ihrer offiziellen Website: „Generative KIhat das Potenzial, einen wirtschaftlichen Wert in Billionenhöhe zu generieren.
“ Laut Sequoia Capital Generative KI kann jede Branche verändern, in der Menschen Originalwerke schaffen müssen, von Spielen über Werbung bis hin zum Recht.
Insbesondere sind die Anwendungsszenarien der generativen KI in der Zukunft sehr breit gefächert. Neben Branchen für die Produktion von Inhalten wie Kulturschaffen und Nachrichten bietet generative KI vielfältige Anwendungsmöglichkeiten in vielen Branchen wie dem Gesundheitswesen, dem digitalen Handel, der Fertigung usw Anwendungsaussichten in der Landwirtschaft, z. B. Unterstützung bei der Erkennung von Läsionen bei Röntgen-, CT- und anderen Gerätescans, Erstellung digitaler Produktzwillinge, Unterstützung bei der Prüfung der Produktqualität usw.
Es gibt auch reichlich Anwendungsraum für beliebte Technologien wie XR, digitale Zwillinge und autonome Fahrzeuge.
Aber es ist erwähnenswert, dass es in der aktuellen generativen KI noch viele Probleme gibt, die gelöst werden müssen.
Im Unterhaltungsbereich beispielsweise ist einer der Gründe, warum viele Menschen generative KI für die Erstellung nutzen, die Vermeidung von Urheberrechtsproblemen. Dies bedeutet jedoch nicht, dass keine versteckten Gefahren bestehen.
Einerseits kombiniert die KI-Erstellung auch die gelernten Daten entsprechend den Anforderungen neu. Obwohl die Granularität immer feiner wird, ist es unvermeidlich, dass einige scharfsichtige Menschen erkennen, auf welche Werke verwiesen werden kann, und einige Internetnutzer sogar Auf der sozialen Plattform hieß es, dass auf einem KI-generierten Bild vage Spuren einer vermuteten Unterschrift zu erkennen seien.
Andererseits beanspruchen die meisten Plattformen der aktuellen KI-Generation kein Urheberrecht oder geben eindeutig an, dass sie kommerzialisiert werden können. Mit der zunehmenden Kommerzialisierung der generativen KI stellt sich jedoch die Frage, ob ein solches Urheberrechtsumfeld existiert und ob neue Urheberrechtsprobleme auftreten werden entstehen, sind ebenfalls Diskussionsbedarf.
Auch die Logik und Sicherheit der generativen KI müssen verbessert werden. Die derzeitige generative KI ist anfällig für Fehler im gesunden Menschenverstand und auch anfällig für Probleme in Bereichen, die ein Langzeitgedächtnis erfordern.
Zum Beispiel kommt es im Prozess von KI-generierten Romanen aufgrund der langen Länge oft zu Inkonsistenzen.
Auch wenn generative KI bereits in vielen Bereichen eingesetzt werden kann, ist daher, um generative KI wirklich zum Einsatz zu bringen, viel Training erforderlich, um größere Verluste durch KI-„Fehler“ zu vermeiden.
Schließlich gibt es in Anwendungsszenarien wie Medizin und Fertigung nicht den gleichen Spielraum für Versuch und Irrtum wie in der Kultur- und Kreativbranche.
Fazit
Obwohl generative KI derzeit untrennbar mit menschlichen Eingriffen verbunden ist, lässt sich nicht leugnen, dass generative KI immer noch großes Entwicklungspotenzial hat.
Das Aufkommen generativer KI bedeutet, dass KI beginnt, eine neue Rolle in realen Inhalten einzunehmen, von „Beobachtung und Vorhersage“ bis hin zu „direkter Generierung und Entscheidungsfindung“. Mit anderen Worten: Generative KI schafft, nicht nur analysiert.
Wie OpenAI-CEO Sam Altman sagte: „Generative KI erinnert uns daran, dass es schwierig ist, Vorhersagen über künstliche Intelligenz zu treffen.
Vor zehn Jahren war die gängige Meinung, dass künstliche Intelligenz zunächst die manuelle Arbeit beeinflussen würde; dann ist kognitive Arbeit; vielleicht kann es eines Tages kreative Arbeit leisten
Das obige ist der detaillierte Inhalt vonKI schreibt Romane, malt und schneidet Videos. Generative KI ist sogar noch beliebter!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Die aufkeimende Kapazitätskrise am Arbeitsplatz, die durch die schnelle Integration von KI verschärft wird, erfordert eine strategische Verschiebung über inkrementelle Anpassungen hinaus. Dies wird durch die Ergebnisse der WTI unterstrichen: 68% der Mitarbeiter kämpfen mit der Arbeitsbelastung, was zu Bur führt

John Searles chinesisches Zimmerargument: Eine Herausforderung für das KI -Verständnis Searles Gedankenexperiment stellt sich direkt in Frage, ob künstliche Intelligenz Sprache wirklich verstehen oder wahres Bewusstsein besitzen kann. Stellen Sie sich eine Person vor

Chinas Tech -Giganten sehen sich einen anderen Kurs in der KI -Entwicklung im Vergleich zu ihren westlichen Kollegen auf. Anstatt sich ausschließlich auf technische Benchmarks und API-Integrationen zu konzentrieren, priorisieren sie "Screen-Asse" -Ai-Assistenten-AI T.

MCP: KI -Systeme befähigen, auf externe Tools zuzugreifen Das Modellkontextprotokoll (MCP) ermöglicht AI -Anwendungen, mit externen Tools und Datenquellen über standardisierte Schnittstellen zu interagieren. MCP entwickelt von Anthropic und unterstützt von großen KI -Anbietern, ermöglicht es Sprachmodellen und Agenten, verfügbare Tools zu entdecken und sie mit geeigneten Parametern aufzurufen. Es gibt jedoch einige Herausforderungen bei der Implementierung von MCP-Servern, einschließlich Umweltkonflikten, Sicherheitslücken und inkonsistentem plattformübergreifendem Verhalten. Der Forbes -Artikel "Anthropics Modellkontextprotokoll ist ein großer Schritt in der Entwicklung von AI -Agenten" Autor: Janakiram MSvdocker löst diese Probleme durch Containerisierung. Dokument, das auf Docker Hub -Infrastruktur basiert

Sechs Strategien, die von visionären Unternehmern angewendet werden, die hochmoderne Technologie und kluge Geschäftssinn nutzten, um hochprofitable, skalierbare Unternehmen zu schaffen und gleichzeitig die Kontrolle zu erhalten. Dieser Leitfaden richtet sich an aufstrebende Unternehmer, die darauf abzielen, a zu bauen

Das neue Ultra HDR -Tool von Google Photos: Ein Game Changer für die Bildverbesserung Google Photos hat ein leistungsstarkes Ultra HDR-Conversion-Tool eingeführt, in dem Standardfotos in lebendige Bilder mit hohem Dynamikstand umgewandelt werden. Diese Verbesserung kommt den Fotografen zugute a zugute

Die technische Architektur löst aufkommende Authentifizierungsprobleme Die Agentic Identity Hub befasst sich mit einem Problem, das viele Organisationen erst nach Beginn der KI-Agenten-Implementierung entdecken, dass herkömmliche Authentifizierungsmethoden nicht für die Maschine ausgelegt sind.

(Hinweis: Google ist ein beratender Kunde meiner Firma Moor Insights & Strategy.) KI: Vom Experiment zur Enterprise Foundation Google Cloud Nächste 2025 präsentierte die Entwicklung von AI von der experimentellen Funktion zu einer Kernkomponente der Enterprise -Technologie, Stream


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Sicherer Prüfungsbrowser
Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

Herunterladen der Mac-Version des Atom-Editors
Der beliebteste Open-Source-Editor

SAP NetWeaver Server-Adapter für Eclipse
Integrieren Sie Eclipse mit dem SAP NetWeaver-Anwendungsserver.

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.
