


KI schreibt Romane, malt und schneidet Videos. Generative KI ist sogar noch beliebter!
Seit kurzem erfreut sich generative KI wieder großer Beliebtheit! Ein WeChat-Applet namens „Dream Stealer“ wurde sofort ein Hit und erreichte einen Rekord von täglich 50.000 neuen Benutzern.
Dream Stealer ist eine KI-Plattform, die Bilder basierend auf eingegebenem Text generieren kann. Es ist ein Zweig von AIGC (AI-Generated Content).
Nachdem Benutzer ihrer Fantasie freien Lauf gelassen und eine Textbeschreibung eingegeben haben, kann Dream Stealer Bilder in drei Verhältnissen generieren: 1:1, 9:16 und 16:9. Zusätzlich zu den einfachen Ölgemälden stehen außerdem 24 Malstile zur Auswahl Zu den Malkategorien wie Aquarell und Skizze gehören auch spezielle Stile wie Cyberpunk, Vaporwave, Pixel Art, Ghibli und CG-Rendering.
Bild: Der Technology Cloud Report-Editor hat zum Generieren das WeChat-Applet „Dream Stealer“ verwendet
Tatsächlich ist dies nicht die erste KI-Software, die „Text zum Erstellen von Bildern verwendet“. Von Midjourney bis Stable Diffusion war generative KI in den letzten zwei Jahren das heißeste Thema.
Generative KI hat als wichtige Richtung in der Entwicklung von KI großes Entwicklungspotenzial.
Nach Angaben von Gartner im ersten Halbjahr wird erwartet, dass generative KI bis 2025 10 % aller generierten Daten ausmachen wird, verglichen mit derzeit weniger als 1 %.
Manche Menschen glauben, dass 2022 das erste Jahr sein wird, in dem generative KI aus der Technologie reift und in die Grundlagen der Gesellschaft vordringt.
Das explosionsartige Wachstum der generativen KI: von Bildern zu Videos
In den letzten Jahren kann die Entwicklung der KI-Technologie im visuellen Bereich als „rasant“ bezeichnet werden.
Im Januar letzten Jahres veröffentlichte OpenAI, ein Unternehmen, das sich zum Ziel gesetzt hat, „der gesamten Menschheit mit allgemeiner künstlicher Intelligenz zu helfen“, das bahnbrechende DALL-E auf Basis des GPT-3-Modells, das die Generierung von Bildern aus Text realisiert.
Im April dieses Jahres setzte das von OpenAI veröffentlichte DALL-E 2-Modell der zweiten Generation erneut einen neuen Maßstab im Bereich der Bilderzeugung.
Benutzer können durch kurze Textbeschreibungen (Eingabeaufforderung) entsprechende Bilder generieren, sodass auch Menschen, die nicht zeichnen können, ihre Fantasie in künstlerische Kreationen umsetzen können, wie zum Beispiel die vier Wörter, die durch den Satz „Alpaka spielt Basketball“ generiert werden. Das Bild sieht sehr gut aus im Einklang mit den Erwartungen aller.
Beispiel für ein vom DALL-E 2-Modell generiertes Bild
Da die Granularität der Textbeschreibungen immer weiter verfeinert wird, werden die generierten Bilder nicht nur immer genauer, und der Effekt ist für Nicht-Benutzer bereits ziemlich schockierend. Profis.
Aber Modelle wie DALL-E 2 bleiben immer noch im Bereich der zweidimensionalen Erstellung, also der Bilderzeugung, und können keine 360-Grad-3D-Modelle ohne Sackgassen generieren.
Allerdings kann dies die sehr kreativen Algorithmusforscher nicht aufhalten. Eine der neuesten Errungenschaften der Google-Forschung – das DreamFusion-Modell – kann 3D-Modelle durch die Eingabe einfacher Textaufforderungen generieren Generierte 3D-Modelle verfügen außerdem über Eigenschaften wie Dichte und Farbe, und mehrere generierte 3D-Modelle können sogar in eine Szene integriert werden.
Nach der Generierung von 3D-Bildern erweiterten die Algorithmus-Mitarbeiter von Meta ihre Ideen weiter, stellten höhere Schwierigkeitsgrade in Frage und begannen, die Verwendung von Textaufforderungen zur direkten Generierung von Videos zu erforschen.
Obwohl es sich bei einem Video im Wesentlichen um die Überlagerung einer Reihe von Bildern handelt, ist es im Vergleich zur Generierung von Bildern bei der Verwendung von Text zur Generierung eines Videos nicht nur erforderlich, mehrere Bilder derselben Szene zu generieren, sondern auch die Kontinuität zwischen benachbarten Bildern sicherzustellen. Sex. Da beim Training des Modells nur sehr wenige hochwertige Videodaten verfügbar sind, der Rechenaufwand jedoch sehr groß ist, erhöht sich die Komplexität der Videogenerierungsaufgabe erheblich.
Im September dieses Jahres veröffentlichten Forscher von Meta Make-A-Video, ein hochwertiges Kurzvideo-Generierungsmodell auf Basis künstlicher Intelligenz, das der Videoversion von DALL-E entspricht, die auch den Spitznamen „Made with Mouth“ trägt. Video“, das heißt, Sie können durch Textansagen neue Videoinhalte erstellen. Die Schlüsseltechnologie dahinter stammt auch aus der „Text-Bild“-Synthesetechnologie, die von Bildgeneratoren wie DALL-E verwendet wird.
Nur eine Woche später kündigte Google-CEO Pichai offiziell zwei Modelle an, die Metas Make-A-Video direkt herausfordern würden, nämlich Imagen Video und Phenaki.
Im Vergleich zu Make-A-Video hebt Imagen Video die hochauflösenden Eigenschaften von Videos hervor, kann Videoclips mit einer Auflösung von 1280 * 768 und 24 Bildern pro Sekunde generieren und auch Werke verschiedener künstlerischer Stile verstehen und generieren Die 3D-Struktur des Objekts wird während der Rotationsanzeige nicht verformt;
übernimmt sogar die Fähigkeit von Imagen, Text genau darzustellen, und auf dieser Grundlage können durch einfache Beschreibung verschiedene kreative Animationen generiert werden.
Imagen Video generiert Videobeispiele
Und Phenaki kann mehr als 2 Minuten lange Aufnahmen mit niedrigerer Auflösung basierend auf Eingabeaufforderungen von etwa 200 Wörtern generieren und so eine relativ vollständige Geschichte erzählen.
Phenaki-generiertes Videobeispiel
Derzeit gibt es in China viele generative KI-Anwendungen.
Zum Beispiel bietet die Jianying-APP von ByteDance KI-generierte Videofunktionen und kann kostenlos genutzt werden.
Die Bild-zu-Text-Videofunktion ähnelt der von Google. Ersteller können ein paar Schlüsselwörter oder einen kurzen Textabschnitt verwenden, um ein kreatives Kurzvideo zu erstellen.
Clip Screen kann auch Videomaterialien auf der Grundlage von Textbeschreibungen intelligent zuordnen und Videos in Werke mit eher vertikalem Inhalt packen, darunter Finanzen, Geschichte, Geisteswissenschaften und andere Kategorien.
Im Januar 2022 startete NetEase die One-Stop-KI-Musikerstellungsplattform „NetEase Tianyin“, die von Nutzern in Lieder umgewandelte Neujahrsgrüße generiert und in der ersten Jahreshälfte eine professionelle Website-Version auf den Markt brachte.
Im September 2021 wurde die Caiyun Xiaomeng APP gestartet, mit der verschiedene Texttypen erstellt werden können. Benutzer müssen nur einen Anfang von 1-1000 Wörtern angeben, und Caiyun Xiaomeng kann mit dem Schreiben der folgenden Geschichte fortfahren.
Tatsächlich gibt es viele Formen der KI-Erstellung. Wenn generative KI-Technologie auf das Schreiben angewendet wird, können maschinelle Versionen von Journalisten, Romanautoren, Dichtern, Drehbuchautoren usw. entstehen. Wenn sie auf die Bereiche Malerei, Musik und Tanz angewendet wird, kann sie Maler, Komponisten und Redakteure „kultivieren“. . Tanzpersonal.
Hinter der Explosion der generativen KI
Im vergangenen Jahr hat sich die generative KI noch besser entwickelt. Softwareriesen im KI-Bereich wie Google, Microsoft und Meta haben diese Technologie intern vorangetrieben und generative KI in ihre Produkte integriert.
Warum ist generative KI plötzlich so beliebt?
Tatsächlich entwickelt sich die generative KI-Technologie rasant, war jedoch aufgrund zu hoher technischer Schwellenwerte bisher auf einen kleinen Kreis in der Technologiebranche beschränkt.
Wenn wir auf die Entwicklungsgeschichte der KI-Technologie zurückblicken, werden wir feststellen, dass die Explosion generativer KI untrennbar mit drei Faktoren verbunden ist: bessere Modelle, mehr Daten und mehr Berechnungen.
Vor 2015 galten kleine Modelle als „modernste Technologie“ zum Verstehen von Sprache. Diese kleinen Modelle eignen sich hervorragend für analytische Aufgaben und werden für Aufgaben eingesetzt, die von der Vorhersage von Lieferzeiten bis zur Betrugsklassifizierung reichen.
Allerdings sind sie für allgemeine Generierungsaufgaben nicht ausdrucksstark genug. Das Generieren von Texten oder Codes auf menschlicher Ebene ist immer noch ein Traum.
Im Jahr 2017 veröffentlichte Google Research ein bahnbrechendes Papier (Attention is All You Need), in dem eine neue neuronale Netzwerkarchitektur für das Verständnis natürlicher Sprache beschrieben wird, sogenannte Transformatoren, die qualitativ hochwertige Sprachmodelle generieren kann und gleichzeitig über eine höhere Qualität verfügt Parallelisierbarkeit und die erforderliche Trainingszeit werden ebenfalls stark reduziert.
Wenn die Modelle größer werden, zeigen sie natürlich übermenschliche Leistungen. Der Rechenaufwand für das Training dieser Modelle stieg von 2015 bis 2020 um sechs Größenordnungen, wobei die Ergebnisse die Benchmarks für die menschliche Leistung in den Bereichen Handschrift, Sprach- und Bilderkennung, Leseverständnis und Sprachverständnis übertrafen.
Unter ihnen sticht GPT-3 von OpenAI hervor. Die Leistung dieses Modells hat einen großen Sprung gegenüber GPT-2 gemacht und zeigt bessere Fähigkeiten von der Codegenerierung bis zum Schreiben von Witzen.
Trotz aller Fortschritte in Grundlagenforschungsbereichen sind diese Modelle nicht universell.
Sie sind groß, schwierig auszuführen (erfordert GPU-Koordination), nicht allgemein verfügbar (nicht verfügbar oder nur in der geschlossenen Betaphase) und teuer in der Nutzung als Cloud-Dienst.
Aber trotz dieser Einschränkungen kamen die ersten generativen KI-Anwendungen auf den Markt.
Da die Datenverarbeitung immer billiger wurde, entwickelte die Industrie weiterhin bessere Algorithmen und größere Modelle.
Die Entwicklerberechtigungen wurden von der Closed Beta auf die Open Beta oder in einigen Fällen auf Open Source erweitert.
Jetzt, da die Plattformschicht solide ist, die Modelle immer besser, schneller und billiger werden und der Zugang zu Modellen tendenziell kostenlos und Open Source ist, ist die KI-Anwendungsschicht reif für eine Explosion der Kreativität.
Im August dieses Jahres wurde beispielsweise das Text-Bild-Generierungsmodell Stable Diffusion als Open-Source-Lösung veröffentlicht. Nachfolger können dieses Open-Source-Tool besser nutzen, um eine umfassendere Inhaltsökologie zu erschließen, die eine entscheidende Rolle dabei spielt, es einem breiteren Spektrum bekannt zu machen der C-End-Benutzer eine wichtige Rolle.
Die Popularität von Stable Diffusion liegt im Wesentlichen darin, dass Open Source Kreativität freisetzt.
Generative KI steht vor echten Herausforderungen
Die Risikokapitalinstitution Sequoia Capital erwähnte in einem Blogbeitrag auf ihrer offiziellen Website: „Generative KIhat das Potenzial, einen wirtschaftlichen Wert in Billionenhöhe zu generieren.
“ Laut Sequoia Capital Generative KI kann jede Branche verändern, in der Menschen Originalwerke schaffen müssen, von Spielen über Werbung bis hin zum Recht.
Insbesondere sind die Anwendungsszenarien der generativen KI in der Zukunft sehr breit gefächert. Neben Branchen für die Produktion von Inhalten wie Kulturschaffen und Nachrichten bietet generative KI vielfältige Anwendungsmöglichkeiten in vielen Branchen wie dem Gesundheitswesen, dem digitalen Handel, der Fertigung usw Anwendungsaussichten in der Landwirtschaft, z. B. Unterstützung bei der Erkennung von Läsionen bei Röntgen-, CT- und anderen Gerätescans, Erstellung digitaler Produktzwillinge, Unterstützung bei der Prüfung der Produktqualität usw.
Es gibt auch reichlich Anwendungsraum für beliebte Technologien wie XR, digitale Zwillinge und autonome Fahrzeuge.
Aber es ist erwähnenswert, dass es in der aktuellen generativen KI noch viele Probleme gibt, die gelöst werden müssen.
Im Unterhaltungsbereich beispielsweise ist einer der Gründe, warum viele Menschen generative KI für die Erstellung nutzen, die Vermeidung von Urheberrechtsproblemen. Dies bedeutet jedoch nicht, dass keine versteckten Gefahren bestehen.
Einerseits kombiniert die KI-Erstellung auch die gelernten Daten entsprechend den Anforderungen neu. Obwohl die Granularität immer feiner wird, ist es unvermeidlich, dass einige scharfsichtige Menschen erkennen, auf welche Werke verwiesen werden kann, und einige Internetnutzer sogar Auf der sozialen Plattform hieß es, dass auf einem KI-generierten Bild vage Spuren einer vermuteten Unterschrift zu erkennen seien.
Andererseits beanspruchen die meisten Plattformen der aktuellen KI-Generation kein Urheberrecht oder geben eindeutig an, dass sie kommerzialisiert werden können. Mit der zunehmenden Kommerzialisierung der generativen KI stellt sich jedoch die Frage, ob ein solches Urheberrechtsumfeld existiert und ob neue Urheberrechtsprobleme auftreten werden entstehen, sind ebenfalls Diskussionsbedarf.
Auch die Logik und Sicherheit der generativen KI müssen verbessert werden. Die derzeitige generative KI ist anfällig für Fehler im gesunden Menschenverstand und auch anfällig für Probleme in Bereichen, die ein Langzeitgedächtnis erfordern.
Zum Beispiel kommt es im Prozess von KI-generierten Romanen aufgrund der langen Länge oft zu Inkonsistenzen.
Auch wenn generative KI bereits in vielen Bereichen eingesetzt werden kann, ist daher, um generative KI wirklich zum Einsatz zu bringen, viel Training erforderlich, um größere Verluste durch KI-„Fehler“ zu vermeiden.
Schließlich gibt es in Anwendungsszenarien wie Medizin und Fertigung nicht den gleichen Spielraum für Versuch und Irrtum wie in der Kultur- und Kreativbranche.
Fazit
Obwohl generative KI derzeit untrennbar mit menschlichen Eingriffen verbunden ist, lässt sich nicht leugnen, dass generative KI immer noch großes Entwicklungspotenzial hat.
Das Aufkommen generativer KI bedeutet, dass KI beginnt, eine neue Rolle in realen Inhalten einzunehmen, von „Beobachtung und Vorhersage“ bis hin zu „direkter Generierung und Entscheidungsfindung“. Mit anderen Worten: Generative KI schafft, nicht nur analysiert.
Wie OpenAI-CEO Sam Altman sagte: „Generative KI erinnert uns daran, dass es schwierig ist, Vorhersagen über künstliche Intelligenz zu treffen.
Vor zehn Jahren war die gängige Meinung, dass künstliche Intelligenz zunächst die manuelle Arbeit beeinflussen würde; dann ist kognitive Arbeit; vielleicht kann es eines Tages kreative Arbeit leisten
Das obige ist der detaillierte Inhalt vonKI schreibt Romane, malt und schneidet Videos. Generative KI ist sogar noch beliebter!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Wissenschaftler haben ausführlich menschliche und einfachere neuronale Netzwerke (wie die in C. elegans) untersucht, um ihre Funktionalität zu verstehen. Es stellt sich jedoch eine entscheidende Frage: Wie passen wir unsere eigenen neuronalen Netze an, um neben neuartigen Ai S effektiv zu arbeiten

Googles Gemini Advanced: Neue Abonnements am Horizont Der Zugriff auf Gemini Advanced erfordert derzeit einen Google One AI -Premium -Plan von 19,99 USD/Monat. Ein Bericht von Android Authority hat jedoch auf bevorstehende Änderungen hinweist. Code im neuesten Google P.

Trotz des Hype um fortgeschrittene KI -Funktionen lauert eine erhebliche Herausforderung in den Bereitstellungen von Enterprise AI: Datenverarbeitung Engpässe. Während CEOs KI -Fortschritte feiern, kreischen sich die Ingenieure mit langsamen Abfragen, überladenen Pipelines, a

Um Dokumente zu handeln, geht es nicht mehr nur darum, Dateien in Ihren KI -Projekten zu öffnen, sondern darum, das Chaos in Klarheit zu verwandeln. Dokumente wie PDFs, Powerpoints und Wort überfluten unsere Workflows in jeder Form und Größe. Strukturiert abrufen

Nutzen Sie die Macht des Google Agent Development Kit (ADK), um intelligente Agenten mit realen Funktionen zu erstellen! Dieses Tutorial führt Sie durch den Bau von Konversationsagenten mit ADK und unterstützt verschiedene Sprachmodelle wie Gemini und GPT. W

Zusammenfassung: SLM (Small Language Model) ist für die Effizienz ausgelegt. Sie sind besser als das große Sprachmodell (LLM) in Ressourcenmangel-, Echtzeit- und Datenschutz-sensitiven Umgebungen. Am besten für fokussierte Aufgaben, insbesondere für Domänenspezifität, -kontrollierbarkeit und Interpretierbarkeit wichtiger als allgemeines Wissen oder Kreativität. SLMs sind kein Ersatz für LLMs, aber sie sind ideal, wenn Präzision, Geschwindigkeit und Kostenwirksamkeit kritisch sind. Technologie hilft uns, mehr mit weniger Ressourcen zu erreichen. Es war schon immer ein Promoter, kein Fahrer. Von der Dampfmaschine -Ära bis zur Internetblase -Ära liegt die Kraft der Technologie in dem Ausmaß, in dem sie uns hilft, Probleme zu lösen. Künstliche Intelligenz (KI) und in jüngerer Zeit generativer KI sind keine Ausnahme

Nutzen Sie die Kraft von Google Gemini für Computer Vision: einen umfassenden Leitfaden Google Gemini, ein führender KI -Chatbot, erweitert seine Fähigkeiten über die Konversation hinaus, um leistungsstarke Funktionen von Computer Visionen zu umfassen. In dieser Anleitung wird beschrieben, wie man verwendet wird

Die KI-Landschaft von 2025 ist mit der Ankunft von Googles Gemini 2.0 Flash und Openai's O4-Mini elektrisierend. Diese modernen Modelle, die in Abstand von Wochen veröffentlicht wurden, bieten vergleichbare fortschrittliche Funktionen und beeindruckende Benchmark-Ergebnisse. Diese eingehende Vergleiche


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

ZendStudio 13.5.1 Mac
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

DVWA
Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

SublimeText3 Englische Version
Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!
