suchen
HeimTechnologie-PeripheriegeräteKIKI schreibt Romane, malt und schneidet Videos. Generative KI ist sogar noch beliebter!

​Seit kurzem erfreut sich generative KI wieder großer Beliebtheit! Ein WeChat-Applet namens „Dream Stealer“ wurde sofort ein Hit und erreichte einen Rekord von täglich 50.000 neuen Benutzern.

Dream Stealer ist eine KI-Plattform, die Bilder basierend auf eingegebenem Text generieren kann. Es ist ein Zweig von AIGC (AI-Generated Content).

Nachdem Benutzer ihrer Fantasie freien Lauf gelassen und eine Textbeschreibung eingegeben haben, kann Dream Stealer Bilder in drei Verhältnissen generieren: 1:1, 9:16 und 16:9. Zusätzlich zu den einfachen Ölgemälden stehen außerdem 24 Malstile zur Auswahl Zu den Malkategorien wie Aquarell und Skizze gehören auch spezielle Stile wie Cyberpunk, Vaporwave, Pixel Art, Ghibli und CG-Rendering.

KI schreibt Romane, malt und schneidet Videos. Generative KI ist sogar noch beliebter!

Bild: Der Technology Cloud Report-Editor hat zum Generieren das WeChat-Applet „Dream Stealer“ verwendet

Tatsächlich ist dies nicht die erste KI-Software, die „Text zum Erstellen von Bildern verwendet“. Von Midjourney bis Stable Diffusion war generative KI in den letzten zwei Jahren das heißeste Thema.

Generative KI hat als wichtige Richtung in der Entwicklung von KI großes Entwicklungspotenzial.

Nach Angaben von Gartner im ersten Halbjahr wird erwartet, dass generative KI bis 2025 10 % aller generierten Daten ausmachen wird, verglichen mit derzeit weniger als 1 %.

Manche Menschen glauben, dass 2022 das erste Jahr sein wird, in dem generative KI aus der Technologie reift und in die Grundlagen der Gesellschaft vordringt.

Das explosionsartige Wachstum der generativen KI: von Bildern zu Videos

In den letzten Jahren kann die Entwicklung der KI-Technologie im visuellen Bereich als „rasant“ bezeichnet werden.

Im Januar letzten Jahres veröffentlichte OpenAI, ein Unternehmen, das sich zum Ziel gesetzt hat, „der gesamten Menschheit mit allgemeiner künstlicher Intelligenz zu helfen“, das bahnbrechende DALL-E auf Basis des GPT-3-Modells, das die Generierung von Bildern aus Text realisiert.

Im April dieses Jahres setzte das von OpenAI veröffentlichte DALL-E 2-Modell der zweiten Generation erneut einen neuen Maßstab im Bereich der Bilderzeugung.

Benutzer können durch kurze Textbeschreibungen (Eingabeaufforderung) entsprechende Bilder generieren, sodass auch Menschen, die nicht zeichnen können, ihre Fantasie in künstlerische Kreationen umsetzen können, wie zum Beispiel die vier Wörter, die durch den Satz „Alpaka spielt Basketball“ generiert werden. Das Bild sieht sehr gut aus im Einklang mit den Erwartungen aller.

KI schreibt Romane, malt und schneidet Videos. Generative KI ist sogar noch beliebter!

Beispiel für ein vom DALL-E 2-Modell generiertes Bild

Da die Granularität der Textbeschreibungen immer weiter verfeinert wird, werden die generierten Bilder nicht nur immer genauer, und der Effekt ist für Nicht-Benutzer bereits ziemlich schockierend. Profis.

Aber Modelle wie DALL-E 2 bleiben immer noch im Bereich der zweidimensionalen Erstellung, also der Bilderzeugung, und können keine 360-Grad-3D-Modelle ohne Sackgassen generieren.

Allerdings kann dies die sehr kreativen Algorithmusforscher nicht aufhalten. Eine der neuesten Errungenschaften der Google-Forschung – das DreamFusion-Modell – kann 3D-Modelle durch die Eingabe einfacher Textaufforderungen generieren Generierte 3D-Modelle verfügen außerdem über Eigenschaften wie Dichte und Farbe, und mehrere generierte 3D-Modelle können sogar in eine Szene integriert werden.

Nach der Generierung von 3D-Bildern erweiterten die Algorithmus-Mitarbeiter von Meta ihre Ideen weiter, stellten höhere Schwierigkeitsgrade in Frage und begannen, die Verwendung von Textaufforderungen zur direkten Generierung von Videos zu erforschen.

Obwohl es sich bei einem Video im Wesentlichen um die Überlagerung einer Reihe von Bildern handelt, ist es im Vergleich zur Generierung von Bildern bei der Verwendung von Text zur Generierung eines Videos nicht nur erforderlich, mehrere Bilder derselben Szene zu generieren, sondern auch die Kontinuität zwischen benachbarten Bildern sicherzustellen. Sex. Da beim Training des Modells nur sehr wenige hochwertige Videodaten verfügbar sind, der Rechenaufwand jedoch sehr groß ist, erhöht sich die Komplexität der Videogenerierungsaufgabe erheblich.

Im September dieses Jahres veröffentlichten Forscher von Meta Make-A-Video, ein hochwertiges Kurzvideo-Generierungsmodell auf Basis künstlicher Intelligenz, das der Videoversion von DALL-E entspricht, die auch den Spitznamen „Made with Mouth“ trägt. Video“, das heißt, Sie können durch Textansagen neue Videoinhalte erstellen. Die Schlüsseltechnologie dahinter stammt auch aus der „Text-Bild“-Synthesetechnologie, die von Bildgeneratoren wie DALL-E verwendet wird.

Nur eine Woche später kündigte Google-CEO Pichai offiziell zwei Modelle an, die Metas Make-A-Video direkt herausfordern würden, nämlich Imagen Video und Phenaki.

Im Vergleich zu Make-A-Video hebt Imagen Video die hochauflösenden Eigenschaften von Videos hervor, kann Videoclips mit einer Auflösung von 1280 * 768 und 24 Bildern pro Sekunde generieren und auch Werke verschiedener künstlerischer Stile verstehen und generieren Die 3D-Struktur des Objekts wird während der Rotationsanzeige nicht verformt;

übernimmt sogar die Fähigkeit von Imagen, Text genau darzustellen, und auf dieser Grundlage können durch einfache Beschreibung verschiedene kreative Animationen generiert werden.

KI schreibt Romane, malt und schneidet Videos. Generative KI ist sogar noch beliebter!​Imagen Video generiert Videobeispiele

Und Phenaki kann mehr als 2 Minuten lange Aufnahmen mit niedrigerer Auflösung basierend auf Eingabeaufforderungen von etwa 200 Wörtern generieren und so eine relativ vollständige Geschichte erzählen.

KI schreibt Romane, malt und schneidet Videos. Generative KI ist sogar noch beliebter!

Phenaki-generiertes Videobeispiel

Derzeit gibt es in China viele generative KI-Anwendungen.

Zum Beispiel bietet die Jianying-APP von ByteDance KI-generierte Videofunktionen und kann kostenlos genutzt werden.

Die Bild-zu-Text-Videofunktion ähnelt der von Google. Ersteller können ein paar Schlüsselwörter oder einen kurzen Textabschnitt verwenden, um ein kreatives Kurzvideo zu erstellen.

Clip Screen kann auch Videomaterialien auf der Grundlage von Textbeschreibungen intelligent zuordnen und Videos in Werke mit eher vertikalem Inhalt packen, darunter Finanzen, Geschichte, Geisteswissenschaften und andere Kategorien.

Im Januar 2022 startete NetEase die One-Stop-KI-Musikerstellungsplattform „NetEase Tianyin“, die von Nutzern in Lieder umgewandelte Neujahrsgrüße generiert und in der ersten Jahreshälfte eine professionelle Website-Version auf den Markt brachte.

Im September 2021 wurde die Caiyun Xiaomeng APP gestartet, mit der verschiedene Texttypen erstellt werden können. Benutzer müssen nur einen Anfang von 1-1000 Wörtern angeben, und Caiyun Xiaomeng kann mit dem Schreiben der folgenden Geschichte fortfahren.

Tatsächlich gibt es viele Formen der KI-Erstellung. Wenn generative KI-Technologie auf das Schreiben angewendet wird, können maschinelle Versionen von Journalisten, Romanautoren, Dichtern, Drehbuchautoren usw. entstehen. Wenn sie auf die Bereiche Malerei, Musik und Tanz angewendet wird, kann sie Maler, Komponisten und Redakteure „kultivieren“. . Tanzpersonal.

Hinter der Explosion der generativen KI

Im vergangenen Jahr hat sich die generative KI noch besser entwickelt. Softwareriesen im KI-Bereich wie Google, Microsoft und Meta haben diese Technologie intern vorangetrieben und generative KI in ihre Produkte integriert.

Warum ist generative KI plötzlich so beliebt?

Tatsächlich entwickelt sich die generative KI-Technologie rasant, war jedoch aufgrund zu hoher technischer Schwellenwerte bisher auf einen kleinen Kreis in der Technologiebranche beschränkt.

Wenn wir auf die Entwicklungsgeschichte der KI-Technologie zurückblicken, werden wir feststellen, dass die Explosion generativer KI untrennbar mit drei Faktoren verbunden ist: bessere Modelle, mehr Daten und mehr Berechnungen.

Vor 2015 galten kleine Modelle als „modernste Technologie“ zum Verstehen von Sprache. Diese kleinen Modelle eignen sich hervorragend für analytische Aufgaben und werden für Aufgaben eingesetzt, die von der Vorhersage von Lieferzeiten bis zur Betrugsklassifizierung reichen.

Allerdings sind sie für allgemeine Generierungsaufgaben nicht ausdrucksstark genug. Das Generieren von Texten oder Codes auf menschlicher Ebene ist immer noch ein Traum.

Im Jahr 2017 veröffentlichte Google Research ein bahnbrechendes Papier (Attention is All You Need), in dem eine neue neuronale Netzwerkarchitektur für das Verständnis natürlicher Sprache beschrieben wird, sogenannte Transformatoren, die qualitativ hochwertige Sprachmodelle generieren kann und gleichzeitig über eine höhere Qualität verfügt Parallelisierbarkeit und die erforderliche Trainingszeit werden ebenfalls stark reduziert.

Wenn die Modelle größer werden, zeigen sie natürlich übermenschliche Leistungen. Der Rechenaufwand für das Training dieser Modelle stieg von 2015 bis 2020 um sechs Größenordnungen, wobei die Ergebnisse die Benchmarks für die menschliche Leistung in den Bereichen Handschrift, Sprach- und Bilderkennung, Leseverständnis und Sprachverständnis übertrafen.

Unter ihnen sticht GPT-3 von OpenAI hervor. Die Leistung dieses Modells hat einen großen Sprung gegenüber GPT-2 gemacht und zeigt bessere Fähigkeiten von der Codegenerierung bis zum Schreiben von Witzen.

Trotz aller Fortschritte in Grundlagenforschungsbereichen sind diese Modelle nicht universell.

Sie sind groß, schwierig auszuführen (erfordert GPU-Koordination), nicht allgemein verfügbar (nicht verfügbar oder nur in der geschlossenen Betaphase) und teuer in der Nutzung als Cloud-Dienst.

Aber trotz dieser Einschränkungen kamen die ersten generativen KI-Anwendungen auf den Markt.

Da die Datenverarbeitung immer billiger wurde, entwickelte die Industrie weiterhin bessere Algorithmen und größere Modelle.

Die Entwicklerberechtigungen wurden von der Closed Beta auf die Open Beta oder in einigen Fällen auf Open Source erweitert.

Jetzt, da die Plattformschicht solide ist, die Modelle immer besser, schneller und billiger werden und der Zugang zu Modellen tendenziell kostenlos und Open Source ist, ist die KI-Anwendungsschicht reif für eine Explosion der Kreativität.

Im August dieses Jahres wurde beispielsweise das Text-Bild-Generierungsmodell Stable Diffusion als Open-Source-Lösung veröffentlicht. Nachfolger können dieses Open-Source-Tool besser nutzen, um eine umfassendere Inhaltsökologie zu erschließen, die eine entscheidende Rolle dabei spielt, es einem breiteren Spektrum bekannt zu machen der C-End-Benutzer eine wichtige Rolle.

Die Popularität von Stable Diffusion liegt im Wesentlichen darin, dass Open Source Kreativität freisetzt.

Generative KI steht vor echten Herausforderungen

Die Risikokapitalinstitution Sequoia Capital erwähnte in einem Blogbeitrag auf ihrer offiziellen Website: „Generative KIhat das Potenzial, einen wirtschaftlichen Wert in Billionenhöhe zu generieren.

“ Laut Sequoia Capital Generative KI kann jede Branche verändern, in der Menschen Originalwerke schaffen müssen, von Spielen über Werbung bis hin zum Recht.

Insbesondere sind die Anwendungsszenarien der generativen KI in der Zukunft sehr breit gefächert. Neben Branchen für die Produktion von Inhalten wie Kulturschaffen und Nachrichten bietet generative KI vielfältige Anwendungsmöglichkeiten in vielen Branchen wie dem Gesundheitswesen, dem digitalen Handel, der Fertigung usw Anwendungsaussichten in der Landwirtschaft, z. B. Unterstützung bei der Erkennung von Läsionen bei Röntgen-, CT- und anderen Gerätescans, Erstellung digitaler Produktzwillinge, Unterstützung bei der Prüfung der Produktqualität usw.

Es gibt auch reichlich Anwendungsraum für beliebte Technologien wie XR, digitale Zwillinge und autonome Fahrzeuge.

Aber es ist erwähnenswert, dass es in der aktuellen generativen KI noch viele Probleme gibt, die gelöst werden müssen.

Im Unterhaltungsbereich beispielsweise ist einer der Gründe, warum viele Menschen generative KI für die Erstellung nutzen, die Vermeidung von Urheberrechtsproblemen. Dies bedeutet jedoch nicht, dass keine versteckten Gefahren bestehen.

Einerseits kombiniert die KI-Erstellung auch die gelernten Daten entsprechend den Anforderungen neu. Obwohl die Granularität immer feiner wird, ist es unvermeidlich, dass einige scharfsichtige Menschen erkennen, auf welche Werke verwiesen werden kann, und einige Internetnutzer sogar Auf der sozialen Plattform hieß es, dass auf einem KI-generierten Bild vage Spuren einer vermuteten Unterschrift zu erkennen seien.

Andererseits beanspruchen die meisten Plattformen der aktuellen KI-Generation kein Urheberrecht oder geben eindeutig an, dass sie kommerzialisiert werden können. Mit der zunehmenden Kommerzialisierung der generativen KI stellt sich jedoch die Frage, ob ein solches Urheberrechtsumfeld existiert und ob neue Urheberrechtsprobleme auftreten werden entstehen, sind ebenfalls Diskussionsbedarf.

Auch die Logik und Sicherheit der generativen KI müssen verbessert werden. Die derzeitige generative KI ist anfällig für Fehler im gesunden Menschenverstand und auch anfällig für Probleme in Bereichen, die ein Langzeitgedächtnis erfordern.

Zum Beispiel kommt es im Prozess von KI-generierten Romanen aufgrund der langen Länge oft zu Inkonsistenzen.

Auch wenn generative KI bereits in vielen Bereichen eingesetzt werden kann, ist daher, um generative KI wirklich zum Einsatz zu bringen, viel Training erforderlich, um größere Verluste durch KI-„Fehler“ zu vermeiden.

Schließlich gibt es in Anwendungsszenarien wie Medizin und Fertigung nicht den gleichen Spielraum für Versuch und Irrtum wie in der Kultur- und Kreativbranche.

Fazit

Obwohl generative KI derzeit untrennbar mit menschlichen Eingriffen verbunden ist, lässt sich nicht leugnen, dass generative KI immer noch großes Entwicklungspotenzial hat.

Das Aufkommen generativer KI bedeutet, dass KI beginnt, eine neue Rolle in realen Inhalten einzunehmen, von „Beobachtung und Vorhersage“ bis hin zu „direkter Generierung und Entscheidungsfindung“. Mit anderen Worten: Generative KI schafft, nicht nur analysiert.

Wie OpenAI-CEO Sam Altman sagte: „Generative KI erinnert uns daran, dass es schwierig ist, Vorhersagen über künstliche Intelligenz zu treffen.

Vor zehn Jahren war die gängige Meinung, dass künstliche Intelligenz zunächst die manuelle Arbeit beeinflussen würde; dann ist kognitive Arbeit; vielleicht kann es eines Tages kreative Arbeit leisten

Das obige ist der detaillierte Inhalt vonKI schreibt Romane, malt und schneidet Videos. Generative KI ist sogar noch beliebter!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
2023年机器学习的十大概念和技术2023年机器学习的十大概念和技术Apr 04, 2023 pm 12:30 PM

机器学习是一个不断发展的学科,一直在创造新的想法和技术。本文罗列了2023年机器学习的十大概念和技术。 本文罗列了2023年机器学习的十大概念和技术。2023年机器学习的十大概念和技术是一个教计算机从数据中学习的过程,无需明确的编程。机器学习是一个不断发展的学科,一直在创造新的想法和技术。为了保持领先,数据科学家应该关注其中一些网站,以跟上最新的发展。这将有助于了解机器学习中的技术如何在实践中使用,并为自己的业务或工作领域中的可能应用提供想法。2023年机器学习的十大概念和技术:1. 深度神经网

人工智能自动获取知识和技能,实现自我完善的过程是什么人工智能自动获取知识和技能,实现自我完善的过程是什么Aug 24, 2022 am 11:57 AM

实现自我完善的过程是“机器学习”。机器学习是人工智能核心,是使计算机具有智能的根本途径;它使计算机能模拟人的学习行为,自动地通过学习来获取知识和技能,不断改善性能,实现自我完善。机器学习主要研究三方面问题:1、学习机理,人类获取知识、技能和抽象概念的天赋能力;2、学习方法,对生物学习机理进行简化的基础上,用计算的方法进行再现;3、学习系统,能够在一定程度上实现机器学习的系统。

超参数优化比较之网格搜索、随机搜索和贝叶斯优化超参数优化比较之网格搜索、随机搜索和贝叶斯优化Apr 04, 2023 pm 12:05 PM

本文将详细介绍用来提高机器学习效果的最常见的超参数优化方法。 译者 | 朱先忠​审校 | 孙淑娟​简介​通常,在尝试改进机器学习模型时,人们首先想到的解决方案是添加更多的训练数据。额外的数据通常是有帮助(在某些情况下除外)的,但生成高质量的数据可能非常昂贵。通过使用现有数据获得最佳模型性能,超参数优化可以节省我们的时间和资源。​顾名思义,超参数优化是为机器学习模型确定最佳超参数组合以满足优化函数(即,给定研究中的数据集,最大化模型的性能)的过程。换句话说,每个模型都会提供多个有关选项的调整“按钮

得益于OpenAI技术,微软必应的搜索流量超过谷歌得益于OpenAI技术,微软必应的搜索流量超过谷歌Mar 31, 2023 pm 10:38 PM

截至3月20日的数据显示,自微软2月7日推出其人工智能版本以来,必应搜索引擎的页面访问量增加了15.8%,而Alphabet旗下的谷歌搜索引擎则下降了近1%。 3月23日消息,外媒报道称,分析公司Similarweb的数据显示,在整合了OpenAI的技术后,微软旗下的必应在页面访问量方面实现了更多的增长。​​​​截至3月20日的数据显示,自微软2月7日推出其人工智能版本以来,必应搜索引擎的页面访问量增加了15.8%,而Alphabet旗下的谷歌搜索引擎则下降了近1%。这些数据是微软在与谷歌争夺生

荣耀的人工智能助手叫什么名字荣耀的人工智能助手叫什么名字Sep 06, 2022 pm 03:31 PM

荣耀的人工智能助手叫“YOYO”,也即悠悠;YOYO除了能够实现语音操控等基本功能之外,还拥有智慧视觉、智慧识屏、情景智能、智慧搜索等功能,可以在系统设置页面中的智慧助手里进行相关的设置。

人工智能在教育领域的应用主要有哪些人工智能在教育领域的应用主要有哪些Dec 14, 2020 pm 05:08 PM

人工智能在教育领域的应用主要有个性化学习、虚拟导师、教育机器人和场景式教育。人工智能在教育领域的应用目前还处于早期探索阶段,但是潜力却是巨大的。

30行Python代码就可以调用ChatGPT API总结论文的主要内容30行Python代码就可以调用ChatGPT API总结论文的主要内容Apr 04, 2023 pm 12:05 PM

阅读论文可以说是我们的日常工作之一,论文的数量太多,我们如何快速阅读归纳呢?自从ChatGPT出现以后,有很多阅读论文的服务可以使用。其实使用ChatGPT API非常简单,我们只用30行python代码就可以在本地搭建一个自己的应用。 阅读论文可以说是我们的日常工作之一,论文的数量太多,我们如何快速阅读归纳呢?自从ChatGPT出现以后,有很多阅读论文的服务可以使用。其实使用ChatGPT API非常简单,我们只用30行python代码就可以在本地搭建一个自己的应用。使用 Python 和 C

人工智能在生活中的应用有哪些人工智能在生活中的应用有哪些Jul 20, 2022 pm 04:47 PM

人工智能在生活中的应用有:1、虚拟个人助理,使用者可通过声控、文字输入的方式,来完成一些日常生活的小事;2、语音评测,利用云计算技术,将自动口语评测服务放在云端,并开放API接口供客户远程使用;3、无人汽车,主要依靠车内的以计算机系统为主的智能驾驶仪来实现无人驾驶的目标;4、天气预测,通过手机GPRS系统,定位到用户所处的位置,在利用算法,对覆盖全国的雷达图进行数据分析并预测。

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Dreamweaver Mac

Dreamweaver Mac

Visuelle Webentwicklungstools

SublimeText3 Linux neue Version

SublimeText3 Linux neue Version

SublimeText3 Linux neueste Version

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

SublimeText3 Englische Version

SublimeText3 Englische Version

Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung