Heim > Artikel > Technologie-Peripheriegeräte > Silicon Valley geht davon aus, dass die generative KI auf dem Vormarsch ist und es Ihnen ermöglicht, einfachen Text in Bilder oder sogar Videos umzuwandeln
Die sogenannte „generative KI“, die in den letzten Jahren entstanden ist, weckt das Interesse von Technologiegiganten und Risikokapitalinstituten aus dem Silicon Valley. Diese Art von KI kann auf der Grundlage einer kleinen Anzahl von Wörtern in wenigen Fällen passende Bilder generieren Sekunden. Analysten gehen davon aus, dass diese Technologie in verschiedenen Branchen weit verbreitet sein und einen wirtschaftlichen Wert in Billionenhöhe generieren wird.
Obwohl die von diesen Computerprogrammen erzeugten Bilder nicht perfekt sind, wie z. B. zusätzliche Finger an den Händen, unnatürliche Biegungen der Gliedmaßen usw. Gleichzeitig stoßen Bildgeneratoren auch auf Probleme bei der Textverarbeitung, etwa durch die Erzeugung bedeutungsloser Symbole. Allerdings könnten diese bildgenerierenden Programme der Beginn eines Technologiebooms sein. David Beisel, Investor bei NextView Ventures, einem Risikokapitalunternehmen aus dem Silicon Valley, sagte: „In den letzten drei Monaten ist der Begriff ‚generative künstliche Intelligenz‘ zu einem Schlagwort geworden.“ Die KI-Technologie hat enorme Fortschritte gemacht und viele Menschen sogar dazu inspiriert, ihren Job aufzugeben, um neue Unternehmen zu gründen, und träumen davon, dass KI in Zukunft eine neue Generation von Technologiegiganten antreiben kann.
Der Bereich der KI erlebte in den letzten etwa fünf Jahren einen Boom, aber die meisten dieser Fortschritte haben mit der Sinngewinnung bestehender Daten zu tun. KI-Modelle sind mittlerweile effizient genug, um zu erkennen, ob auf einem Foto, das jemand gerade mit seinem Handy aufgenommen hat, eine Katze zu sehen ist. Darüber hinaus sind diese Modelle zuverlässig genug, um täglich Milliarden von Suchergebnissen an die Google-Suchmaschine zu liefern. Allerdings können generative KI-Modelle völlig neue Dinge generieren, die vorher nicht verfügbar waren. Mit anderen Worten: Sie erstellen Daten und analysieren sie nicht nur.
Boris Dayma, Schöpfer der KI- und maschinellen Lernplattform Craiyon Productive AI, sagte: „Das Beeindruckendste ist: Ja, generative KI kann das auch.“ Sie können nicht nur ähnliche alte Bilder erstellen, sondern auch neue Dinge erstellen, die völlig anders sind als zuvor: „Von Spielen über Werbung bis hin zu Recht kann generative KI alle Bereiche verändern, die erforderlich sind.“ Menschliche Kreativität hat das Potenzial, Zehntausende von 100 Millionen US-Dollar zu generieren. Noch interessanter ist, dass Sequoia Capital in dem Beitrag auch darauf hinwies, dass der oben genannte Artikel teilweise von GPT-3 verfasst wurde , die selbst eine generative KI ist, die Text generieren kann.
Wie generative KI funktioniert
Bei der Bilderzeugung werden Techniken aus einer Teilmenge des maschinellen Lernens verwendet, die als Deep Learning bezeichnet wird. Deep Learning hat einen Großteil des Fortschritts in der KI vorangetrieben, seit ein bahnbrechendes Papier zur Bildklassifizierung aus dem Jahr 2012 das Interesse an der Technologie neu entfachte. Deep Learning verwendet Modelle, die auf großen Datensätzen trainiert werden, bis das Programm die Beziehungen in diesen Daten versteht. Das Modell kann dann für Anwendungen wie die Identifizierung, ob ein Hund auf einem Bild vorhanden ist, oder die Übersetzung von Text verwendet werden.
Image Generator funktioniert, indem er diesen Prozess umkehrt. Anstatt das Englische ins Französische zu übersetzen, wandeln sie englische Phrasen in Bilder um. Sie bestehen normalerweise aus zwei Hauptteilen: einem, der die anfängliche Phrase verarbeitet, und einem anderen, der die Daten in ein Bild umwandelt.Der erste Teil der generativen KI basiert auf einer Methode namens Generative Adversarial Networks (kurz: Generative Adversarial Networks, GAN). Früher wurden diese GANs häufig verwendet, um Fotos von nicht existierenden Personen zu erstellen. Im Wesentlichen funktionieren sie, indem sie zwei KI-Modelle gegeneinander antreten lassen, um bessere Bilder zu erstellen, die ein vorgegebenes Ziel erfüllen.
Neuere Methoden verwenden häufig Konverter, ein Konzept, das Google erstmals in einem Artikel aus dem Jahr 2017 vorgeschlagen hat. Hierbei handelt es sich um eine aufstrebende Technologie, die größere Datensätze nutzen kann, deren Schulungskosten jedoch mehrere Millionen Dollar betragen können. Der erste Bildgenerator, der viel Aufmerksamkeit erregte, war Dall-E, ein Projekt, das 2021 vom Silicon Valley-Startup OpenAI ins Leben gerufen wurde. OpenAI hat dieses Jahr eine aktualisierte und leistungsfähigere Version veröffentlicht. Christian Cantrell, ein auf generative KI spezialisierter Entwickler, sagte: „Mit Dall-E 2 durchqueren wir wirklich das Uncanny Valley.“ Ein weiterer häufig verwendeter KI-basierter Bildgenerator ist Craiyon. früher bekannt als Dall-E Mini, das online erhältlich ist. Nachdem der Benutzer den Ausdruck eingegeben hat, kann er die resultierende Zeichnung innerhalb weniger Minuten im Browser sehen. Laut Daima, dem Entwickler der KI- und maschinellen Lernplattform Craiyon Productive AI, generiert Craiyon seit seiner Einführung im Juli 2021 mittlerweile etwa 10 Millionen Bilder pro Tag, insgesamt sind es 1 Milliarde Bilder Bilder, die ich noch nie gesehen habe. Nachdem die Nutzung Anfang des Jahres stark angestiegen war, begann Daimar, seine ganze Energie Craiyon zu widmen. Er sagte, er habe sich auf die Verwendung von Anzeigen konzentriert, um die Nutzer freizuhalten, da die Serverkosten der Website hoch seien. Craiyon verfügt über einen Twitter-Account, der sich der Veröffentlichung der seltsamsten und kreativsten Bilder widmet, und hat über 1 Million Follower.Aber das Projekt, das die größte Begeisterung ausgelöst hat, ist Stable Diffusion, das im August dieses Jahres der Öffentlichkeit zugänglich gemacht wurde. Der Code ist auf GitHub verfügbar und kann auf einem Computer, in der Cloud oder über eine Programmierschnittstelle ausgeführt werden. Dies ermöglicht es Benutzern, den Programmcode an ihre eigenen Zwecke anzupassen oder neue Programme darauf aufzubauen.
Zum Beispiel ist Stable Diffusion über ein Plug-in in Adobe Photoshop integriert, sodass Benutzer Hintergründe und andere Teile von Bildern generieren können, die sie dann direkt in der App mithilfe von Ebenen und anderen PS-Tools bearbeiten können, um generative KI in umzuwandeln Fertigprodukte Die Technologie der Bilder wird zu einem Werkzeug, das Profis zur Verfügung steht.
Cantrell, der Entwickler dieses Plug-ins, arbeitete 20 Jahre lang bei Adobe und hat dieses Jahr gekündigt, um sich auf generative KI zu konzentrieren. Der Veteran sagte, das Plug-in sei Zehntausende Male heruntergeladen worden. Künstler erzählten ihm, dass sie es an unzähligen Orten verwendeten, die er nie erwartet hätte, etwa um Godzilla zu animieren oder Bilder von Spider-Man in jeder Pose zu erstellen, die sich der Künstler vorstellen konnte.
Eine neue Kunst, die generative KI nutzt, ist die Konstruktion von „Eingabeaufforderungen“, Phrasen, die Bilder erzeugen. Eine Suchmaschine namens Lexica kann Bilder von Stable Diffusion mit genau den Wortfolgen verknüpfen, die zu ihrer Generierung verwendet werden können. Plattformen wie Reddit und Discord bieten Tipps, wie Sie Menschen dazu bringen können, die Phrase einzugeben, für die sie ein Bild generieren möchten.
Viele Investoren betrachten generative KI als potenziell transformative Plattform, ähnlich wie Smartphones oder die Anfänge des Internets. Durch diese Verschiebung vergrößert sich der potenzielle Markt, der diese Technologie nutzen könnte, erheblich.
Cantrell glaubt, dass generative KI einer grundlegenderen Technologie ähnelt, nämlich Datenbanken. Er sagte: „Generative KI ist ein bisschen wie eine Datenbank. Datenbanken helfen dabei, das enorme Potenzial von Anwendungen zu erschließen. Fast jede Anwendung, die wir im Leben verwenden, basiert auf einer Datenbank, aber niemand kümmert sich darum, wie die Datenbank funktioniert. Sie wissen nur wie.“
Michael Dempsey, geschäftsführender Gesellschafter bei Compound VC, sagte, es sei „sehr selten“, dass eine Technologie, die bisher auf das Labor beschränkt war, in den Mainstream gelangt und eine große Zahl von Risikoinvestoren anzieht Bereiche mit großem Potenzial. Er warnte jedoch davor, dass sich die generative KI derzeit in einer „Neugierphase“ befinde und näher am Höhepunkt des Hype-Zyklus stehe. Unternehmen in dieser Phase können scheitern, weil sie sich nicht auf eine bestimmte Nutzung konzentrieren, für die Unternehmen oder Verbraucher bereit sind zu zahlen.
Andere in diesem Bereich glauben, dass die Startups, die heute Pionierarbeit bei diesen Technologien leisten, letztendlich die Softwaregiganten herausfordern könnten, die derzeit den KI-Bereich dominieren, darunter Google, die Facebook-Muttergesellschaft Meta und Microsoft, und den Weg für den Aufstieg der nächsten ebnen könnten Generation von Technologiegiganten.
Clement Delangue, CEO von Hugging Face, sagte: „Es wird eine große Anzahl neuer Unternehmen im Wert von Billionen Dollar entstehen, und diese Startups werden auf dieser neuen Technologie basieren.“ Hugging Face Face ist eine Entwicklerplattform ähnlich wie GitHub, die Pre-Unternehmen hostet -trainierte KI-Modelle, einschließlich Craiyon und Stable Diffusio. Ziel ist es, Programmierern den Aufbau von KI-Technologie zu erleichtern.
Einige Unternehmen haben erhebliche Investitionen erhalten. Huging Face wurde mit 2 Milliarden US-Dollar bewertet, nachdem das Unternehmen Anfang des Jahres Finanzmittel von Investoren wie Lux Capital und Sequoia Capital erhalten hatte. OpenAI, das bekannteste Startup in diesem Bereich, hat mehr als 1 Milliarde US-Dollar an Finanzmitteln von Microsoft und Khosla Ventures erhalten. Unterdessen führt der Stable Diffusion-Entwickler Stability AI Gespräche über die Beschaffung von Risikokapital im Wert von bis zu 1 Milliarde US-Dollar.
Cloud-Dienstanbieter wie Amazon, Microsoft und Google könnten ebenfalls profitieren, da generative KI eine rechenintensive Technologie sein kann. Meta und Google haben viele der klügsten Köpfe auf diesem Gebiet engagiert, um diese fortschrittliche Technologie in die Produkte des Unternehmens zu integrieren. Im September kündigte Meta eine KI-Initiative namens Make-A-Video an, die die Technologie auf die nächste Stufe hebt, indem sie Videos statt nur Bilder generiert.
Mark Zuckerberg, CEO von Meta, schrieb auf seiner Facebook-Seite: „Das ist ein erstaunlicher Fortschritt. Die Erstellung eines Videos ist viel schwieriger als die Erstellung eines Fotos, da das System nicht nur jedes Pixel korrekt generieren muss, sondern auch vorhersagen muss, wie sich diese im Laufe der Zeit ändern werden.“ „Kürzlich hat Google auch einen Programmcode namens Phenaki veröffentlicht, der Texte in minutenlange Videos umwandeln kann.
Der Hype könnte auch Chipherstellern wie Nvidia, AMD und Intel Auftrieb geben, deren Grafikprozessoren sich ideal für das Training und den Einsatz von KI-Modellen eignen. Auf einer Konferenz letzte Woche hob Nvidia-CEO Jensen Huang die generative KI als eine Schlüsselanwendung der neuesten Chips des Unternehmens hervor und sagte, diese Technologie könne bald die Kommunikation revolutionieren.
Allerdings sind die Vorteile generativer KI für Endbenutzer noch begrenzt. Ein großer Teil der Aufregung dreht sich heutzutage um kostenlose oder kostengünstige Experimente. Einige Autoren haben beispielsweise versucht, mithilfe von Bildgeneratoren Illustrationen für ihre Artikel zu erstellen. Nvidia experimentiert damit, mithilfe von Modellen neue 3D-Bilder von Menschen, Tieren, Fahrzeugen oder Möbeln zu generieren, die virtuelle Spielewelten bevölkern können.
Letztendlich wird sich jeder, der generative KI entwickelt, mit den ethischen Fragen auseinandersetzen müssen, die Bildgeneratoren aufwerfen.
Das erste ist die Beschäftigungsfrage. Obwohl viele Programme leistungsstarke Grafikprozessoren erfordern, sind computergenerierte Inhalte immer noch viel günstiger als die Zeitkosten eines professionellen Illustrators, der Hunderte von Dollar pro Stunde verdienen kann. Generative KI könnte Künstlern, Videofilmern und anderen, die ihren Lebensunterhalt mit der Erstellung ihrer Werke verdienen, große Probleme bereiten. „Es stellt sich heraus, dass Modelle für maschinelles Lernen möglicherweise besser, schneller und billiger werden als Menschen“, sagte Michael Dempsey, geschäftsführender Gesellschafter bei Compound VC.
In Bezug auf Originalität und Eigenverantwortung wird die generative KI komplexere Herausforderungen mit sich bringen. Dieses KI-Modell wurde anhand einer großen Anzahl vorhandener Bilder trainiert, und es wird immer noch diskutiert, ob der Ersteller des Originalbilds das Urheberrecht an dem im Originalstil erstellten Bild besitzt. Ein Künstler gewann kürzlich einen Kunstwettbewerb in Colorado, USA, bei dem er Bilder verwendete, die hauptsächlich von einer generativen KI namens MidJourney erstellt wurden. In einem Interview nach seinem Sieg sagte er, dass er eines der Hunderten von Bildern, die er erstellt hatte, ausgewählt und es dann in PS optimiert und verarbeitet habe.
Einige von Stable Diffusion generierte Bilder scheinen mit einem Wasserzeichen versehen zu sein, was darauf hindeutet, dass ein Teil des Originaldatensatzes urheberrechtlich geschützt ist. Einige Ratgeber empfehlen Benutzern, den Namen eines bestimmten, lebenden Künstlers zu verwenden, um bessere Ergebnisse bei der Nachahmung des kreativen Stils dieses Künstlers zu erzielen. Letzten Monat verbot Getty Images Benutzern das Hochladen generativer KI-Bilder in seine Bilddatenbank, weil sie Bedenken hinsichtlich Urheberrechtsverletzungsstreitigkeiten hatten.
Der Bildgenerator kann auch verwendet werden, um neue Bilder von markenrechtlich geschützten Charakteren oder Objekten zu erstellen, wie zum Beispiel Minions, Marvel-Charakteren oder dem Thron aus Game of Thrones. Da Bilderzeugungssoftware immer besser wird, besteht auch das Potenzial, Benutzer dazu zu verleiten, falsche Informationen zu glauben oder Bilder oder Videos von Ereignissen anzuzeigen, die nie stattgefunden haben.
Entwickler müssen sich auch mit der Möglichkeit auseinandersetzen, dass KI-Modelle, die auf großen Datenmengen trainiert wurden, in den Daten Verzerrungen in Bezug auf Geschlecht, Rasse oder Kultur enthalten können, was dazu führen kann, dass das Modell diese Verzerrung in seiner Ausgabe aufweist. Huging Face hat Material zu ethischen Fragen veröffentlicht und die Frage der verantwortungsvollen Entwicklung von KI-Modellen diskutiert.
Clement de Lange, CEO von Hugging Face, sagte: „Wir sehen bei diesen Modellen kurzfristige und aktuelle Herausforderungen, da es sich um probabilistische Modelle handelt, die auf großen Datenmengen trainiert werden und dazu neigen, viel Voreingenommenheit zu berücksichtigen.“ Die generative KI wurde gebeten, ein Porträt eines „Software-Ingenieurs“ zu zeichnen, und erzeugte das Bild eines weißen Mannes.
Das obige ist der detaillierte Inhalt vonSilicon Valley geht davon aus, dass die generative KI auf dem Vormarsch ist und es Ihnen ermöglicht, einfachen Text in Bilder oder sogar Videos umzuwandeln. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!