Maison  >  Article  >  Périphériques technologiques  >  La Silicon Valley parie que l’IA générative a le vent en poupe, permettant de transformer un simple texte en images voire en vidéos

La Silicon Valley parie que l’IA générative a le vent en poupe, permettant de transformer un simple texte en images voire en vidéos

WBOY
WBOYavant
2023-04-09 23:11:082006parcourir

La soi-disant « IA générative » qui a émergé ces dernières années suscite l’intérêt des géants technologiques de la Silicon Valley et des institutions de capital-risque. Ce type d’IA peut générer des images correspondantes basées sur un petit nombre de mots en quelques secondes. Les analystes prédisent que cette technologie sera largement utilisée dans diverses industries et générera des milliards de dollars en valeur économique.

Bien que les images générées par ces programmes informatiques ne soient pas parfaites, comme des doigts supplémentaires sur les mains, des courbures anormales des membres, etc. Dans le même temps, les générateurs d’images rencontrent également des problèmes lors du traitement du texte, comme la génération de symboles dénués de sens. Cependant, ces programmes générateurs d’images pourraient être le début d’un boom technologique. David Beisel, investisseur chez NextView Ventures, une société de capital-risque de la Silicon Valley, a déclaré : « Au cours des trois derniers mois, le terme « intelligence artificielle générative » est devenu un mot à la mode.

Depuis 2021, la technologie de l'IA générative a été créée. d’énormes progrès, incitant même de nombreuses personnes à quitter leur emploi pour créer de nouvelles entreprises, rêvant que l’IA pourrait alimenter une nouvelle génération de géants de la technologie à l’avenir.

Le domaine de l’IA est en plein essor depuis environ cinq ans, mais la plupart de ces avancées concernent la compréhension des données existantes. Les modèles d’IA sont devenus suffisamment efficaces pour reconnaître s’il y a un chat sur une photo que quelqu’un vient de prendre avec son téléphone. De plus, ces modèles sont suffisamment fiables pour fournir chaque jour des milliards de résultats de recherche au moteur de recherche Google. Cependant, les modèles d’IA générative peuvent générer des choses complètement nouvelles qui n’étaient pas disponibles auparavant. En d’autres termes, ils créent des données, et pas seulement les analysent.

Boris Dayma, créateur de la plateforme d'IA et d'apprentissage automatique Craiyon Productive AI, a déclaré : « La chose la plus impressionnante est que l'IA générative peut également créer de nouvelles choses. Il ne s'agit pas seulement de créer des images anciennes similaires, mais aussi. pour créer de nouvelles choses complètement différentes d'avant."

Sequoia Capital, une société de capital-risque bien connue de la Silicon Valley, a publié sur son site Internet : "Des jeux à la publicité en passant par le droit. D'un autre côté, l'IA générative peut. changer tous les domaines qui nécessitent la créativité humaine. Cette technologie a le potentiel de générer des milliards de dollars en valeur économique. est une IA générative capable de générer du texte.

Comment fonctionne l'IA générative

La génération d'images utilise des techniques issues d'un sous-ensemble de l'apprentissage automatique appelé apprentissage profond. L’apprentissage profond a été à l’origine d’une grande partie des progrès de l’IA depuis qu’un article historique de 2012 sur la classification des images a ravivé l’intérêt pour cette technologie. L'apprentissage profond utilise des modèles formés sur de grands ensembles de données jusqu'à ce que le programme comprenne les relations entre ces données. Le modèle peut ensuite être utilisé dans des applications telles que l'identification de la présence d'un chien dans une image ou la traduction d'un texte.

Image Generator fonctionne en inversant ce processus. Au lieu de traduire l’anglais vers le français, ils convertissent des phrases anglaises en images. Ils se composent généralement de deux parties principales, une qui traite la phrase initiale et une autre qui convertit les données en image.

La première partie de l'IA générative repose sur une méthode appelée Generative Adversarial Networks (Generative Adversarial Networks, GAN en abrégé). Auparavant, ces GAN étaient souvent utilisés pour générer des photos de personnes inexistantes. Essentiellement, ils fonctionnent en opposant deux modèles d’IA pour mieux créer des images qui répondent à un objectif prédéterminé.

Les méthodes plus récentes utilisent souvent des convertisseurs, un concept proposé pour la première fois par Google dans un article de 2017. Il s’agit d’une technologie émergente qui peut tirer parti d’ensembles de données plus importants, même si ses coûts de formation peuvent s’élever à des millions de dollars.

Le premier générateur d'images à avoir retenu beaucoup d'attention a été Dall-E, un projet lancé en 2021 par la startup OpenAI de la Silicon Valley. OpenAI a publié cette année une version mise à jour et plus puissante. "Avec Dall-E 2, c'est vraiment le moment où nous traversons l'Uncanny Valley", a déclaré Christian Cantrell, développeur spécialisé dans l'IA générative.

Un autre générateur d'images basé sur l'IA couramment utilisé est Craiyon, anciennement connu sous le nom de Dall-E. Mini, disponible en ligne. Une fois que l'utilisateur a saisi la phrase, il peut voir le dessin résultant dans le navigateur en quelques minutes.

Depuis son lancement en juillet 2021, Craiyon génère désormais environ 10 millions d'images par jour, pour un total de 1 milliard d'images inédites, selon Daima, le créateur de la plateforme d'IA et d'apprentissage automatique Craiyon Productive IA. Après une forte utilisation plus tôt cette année, Daimar a commencé à consacrer toute son énergie à Craiyon. Il a déclaré qu'il s'était concentré sur l'utilisation de publicités pour que les utilisateurs restent libres, car les coûts de serveur du site étaient élevés. Craiyon possède un compte Twitter dédié à la publication des images les plus étranges et les plus créatives, et compte plus d'un million de followers.

Mais le projet qui a suscité le plus d'enthousiasme est Stable Diffusion, qui a été rendu public en août de cette année. Son code est disponible sur GitHub et peut être exécuté sur un ordinateur, dans le cloud ou via une interface de programmation. Cela permet aux utilisateurs d'adapter le code du programme à leurs propres besoins ou de créer de nouveaux programmes par-dessus.

Par exemple, Stable Diffusion est intégré à Adobe Photoshop via un plug-in, permettant aux utilisateurs de générer des arrière-plans et d'autres parties d'images, qu'ils peuvent ensuite manipuler directement dans l'application à l'aide de calques et d'autres outils PS pour transformer l'IA générative en produits finis La technologie des images devient un outil à disposition des professionnels.

Cantrell, le développeur de ce plug-in, a travaillé chez Adobe pendant 20 ans et a démissionné cette année pour se concentrer sur l'IA générative. Le vétéran a déclaré que le plug-in avait été téléchargé des dizaines de milliers de fois. Les artistes lui ont dit qu'ils l'avaient utilisé dans d'innombrables endroits auxquels il ne s'attendait pas, comme pour animer Godzilla ou créer des images de Spider-Man dans n'importe quelle pose que l'artiste pouvait imaginer.

Un art émergent utilisant l’IA générative consiste à construire des « invites », des phrases qui génèrent des images. Un moteur de recherche appelé Lexica peut relier les images de Stable Diffusion aux chaînes exactes de mots qui peuvent être utilisées pour les générer. Des plateformes comme Reddit et Discord proposent des astuces pour inciter les gens à saisir des phrases dont ils souhaitent générer des images.

Les startups, les fournisseurs de services cloud et les fabricants de puces pourraient en bénéficier le plus

De nombreux investisseurs considèrent l'IA générative comme une plate-forme potentiellement transformatrice, un peu comme les smartphones ou les débuts d'Internet. Ce changement élargit considérablement la taille du marché potentiel qui pourrait utiliser cette technologie.

Cantrell estime que l'IA générative est similaire à une technologie plus fondamentale, à savoir les bases de données. Il a déclaré : « L'IA générative est un peu comme une base de données. Les bases de données aident à libérer l'énorme potentiel des applications. Presque toutes les applications que nous utilisons dans la vie sont construites sur une base de données, mais personne ne se soucie du fonctionnement de la base de données, ils savent juste comment de l'utiliser. »

Michael Dempsey, associé directeur chez Compound VC, a déclaré qu'il était « très rare » qu'une technologie auparavant limitée au laboratoire entre dans le courant dominant, attirant un grand nombre d'investisseurs en capital-risque. Faites attention, ils aiment parier. des domaines à fort potentiel. Mais il a prévenu que l’IA générative se trouve actuellement dans une « phase de curiosité », plus proche du pic du cycle de battage médiatique. Les entreprises à ce stade peuvent échouer parce qu’elles ne se concentrent pas sur une utilisation spécifique pour laquelle les entreprises ou les consommateurs sont prêts à payer.

D'autres acteurs du domaine pensent que les startups pionnières de ces technologies aujourd'hui pourraient éventuellement défier les géants du logiciel qui dominent actuellement le domaine de l'IA, notamment Google, la société mère de Facebook Meta et Microsoft, et ouvrir la voie à l'essor du prochain génération de géants de la technologie.

Le PDG de Hugging Face, Clément Delangue, a déclaré : « Il y aura un grand nombre de nouvelles entreprises valant des milliards de dollars qui naîtront, et ces startups seront basées sur cette nouvelle technologie. Hugging Face Face est une plateforme de développement similaire à GitHub qui héberge des pré-entreprises. -Modèles d'IA entraînés, notamment Craiyon et Stable Diffusio. Son objectif est de permettre aux programmeurs de créer plus facilement une technologie d’IA.

Certaines entreprises ont reçu des investissements importants. Huging Face a été valorisé à 2 milliards de dollars après avoir levé des fonds plus tôt cette année auprès d'investisseurs tels que Lux Capital et Sequoia Capital. OpenAI, la startup la plus importante du secteur, a reçu plus d'un milliard de dollars de financement de Microsoft et Khosla Ventures. Pendant ce temps, Stability AI, développeur de Stable Diffusion, est en pourparlers pour lever du capital-risque pour une valeur pouvant atteindre 1 milliard de dollars.

Les fournisseurs de services cloud tels qu'Amazon, Microsoft et Google pourraient également en bénéficier, car l'IA générative peut être une technologie à forte intensité de calcul. Meta et Google ont embauché plusieurs des esprits les plus brillants du domaine pour intégrer cette technologie avancée dans les produits de l'entreprise. En septembre, Meta a annoncé une initiative d'IA appelée Make-A-Video qui fait passer la technologie au niveau supérieur en générant des vidéos plutôt que de simples images.

Le PDG de Meta, Mark Zuckerberg, a posté sur sa page Facebook : "C'est un progrès incroyable. Générer une vidéo est beaucoup plus difficile que générer une photo car en plus de générer correctement chaque pixel, le système doit également prédire comment ils changeront au fil du temps. " Récemment, Google a également publié un code de programme appelé Phenaki qui peut convertir du texte en vidéos d'une durée de quelques minutes.

Cet engouement pourrait également donner un coup de pouce aux fabricants de puces comme Nvidia, AMD et Intel, dont les processeurs graphiques sont idéaux pour former et déployer des modèles d'IA. Lors d'une conférence la semaine dernière, le PDG de Nvidia, Jensen Huang, a souligné que l'IA générative était une utilisation clé des dernières puces de l'entreprise, affirmant qu'une telle technologie pourrait bientôt révolutionner les communications.

Cependant, les avantages de l’IA générative pour les utilisateurs finaux sont encore limités. De nos jours, une grande partie de l’enthousiasme tourne autour des expériences gratuites ou à faible coût. Par exemple, certains auteurs ont essayé d’utiliser des générateurs d’images pour créer des illustrations pour leurs articles. Nvidia expérimente l'utilisation de modèles pour générer de nouvelles images 3D de personnes, d'animaux, de véhicules ou de meubles pouvant peupler les mondes de jeux virtuels.

Les problèmes éthiques sont difficiles à gérer

En fin de compte, tous ceux qui développent l’IA générative devront faire face aux problèmes éthiques posés par les générateurs d’images.

La première est la question de l’emploi. Bien que de nombreux programmes nécessitent des processeurs graphiques puissants, le contenu généré par ordinateur reste bien moins cher que le coût du temps d'un illustrateur professionnel, qui peut être payé des centaines de dollars de l'heure. L’IA générative pourrait causer de gros problèmes aux artistes, vidéastes et autres personnes qui gagnent leur vie en créant leurs œuvres. "Il s'avère que les modèles d'apprentissage automatique peuvent devenir meilleurs, plus rapides et moins chers que les humains", a déclaré Michael Dempsey, associé directeur chez Compound VC.

En ce qui concerne l'originalité et la propriété, l'IA générative posera également des défis plus complexes. Ce modèle d'IA a été formé à l'aide d'un grand nombre d'images existantes, et la question de savoir si le créateur de l'image originale détient les droits d'auteur sur l'image générée dans le style original est toujours débattue. Un artiste a récemment remporté un concours d’art dans le Colorado, aux États-Unis, en utilisant des images créées principalement par une IA générative appelée MidJourney. Il a déclaré dans une interview après sa victoire qu'il avait sélectionné l'une des centaines d'images qu'il avait générées, puis l'avait peaufinée et traitée dans PS.

Certaines images générées par Stable Diffusion semblent être filigranées, suggérant qu'une partie de l'ensemble de données d'origine est protégée par le droit d'auteur. Certains guides de conseils conseillent aux utilisateurs d'utiliser le nom d'un artiste vivant spécifique pour obtenir de meilleurs résultats en imitant le style créatif de cet artiste. Le mois dernier, Getty Images a interdit aux utilisateurs de télécharger des images génératives d’IA sur sa base de données d’images en raison de préoccupations concernant des litiges en matière de violation des droits d’auteur.

Le générateur d'images peut également être utilisé pour créer de nouvelles images de personnages ou d'objets de marque, tels que les Minions, les personnages de Marvel ou le trône de Game of Thrones. À mesure que les logiciels de génération d’images s’améliorent, ils peuvent également inciter les utilisateurs à croire à de fausses informations ou à montrer des images ou des vidéos d’événements qui ne se sont jamais produits.

Les développeurs doivent également faire face à la possibilité que les modèles d'IA formés sur de grandes quantités de données puissent contenir des biais liés au sexe, à la race ou à la culture dans les données, ce qui pourrait amener le modèle à présenter ce biais dans sa sortie. Huging Face a publié des documents sur des questions éthiques et discuté de la question du développement responsable de modèles d’IA.

Clement de Lange, PDG de Hugging Face, a déclaré : « Nous voyons des défis à court terme et actuels avec ces modèles car ce sont des modèles probabilistes, formés sur de grands ensembles de données et qui ont tendance à incorporer beaucoup de biais. » Il a été demandé à l’IA générative de dessiner le portrait d’un « ingénieur logiciel » et elle a généré l’image d’un homme blanc.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer