Maison > Article > Périphériques technologiques > Mener la commercialisation de l'AIGC avec un « modèle vertical », quel est le parcours technique de FancyTech ?
Wir erleben eine weitere Runde technologischer Innovation. Dieses Mal stellt AIGC den Menschen Werkzeuge zur Verfügung, mit denen sie ihre Kreativität einfacher und beliebter machen können, aber die treibende Kraft dahinter ist nicht das „große“ Modell.
In den letzten zwei Jahren hat sich die AIGC-Technologie schneller entwickelt, als sich alle vorgestellt haben, und sie hat alle Bereiche erfasst, von Text über Bilder bis hin zu Videos. Die Diskussionen über den Kommerzialisierungsweg von AIGC haben nie aufgehört. Dabei gibt es Konsens und unterschiedliche Routen.
Einerseits sind die leistungsstarken Fähigkeiten des allgemeinen Modells erstaunlich und zeigen Anwendungspotenzial in allen Lebensbereichen. Insbesondere die Einführung von Architekturen wie DiT und VAR hat es Scaling Law ermöglicht, von der Textgenerierung zur visuellen Generierung überzugehen. Unter der Führung dieser Regel schreiten viele große Modellhersteller weiterhin in Richtung Erhöhung der Trainingsdaten, Investitionen in Rechenleistung und Akkumulation von Parametern voran.
Andererseits haben wir auch gesehen, dass ein universelles Modell nicht bedeutet, „alle zu töten“. Angesichts der vielen unterteilten Streckenaufgaben kann ein „gut trainiertes“ vertikales Modell bessere Ergebnisse erzielen.
Während die Großmodelltechnologie in eine Phase der beschleunigten Umsetzung eintritt, hat der letztgenannte Kommerzialisierungspfad schnell an Aufmerksamkeit gewonnen.
In diesem Evolutionsprozess sticht ein Startup-Unternehmen aus China, FancyTech, hervor: Es hat den Markt mit standardisierten Produkten für die kommerzielle Generierung visueller Inhalte schnell erweitert und die Überlegenheit des „vertikalen Modells“ auf der Ebene der industriellen Umsetzung nachgewiesen früher als seine Artgenossen.
Wenn man sich im Kreis der inländischen Großunternehmer umschaut, ist die Kommerzialisierungsbilanz von FancyTech für alle offensichtlich. Was jedoch weniger bekannt ist, ist das vertikale Modell und die technologischen Vorteile, mit denen dieses erst vor wenigen Jahren gegründete Unternehmen an der Spitze der Branche steht.
In einem exklusiven Interview sprach diese Website mit FancyTech über die technologischen Erkundungen, die sie unternehmen.
FancyTech veröffentlicht vertikales Videomodell DeepVideo
Wie durchbricht man Branchenbarrieren?
Im Allgemeinen kann die Feinabstimmung für nachgelagerte Aufgaben verwendet werden, nachdem die Nullstichproben-Generalisierungsfähigkeit eines allgemeinen Modells ein bestimmtes Niveau erreicht hat. Auf diese Weise werden heute auch viele große Modellprodukte auf den Markt gebracht. Aufgrund der tatsächlichen Wirkung kann jedoch nur eine „Feinabstimmung“ die Anforderungen industrieller Anwendungen nicht erfüllen, da die Aufgaben der Inhaltsgenerierung in jeder Branche ihre eigenen spezifischen und komplexen Standards haben.
Ein allgemeines Modell kann vielleicht 70 % der herkömmlichen Aufgaben erledigen, aber was Kunden wirklich brauchen, ist ein „vertikales Modell“, das 100 % ihrer Bedürfnisse erfüllen kann. Nehmen wir als Beispiel kommerzielles visuelles Design. In der Vergangenheit wurden entsprechende Arbeiten von Fachleuten mit langjähriger Erfahrung durchgeführt und mussten entsprechend den spezifischen Anforderungen der Marke entworfen und angepasst werden, was viel manuelle Erfahrung erforderte. Im Vergleich zu Indikatoren wie Ästhetik und Einhaltung von Anweisungen ist die „Produktrestaurierung“ ein Punkt, dem Marken bei dieser Aufgabe mehr Aufmerksamkeit schenken, und sie ist auch der entscheidende Faktor dafür, ob Marken bereit sind zu zahlen.
Im Prozess der Selbstentwicklung eines vertikalen Modells für kommerzielle Bilder/Videos hat FancyTech die Kernherausforderung zerlegt: wie man das Produkt ausreichend restauriert und in den Hintergrund einfügt, insbesondere im generierten Video, um kontrollierbare und inkonsistente Bewegungen zu erreichen des Produkts.
Mit der heutigen Entwicklung der Großmodelltechnologie ist für die Anwendungsschicht die Wahl des Open-Source- oder Closed-Source-Wegs nicht mehr das Kernproblem. Das vertikale Modell von FancyTech basiert auf dem zugrunde liegenden Open-Source-Algorithmus-Framework, überlagert mit eigener Datenanmerkung und Neuschulung und erfordert nur einige hundert GPUs für kontinuierliche Trainingsiterationen, um gute Generierungsergebnisse zu erzielen. Im Gegensatz dazu sind die beiden Faktoren „Produktdaten“ und „Trainingsmethoden“ entscheidender für den endgültigen Implementierungseffekt.
FancyTech hat die Idee der räumlichen Intelligenz eingeführt, um die 2D-Inhaltsgenerierung des Modells auf der Grundlage der Sammlung umfangreicher 3D-Trainingsdaten zu steuern. Insbesondere im Hinblick auf die Generierung von Bildinhalten schlug das Team ein „multimodales Feature-Gerät“ vor, um die Wiederherstellung des Produkts sicherzustellen, und nutzte eine spezielle Datenerfassung, um die natürliche Integration des Produkts und des Hintergrunds in Bezug auf Video sicherzustellen Bei der Inhaltsgenerierung rekonstruierte das Team das Video. Die generierten zugrunde liegenden Links dienen dazu, das Framework direktional zu gestalten und Datentechnik durchzuführen, um eine produktzentrierte Videogenerierung zu erreichen.
Echter Angriff zur Dimensionsreduzierung: Wie steuert „räumliche Intelligenz“ die Generierung von 2D-Inhalten?
Der Hauptgrund, warum viele Produkte zur visuellen Generierung unbefriedigend sind, liegt darin, dass aktuelle Modelle zur Bild- und Videogenerierung häufig auf der Grundlage von 2D-Trainingsdaten lernen und die reale physische Welt nicht verstehen.
Cela a atteint un consensus dans le domaine, et certains chercheurs pensent même que dans le paradigme de l'apprentissage autorégressif, la compréhension du monde par le modèle est toujours superficielle.
Mais dans la tâche de subdivision de la génération visuelle commerciale, il n'est pas totalement insoluble d'améliorer la compréhension du monde physique 3D du modèle et de mieux générer du contenu 2D.
FancyTech a migré les idées de recherche dans le domaine de « l'intelligence spatiale » vers la construction de modèles visuels génératifs. Différent des modèles génératifs généraux, l'idée de l'intelligence spatiale est d'apprendre des signaux originaux obtenus par un grand nombre de capteurs et de calibrer avec précision les signaux originaux obtenus par les capteurs pour donner au modèle la capacité de percevoir et de comprendre le monde réel.
Par conséquent, FancyTech remplace la prise de vue en studio traditionnelle par la numérisation lidar, accumule un grand nombre de paires de données 3D de haute qualité qui reflètent les différences avant et après l'intégration du produit, et combine les données de nuages de points 3D avec des données 2D pour servir conjointement de données de formation du modèle améliore la compréhension du modèle du monde réel.
Nous savons que lors de la génération de tout contenu visuel, la mise en forme des effets de lumière et d'ombre est une tâche très difficile. Des éléments tels que l'éclairage, les corps lumineux, le rétroéclairage et les points lumineux peuvent renforcer la superposition spatiale de l'image, mais il s'agit d'un « point de connaissance » difficile à comprendre pour les modèles génératifs.
Afin de collecter autant de données de lumière et d'ombre naturelles que possible, FancyTech a construit des dizaines de lumières avec une luminosité et une température de couleur réglables dans chaque environnement, ce qui signifie que chaque paire des données massives peut être superposée à plusieurs lumières. et les variations de luminosité et de température de couleur.
Cette collecte de données à haute intensité simule l'éclairage de scènes de tournage réelles, ce qui la rend plus conforme aux caractéristiques des scènes de commerce électronique.
Combiné à une accumulation de données 3D de haute qualité, FancyTech a réalisé une série d'innovations dans le cadre algorithmique, combinant organiquement les algorithmes spatiaux avec l'image et la vidéo algorithmes. Laissez le modèle mieux comprendre l’interaction entre les objets principaux et l’environnement.
Au cours du processus de formation, le modèle peut « émerger » dans une certaine mesure avec une compréhension du monde physique, de l'espace tridimensionnel, de la profondeur, de la réflexion et de la réfraction de la lumière, ainsi que de la lumière dans différents médias et différents matériaux. Les résultats de l'opération ont une compréhension plus profonde, et permettent finalement d'obtenir une « forte réduction » et une « hyper-fusion » des produits dans les résultats générés.
Quelles sont les innovations algorithmiques derrière la « forte réduction » et l'« hyper-fusion » ?
Pour les tâches courantes de génération d'images de scènes de produits, la méthode traditionnelle à ce stade utilise principalement des textures pour assurer la restauration de la partie du produit, puis met en œuvre l'édition de scènes d'images basées sur la technologie Inpainting . L'utilisateur sélectionne la zone qui doit être modifiée, entre dans l'invite ou fournit une image de référence pour guider la génération de la scène du produit. L'effet de fusion de cette méthode est meilleur, mais l'inconvénient est que la contrôlabilité des résultats de génération de scène n'est pas élevée, par exemple, elle n'est pas assez claire ou trop simple, et elle ne peut pas garantir le taux de disponibilité élevé d'une seule sortie.
Pour résoudre les problèmes qui ne peuvent pas être résolus par les méthodes actuelles, FancyTech propose son propre « générateur de fonctionnalités multimodal » pour extraire les caractéristiques du produit dans plusieurs dimensions, puis utiliser ces fonctionnalités pour générer des images de scènes intégrées.
Le travail d'extraction de caractéristiques peut être divisé en « caractéristiques globales » et « caractéristiques locales ». le produit, à l'aide de l'extraction VAE Encoder ; les fonctionnalités locales, y compris les détails du produit partout, sont extraites à l'aide de réseaux neuronaux graphiques. L'un des grands avantages du réseau neuronal graphique est qu'il peut extraire les informations de chaque pixel clé du produit et la relation entre les pixels clés, et améliorer la restauration des détails à l'intérieur du produit.
Dans la génération de contenu de produits en matériaux flexibles, l'effet obtenu par cette méthode est significativement amélioré :
Par rapport aux images , La génération de vidéo implique également le contrôle du mouvement du produit lui-même et les changements de lumière et d'ombre qu'il apporte. Pour les modèles généraux de génération vidéo, la difficulté réside dans l'incapacité de protéger indépendamment une certaine partie de la vidéo. Afin de résoudre ce problème, FancyTech a divisé la tâche en deux branches : « génération de mouvements de produits » et « intégration de scènes vidéo ».
Dans un premier temps, FancyTech a conçu des solutions de planification de mouvement ciblées pour contrôler le mouvement du produit sur l'écran, ce qui équivaut à pré-fixer le produit à chaque fois. dans la vidéo. Une image d'image
La deuxième étape consiste à réaliser une génération contrôlable de vidéo via le module de contrôle. Le module de contrôle adopte une conception flexible et est compatible avec différentes architectures telles que U-net et DiT, ce qui facilite son extension et son optimisation.
Au niveau des données, en plus d'utiliser les ressources de données de produits uniques de FancyTech pour fournir une formation au contrôle et à la protection des produits, plusieurs ensembles de données open source sont également ajoutés pour garantir des capacités de généralisation des scènes. Le plan de formation combine l'apprentissage comparatif et l'apprentissage en cours, et permet finalement d'obtenir l'effet de protection des biens.
Que les dividendes de l'ère AIGC
partent du modèle vertical et s'orientent vers des gens plus ordinaires
Qu'il soit « universel » ou « vertical », le point final des deux voies est la commercialisation.
Le bénéficiaire le plus direct de la mise en œuvre du modèle vertical de FancyTech est la marque. Dans le passé, le cycle de production d'une vidéo publicitaire pouvait durer jusqu'à plusieurs semaines entre la planification, le tournage et le montage. Mais à l'ère de l'AIGC, il ne faut que dix minutes pour créer une telle vidéo publicitaire, et le coût ne représente qu'un cinquième du coût initial.
Grâce aux avantages de données massives et uniques et à un savoir-faire industriel, FancyTech a acquis une large reconnaissance au pays et à l'étranger grâce aux avantages du modèle vertical. Elle a signé des contrats avec Samsung et LG avec des partenaires coréens et a entamé une coopération avec Lazada. une plateforme de commerce électronique bien connue en Asie du Sud-Est ; aux États-Unis, elle a été favorisée par des marques locales telles que Kate Sommerville et Solawave ; en Europe, elle a remporté le LVMH Innovation Award et coopère en profondeur avec les pays européens. clients.
En plus du modèle vertical de base, FancyTech fournit également des fonctionnalités de publication automatique de liens complets et de retour de données pour les courtes vidéos d'IA, entraînant une croissance continue des ventes de produits.
Ce qui est plus important, c'est que le modèle vertical visualise la voie à suivre par le grand public pour utiliser la technologie AIGC pour améliorer la productivité. Par exemple, un studio photo de rue traditionnel peut achever la transformation de son entreprise d'une simple prise de vue de portrait à une production de matériel visuel commercial de niveau professionnel sans ajouter d'équipement professionnel et de professionnels avec l'aide des produits FancyTech.
Maintenant, simplement en décrochant un téléphone portable, presque tout le monde peut filmer des vidéos, enregistrer de la musique et partager ses créations avec le monde. Imaginez un avenir où l'AIGC libère à nouveau la créativité personnelle -
permettant aux gens ordinaires de franchir les seuils professionnels et de transformer plus facilement leurs idées en réalité, permettant ainsi à la productivité de chaque industrie de faire un bond en avant et de générer davantage d'industries émergentes, AIGC À partir de ce moment, les dividendes de l’époque apportés par la technologie commencent à réellement atteindre les gens ordinaires.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!