Maison >Périphériques technologiques >IA >Yang Fan, co-fondateur de SenseTime : De nouvelles opportunités pour le développement de l'industrie de l'IA apportées par la vague de grands modèles
36 Krypton a organisé un sommet sur le développement de l'industrie appelé « Disruption · AIGC » le 23 mai. Ce sommet rassemble les forces de l'industrie pour discuter conjointement des stratégies de réponse des entreprises et des industries face aux changements, partager des réflexions, explorer et découvrir les entreprises les plus potentielles et les technologies les plus précieuses de l'industrie, et explorer la voie à suivre dans un environnement turbulent.
Lors de la conférence, Yang Fan, co-fondateur de SenseTime et président du groupe d'entreprises de grands appareils, a prononcé un discours d'ouverture intitulé « Nouvelles opportunités pour le développement de l'industrie de l'IA apportées par la vague des grands modèles ». Yang Fan estime que la nouvelle vague d'IA présente deux caractéristiques : premièrement, le cycle entre la percée technologique et l'innovation du modèle commercial est plus court et les réalisations technologiques sont utilisées plus rapidement dans l'exploration et la pratique commerciales et industrielles, deuxièmement, par rapport aux dix dernières années ; , , l’industrialisation actuelle de l’intelligence artificielle facilite la transformation des avantages technologiques en barrières de données et en avantages d’échelle.
Yang Fan a également présenté ses propres points de vue et expliqué les raisons des progrès révolutionnaires de la technologie de l'intelligence artificielle. Il estime que même si le succès des grands modèles confirme encore l'esthétique violente des « données, puissance de calcul et algorithmes » de l'intelligence artificielle, derrière ces trois éléments se cache en réalité une ingénierie système globale. Prenant OpenAI comme exemple, Yang Fan a souligné que comment faire du bon travail en ingénierie des données, comment améliorer l'utilisation efficace des ressources de la puce et comment concevoir un algorithme moins coûteux mais bien structuré, chaque lien nécessite le soutien de l’expérience et des connaissances d’experts et des capacités d’ingénierie système. Il estime qu'il s'agit non seulement de la manifestation ultime des capacités techniques de base de l'entreprise de la couche modèle, mais également de la capacité clé nécessaire pour fournir des services d'infrastructure d'IA.
Ce qui suit est la transcription du discours de Yang Fan (organisé et édité par 36 Krypton) :
Bonjour à tous ! Je suis honoré de pouvoir partager avec vous certaines tendances de l'industrie des grands modèles lors de l'événement 36 Krypton aujourd'hui.
Dans une période de changements extrêmes dans l'industrie, je voudrais partager quelques points de vue. Tout d’abord, lorsqu’on parle aujourd’hui de grands modèles, il n’existe pas de définition précise. S’agit-il d’un modèle supérieur à des centaines de milliards ou à des dizaines de milliards ? À mon avis, de 2012 à aujourd'hui, au cours des dix dernières années, la structure du modèle de l'intelligence artificielle s'est élargie, et le nombre de paramètres a également augmenté. Pourquoi tout le monde semble-t-il soudainement avoir un concept maintenant, déclencher davantage de points chauds d’attention ? Nous pouvons constater qu'il existe une forte corrélation entre les nouvelles applications représentées par AlphaGo en 2016 et les consommateurs individuels. Au cours des deux dernières années, la technologie de l'intelligence artificielle a réalisé de nouveaux progrès et percées. Tout d'abord, ces progrès et percées concernent tout le monde. C'est plus directement lié, et tout le monde peut le ressentir directement. Deuxièmement, ces avancées ont en effet eu un impact plus important, je pense que l'intelligence artificielle peut réaliser des travaux innovants dans d'autres disciplines de la recherche scientifique, qu'il s'agisse de la biologie, de la physique, La chimie ou d'autres domaines, tels que le modèle ChatGPT auquel tout le monde prête attention aujourd'hui, sont très significatifs car ils ont le potentiel de piloter l'ensemble de notre technologie sous-jacente et de produire de nouveaux progrès. De tels nouveaux progrès apporteront probablement davantage de progrès à l’humanité à l’avenir.
À partir de 2021, d'autres percées technologiques continueront de se produire. Dans le même temps, nous avons assisté à un phénomène très intéressant. Après que cette série de percées technologiques ait obtenu certains résultats technologiques, nous avons commencé à explorer et à mettre en pratique cela dans l'industrie et les affaires. le cycle devient plus court qu’auparavant. Après cela, un grand nombre d'entreprises innovantes ont été créées dans le pays et à l'étranger, et des professeurs et des universitaires ont commencé à créer leur propre entreprise. Je pense qu'il y a peut-être eu des voies pour y parvenir sur le marché dans le passé, et la reconnaissance des investisseurs est devenue. plus élevé, y compris l'annonce de certaines API vincentiennes. Après cela, les gens ont rapidement commencé à essayer de devenir des célébrités Internet sur Xiaohongshu.
Nous observons de nombreuses tendances, des percées technologiques à l'innovation commerciale, ce cycle semble être plus court. Dans certains forums auxquels j'ai participé récemment, j'ai constaté que la plupart des gens parlent du type de grand modèle qu'ils souhaitent créer, de la taille et de la puissance du modèle, de ce qu'ils veulent faire avec ce modèle et de la manière de l'intégrer. certains scénarios spécifiques. Une super nouvelle APP, etc. Bien qu'aucun modèle majeur en Chine n'ait encore reçu de licence API officielle sous la supervision du gouvernement, un changement d'expansion aussi important s'est produit au cours des deux derniers mois.
Je pense donc que c'est un phénomène digne de notre attention. Nous constatons que le processus de commercialisation de cette série de grands modèles est plus rapide. Pourquoi cela a-t-il un tel effet ? Un point très important est que nous voyons beaucoup de nouvelles technologies qui peuvent faire plus d'applications côté C. En même temps, elles peuvent naturellement former une boucle fermée d'accumulation de données, ce qui facilite l'établissement de barrières commerciales que l'entrepreneuriat technique dans le passé. . Je pense que c'est une tendance que nous avons constatée dans l'industrie ces derniers mois.
Yang Fan, co-fondateur de SenseTime et président du groupe d'entreprises de grands appareils
Deuxièmement, c’est ce qui se cache derrière la technologie des grands modèles que nous utilisons aujourd’hui. Tout le monde s'accorde sur le fait que, qu'il s'agisse d'un grand modèle ou d'un retour sur les 10 dernières années, le développement et les changements de l'ensemble de l'industrie de l'intelligence artificielle sont fondamentalement le succès d'une esthétique violente, incluant les trois éléments traditionnels de l'intelligence artificielle : les données, puissance de calcul et algorithmes. Les algorithmes peuvent être compris comme des structures de modèles. Aujourd'hui, nous appelons ces grands modèles, ou modèles qui ont obtenu des résultats techniques plus récents. Presque tous les modèles sont utilisés dans tous les domaines, qu'il s'agisse de l'échelle de la puissance de calcul utilisée dans l'échelle de l'ensemble de données ou de celle de l'ensemble des données. l'algorithme lui-même. La structure, ainsi que le nombre de paramètres du modèle, maintiennent en fait un taux de croissance très élevé. Le modèle Transformer est très stable et très efficace. Il peut résoudre des problèmes dans de nombreux domaines et obtenir de bons résultats. Lorsque nous constatons que la quantité de données est suffisamment importante pour obtenir des résultats très généralisables, dans un sens, cela prouve en outre que l'orientation générale des progrès de la technologie de l'intelligence artificielle est d'utiliser la violence pour produire des miracles, et l'intégration de plus de ressources peut être possible. obtenir de meilleurs résultats.
Cependant, disposer d'une telle ressource à lui seul est loin d'être suffisant. Examinons les trois éléments correspondants. Avant que chaque élément puisse former un bon résultat, une grande quantité de pratique d'ingénierie professionnelle doit être effectuée dans chaque domaine.
En fait, le discours de l'invité vient d'expliquer pourquoi nous avons besoin d'une grande puissance de calcul dans le domaine de la puissance de calcul. Comment ces grandes puissances de calcul peuvent-elles être connectées ? S’il existe aujourd’hui 1 000 cartes, pouvons-nous les rendre rentables et atteindre un taux d’utilisation effectif de 60 %, 80 %, voire 90 % ? Ou, si nous connectons 1 000, 2 000 ou 4 000 cartes aujourd’hui, quel sera l’effet ? OpenAI connectait auparavant 10 000 cartes V100. Personne en Chine ne peut connecter 10 000 cartes ensemble pour exécuter la même tâche de formation et atteindre un taux d'utilisation efficace des ressources supérieur à 50 ou 60 %. Certaines personnes le font peut-être maintenant. pas encore de résultat, pourquoi ? Derrière cela se cache un événement d’ingénierie très complexe. Par exemple : un modèle avec des centaines de milliards de paramètres nécessite une grande quantité d'interaction de données et une interaction d'informations à gradient intermédiaire pendant l'entraînement. Lorsque vous combinez la grande quantité de transmission de données et la transmission des résultats d'opération sur des milliers de cartes GPU, un équilibre efficace est obtenu. est formé, le modèle est souvent réalisé entre point à point et une transmission deux à deux est requise dans la structure du réseau. Lorsque nous connectons des milliers de cartes ensemble, quel est l'état acceptable de l'effet ? Ce n'est en fait pas compliqué du tout. C'est juste beaucoup de pratique d'ingénierie. Si vous le faites, vous avez suffisamment marché. bien, vous pourrez le régler mieux que d'autres. Cette question est une question d'expérience très importante.
Il en va de même pour les algorithmes. La conception de la structure des algorithmes d’aujourd’hui peut être moins chère que celle d’origine. Si la structure est bien conçue, l'utilisation de moins de paramètres et de données plus petites peut permettre d'obtenir un effet d'algorithme final similaire à celui d'une conception sans optimisation particulière. De nombreuses connaissances d'experts sont également impliquées, sans parler des données.
Quand OpenAI faisait ChatGPT4, au final, il n'utilisait qu'une très petite partie des données collectées, qui peut être inférieure à 10 %, pour la formation. C'est un grand écart entre l'économie de ressources et la quantité d'Internet complète. Les données sont très volumineuses. Lesquelles sont les données les plus efficaces. Quelles données ont une valeur intrinsèque plus élevée ? Lorsque nous effectuons une formation, il y a en fait beaucoup d'essais et d'erreurs entre les données à supprimer en premier et les méthodes à supprimer plus tard. Pourquoi y a-t-il une telle pénurie de puissance de calcul et pourquoi tout le monde a besoin de plus de puissance de calcul ? Parce que de nombreuses personnes qui créent de grands modèles essaient et font des erreurs, elles peuvent être divisées en trois ou quatre groupes en même temps pour essayer de faire des erreurs dans des directions différentes, puis procéder progressivement à des optimisations itératives ou à une collecte de ressources à grande échelle. sont ce qui permet aujourd’hui la technologie et les algorithmes d’IA. La raison de la poursuite des acquisitions.
Une ingénierie système complète nécessite une expérience experte et des capacités d’ingénierie système dans chaque maillon. Cela montre également qu'OpenAI permet aux meilleurs scientifiques de faire de l'ingénierie des données au lieu d'algorithmes. Cela dépasse largement notre compréhension antérieure du domaine. À l'avenir, cela pourrait devenir un seuil clé et deviendra également notre principale capacité à fournir des services au marché. .
Pourquoi, après l'apparition de la nouvelle technologie d'intelligence artificielle, la vague industrielle a suivi très rapidement. Nous avons vu que les services modèles sont naturellement adaptés à de nombreux domaines. Les gens du cercle Internet sont très enthousiastes et les investisseurs pensent qu'ils se développeront aussi vite qu'Internet. . Les changements dans les seuils et les obstacles à la commercialisation apporteront de nouvelles opportunités aux modèles à grande échelle, mais l'accès à ces opportunités dépend des différentes différences et expertises des individus. Quoi qu'il en soit, par rapport aux 10 dernières années, l'industrialisation actuelle de l'intelligence artificielle aura un très gros avantage, car il ne s'agit pas d'un seul obstacle technique. Les avantages techniques d'aujourd'hui peuvent se transformer en obstacles aux données et en avantages d'échelle. plus à l’avenir. De nombreuses applications industrielles.
SenseTime a commencé à créer les premiers grands modèles en 2019. À notre avis, l'ensemble du modèle d'IA est devenu de plus en plus grand, nous avons donc accumulé de nombreuses capacités internes, y compris l'auto-développement de certains modèles de CV et de PNL. En avril de cette année, SenseTime a ouvert les API de certains modèles à des fins d'essai par des partenaires industriels, y compris certains grands modèles de langage. À notre avis, il s'agit plutôt de la manifestation ultime de l'accumulation de capacités techniques de base de base.
Nous avons lancé une série de modèles cette année. Derrière le support de service pour le marché se trouvent nos gros appareils. Nous pensons qu'à mesure que l'ensemble de l'industrie de l'intelligence artificielle progresse, quelqu'un doit fournir une infrastructure aussi à grande échelle et efficace. chemin inévitable. Si l'ensemble de la vague technologique de l'IA devient à l'avenir un jeu impliquant de plus en plus de consommation de ressources et d'accumulation d'expériences d'experts, le seuil est en fait extrêmement élevé, ce qui ne favorise pas une application large et rapide de l'IA par l'industrie. Nous estimons donc que. une différenciation se formera inévitablement, et il y aura certainement des gens qui fourniront des services d'infrastructure, que ce soit sous la forme d'appels d'API de modèle, de création de petits modèles sur cette base ou d'autres manières, peuvent rapidement utiliser les ressources et capacités de base de l'IA avec un faible seuil et un faible coût. , améliorez ainsi rapidement votre propre modèle économique en boucle fermée.
Le positionnement de l'équipement à grande échelle de SenseTime est d'être un fournisseur d'infrastructure d'IA. Aujourd'hui, nous disposons du plus grand nœud informatique d'intelligence artificielle d'Asie. Nous disposons d'une puissance de calcul de plus de 5 000P et fournissons également une grande coopération industrielle, afin que les partenaires puissent. L'utilisation de leurs grands modèles pour la formation sur de grands appareils reflète la profonde accumulation de SenseTime. Que ce soit au niveau des ressources ou au niveau cognitif de l'ingénierie experte, une partie de nos capacités peut être standardisée et transformée en logiciels et services, qui ne peuvent pas être standardisés. , nous pouvons en faire un service de classification professionnel. Nous espérons regrouper ces capacités et les fournir à l'ensemble du secteur pour aider les clients à créer leurs propres modèles de domaine ou applications de modèle.
Formez de grands modèles d'IA à l'aide de grands appareils SenseTime.
Source : 36氪
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!