Maison > Article > Périphériques technologiques > ByteDance Yang Zhenyuan : Comment Douyin fait bon usage de l'apprentissage automatique
« À l'ère du numérique, les problèmes peuvent être évalués quantitativement et l'apprentissage automatique peut permettre une optimisation plus intelligente et plus efficace autour des objectifs. »
Le 18 avril, Volcano Engine a lancé une série de produits cloud tels que son auto-développé DPU et a lancé une nouvelle version de la plateforme d'apprentissage automatique pour aider les entreprises clientes à mieux former de grands modèles d'IA. Yang Zhenyuan, vice-président de ByteDance, a partagé sa compréhension de l'apprentissage automatique sur le thème « La pratique de l'apprentissage automatique de Douyin ».
Yang Zhenyuan estime que la compétitivité fondamentale des systèmes d'apprentissage automatique réside dans le fait que chaque expérience peut être réalisée rapidement et à moindre coût. Les ingénieurs en algorithmes peuvent se concentrer sur leur propre travail et continuer à essayer de commettre des erreurs à un coût très faible. Ce n'est qu'ainsi que l'itération et l'innovation agiles de l'entreprise peuvent être réalisées. Il a déclaré : « La plate-forme d'apprentissage automatique de Volcano Engine est unifiée en interne et en externe. Les clients de Volcano Engine et Douyin utilisent la même plate-forme. J'espère que ces technologies perfectionnées au sein de l'entreprise pourront servir davantage de clients et aider tout le monde à créer des innovations intelligentes.
Ce qui suit est le texte intégral du discours de Yang Zhenyuan : Bonjour ! Comme nous le savons tous, Douyin et d'autres entreprises sont des clients internes de Volcano Engine et fonctionnent toutes sur le cloud Volcano Engine. Aujourd'hui, je vais partager une expérience pratique des activités internes de l'entreprise : comment le moteur Volcano soutient l'utilisation de l'apprentissage automatique par Douyin. Tout d’abord, parlons des raisons pour lesquelles nous devons parler d’apprentissage automatique. Dans quels scénarios et dans quelles circonstances devrions-nous utiliser les systèmes d’apprentissage automatique ? Quels sont les défis liés à l’utilisation du machine learning ? Comment avons-nous résolu ces défis ? Je penseun point très important de l'apprentissage automatique est de numériser le problème. Numérisez d’abord, puis rendez le problème évaluable quantitativement. Lorsque le problème peut être évalué quantitativement, il peut ensuite être rendu intelligent et optimisé davantage à l'aide de certaines méthodes d'apprentissage automatique.
Certains amis m'ont déjà demandé : « Zhenyuan, peux-tu m'aider à créer un modèle ? Je lui ai demandé pourquoi il voulait utiliser ce modèle ? En fait, il n’y réfléchissait pas clairement lui-même. Je voudrais expliquer l'utilisation du machine learning à travers quelques exemples. Par exemple, avec la publicité à la performance, les commerçants peuvent-ils trouver des clients avec un salaire raisonnable ? Pour la plateforme, s'il y a un espace publicitaire, la publicité la plus adaptée peut-elle être placée à cet endroit ? Comment évaluer ce problème ? C'est très simple, il suffit de regarder le taux de conversion, pour que son objectif soit clairement défini. Si vous pouvez définir clairement l'objectif, vous pouvez faire des expériences A/B, vous pouvez juger quelle méthode est la meilleure, puis vous pouvez utiliser l'apprentissage automatique pour optimiser davantage. En fin de compte, on constate souvent qu’il est difficile de faire mieux en utilisant des méthodes manuelles, telles que la sélection des utilisateurs pour faire de la publicité efficace, que l’apprentissage automatique. Un autre exemple est l'émission de coupons. À quels utilisateurs le même argent devrait-il être distribué, ce qui peut assurer une rétention à plus long terme sur la plateforme ? C’est aussi une question qui peut être quantifiée et évaluée avec précision. Pour un tel problème, nous pouvons réfléchir au type d’algorithme à utiliser et au type d’apprentissage automatique à utiliser pour l’optimisation. Le dispatching de capacité est un domaine que tout le monde connaît et qui peut également être évalué quantitativement à travers le taux de commande. Si la correspondance n’est pas bonne, je ne peux pas faire correspondre efficacement les conducteurs et les passagers. Je ne dirai pas grand-chose sur la conduite autonome. Si l’on veut évaluer l’effet dans ce domaine, il y a en fait plus de dimensions, comme la sécurité, le temps, le confort, etc. Cela dit, l'enjeu central est de pouvoir définir clairement le problème, le numériser d'abord, puis le rendre intelligent.Quels types de problèmes y aura-t-il lorsque nous utiliserons l'apprentissage automatique pour l'intelligence ? Il y a deux problèmes principaux : le premier est que c’est compliqué et le deuxième est que c’est cher.
Pourquoi c'est compliqué ? Étant donné que la pile logicielle d’apprentissage automatique est très approfondie, elle nécessite une plate-forme, notamment la plate-forme PyTorch, TensorFlow et de nombreuses autres plates-formes. Cela implique également des frameworks, des systèmes d’exploitation et du matériel sous-jacent. Lorsque tout le monde sort récemment, ils se demandent toujours combien de cartes GPU ils possèdent. Si vous n'en avez pas, vous serez gêné de leur dire bonjour. Mais en fait, beaucoup de gens ne savent pas quelle est l’efficacité de l’utilisation de ces cartes. Par conséquent, la pile logicielle d’apprentissage automatique est très profonde et complexe, et chaque lien doit être effectué correctement et correctement.Parlons de la question coûteuse. La main-d’œuvre coûte cher, et un très bon ingénieur en algorithmes coûte cher et n’est pas facile à trouver. En plus du fait que les talents coûtent cher, les données le sont également, et les données de haute qualité coûtent très cher. Sans parler du matériel, tout le monde connaît le prix des GPU hautes performances.
Donc, l'apprentissage automatique est une chose complexe et coûteuse. Alors, comment Douyin gère-t-il cette question complexe et coûteuse et mieux utiliser l’apprentissage automatique pour aider au développement commercial ?
Présentons brièvement notre plateforme. Nos deux plateformes principales sont l'une est la plateforme publicitaire recommandée, et l'autre est une plateforme générale, comprenant la plateforme de CV (vision par ordinateur), la plateforme NLP (traitement du langage naturel), etc.
Plateforme recommandée, des dizaines de milliers de modèles y sont formés chaque semaine, car nous avons de nombreux produits et formons fréquemment des modèles dans différents scénarios. Sur la plateforme CV/NLP, le nombre de formations de modèles sera plus important, avec une échelle de formation d'environ 200 000 modèles par semaine. De plus, un grand nombre de services en ligne fonctionnent quotidiennement sur ces deux plateformes.
Donnez-moi un exemple. Par exemple, le système de recommandation de Douyin comporte de nombreux modèles, dont l'un nécessite 15 mois d'échantillons pour s'entraîner, ce qui signifie que les données d'entraînement doivent être construites en continu sur 15 mois. Cette quantité de données est très importante. Mais sur notre plateforme d'apprentissage automatique, nous n'avons besoin que de 5 heures pour terminer la formation de ce modèle, et le coût calculé n'est que de 5 000 yuans. Pour un ingénieur en algorithmes, il entraîne le modèle le matin et effectue des expériences AB en ligne l'après-midi, ce qui améliore considérablement l'efficacité des itérations du produit.
Que le machine learning se porte bien ou pas, je pense qu'il peut être représenté par ce triangle dont le plus important est l'algorithme. L'algorithme peut produire une grande valeur pour l'entreprise s'il prend la tête de l'efficacité. Il y a deux éléments qui répondent aux besoins des effets d'algorithme, l'un est le retour sur investissement matériel et l'autre est le retour sur investissement humain.
Le retour sur investissement matériel fait référence au modèle de coût par unité. Dans la concurrence sur le marché, si d'autres dépensent 10 000 yuans pour fabriquer un modèle, si vous dépensez 10 000 yuans pour fabriquer dix modèles similaires, la bataille sera stable. Le retour sur investissement humain fait référence au recrutement d'un ingénieur en algorithmes puissant. La capacité à maximiser son potentiel dépend principalement de la capacité du système à l'aider à essayer de nouvelles idées facilement et assez rapidement.
Comment améliorer le ROI matériel ? Marée et parties mixtes, telles sont quelques-unes des méthodes que nous utilisons couramment. Il s'agit essentiellement de savoir comment améliorer l'utilisation des appareils, ce qui est également une idée de base du cloud natif. Nous mélangeons différentes tâches, échelonnons les pics les uns des autres et les exécutons à un taux d'utilisation élevé grâce à une planification intelligente. Cela peut considérablement améliorer l'utilisation des ressources et réduire le coût de chaque expérience.
En plus du coût du matériel, il y a aussi un point très important, qui est de savoir si l'infrastructure d'apprentissage automatique est suffisamment simple à utiliser. Je plaisante : beaucoup de gens qui font des mathématiques n'aiment pas que vous fassiez de l'informatique, en particulier de l'apprentissage profond. Ils disent que vous ne faites que « raffiner des élixirs » ici. Vous ne pouvez souvent pas expliquer pourquoi vos trucs sont bons, et pourquoi vous le faites. faut-il continuer à faire des expériences ? Mais d'un point de vue pratique, nous devons continuer à expérimenter et à essayer. De nombreuses nouvelles découvertes dans ce domaine sont réalisées grâce à des tentatives continues.
Comment rendre chaque tentative plus rapide et moins chère, c'est le cœur de la compétitivité. Il est difficile de parvenir une fois pour toutes à un modèle parfait.
Ce que Volcano Engine doit faire, c'est bien faire le travail de la plateforme. Comme vous pouvez le constater, l'ensemble du processus de traitement des données, de formation des modèles, d'évaluation, de tests en ligne et AB est unifié et intégré sur l'ensemble de la plateforme. L'ingénieur en algorithmes n'a pas besoin de communiquer à plusieurs reprises avec différents liens et de connecter différentes entreprises. Il peut se concentrer davantage sur son propre travail.
Regardons un autre exemple. Il s'agit d'un effet spécial très intéressant (peinture TikTok AI, je suppose que de nombreux amis l'ont utilisé). Vers la fin de l’année dernière, cet effet spécial est devenu particulièrement populaire. Devinez combien de main-d'œuvre Douyin a investi dans la création de cet effet spécial ? Beaucoup de gens n'auraient peut-être pas pensé que l'ingénieur en algorithmes avait investi une seule personne, et il a écrit quelques codes de recherche sur la plate-forme. Il a fallu environ une semaine pour terminer la formation du modèle, et après quelques ajustements, il a été mis en ligne.
À cette époque, le produit était estimé à un trafic maximal de 200 QPS. Nous avions prévu de le lancer à 2 000 QPS. De façon inattendue, il serait plein quelques heures après son lancement. Nous avons rapidement procédé à de nombreuses expansions et la capacité a été multipliée par 10 en peu de temps pour prendre en charge 20 000 QPS.
Vous pouvez voir l'ensemble du processus. Le nombre de personnes participant est très faible et l'efficacité de l'expansion est également très élevée. Beaucoup de gens disent que la formation sur modèles coûte cher. En fait, à long terme, le coût de l'inférence sera nettement supérieur à celui de la formation. L'efficacité d'inférence du modèle de peinture AI sur la plate-forme Volcano Engine est environ cinq fois plus rapide que le modèle natif Pytorch. Après la mise en ligne, certaines optimisations ciblées ont été apportées, et cela peut être encore plus rapide, environ 10 fois plus rapide, ce qui représente une amélioration d'un ordre de grandeur.
Avec un tel support de plate-forme, les ingénieurs peuvent rapidement tester diverses idées, qu'il s'agisse de suivre les progrès ou d'innover de manière pionnière, ils peuvent le faire rapidement.
Enfin, vous pouvez voir que sur certaines applications telles que Douyin, Toutiao et Dianchedi, l'écran affichera : Volcano Engine fournit des services informatiques. La plateforme d'apprentissage automatique dont nous parlons est unifiée en interne et en externe. Les clients de Volcano Engine et Douyin utilisent la même plateforme. J'espère que ces technologies perfectionnées au sein de l'entreprise pourront servir davantage de clients et soutenir chacun dans l'innovation intelligente. Merci à tous.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!