Maison > Article > Périphériques technologiques > T Frontline | Entretien exclusif avec Tencent AILab : Du « point » à la « ligne », le laboratoire est bien plus que de simples expériences
Invité : Shi Shuming
Écrivain : Mo Qi
Réviseur : Yun Zhao
"La plupart des travaux de recherche tournent souvent autour d'un point, et les résultats ponctuels sont difficiles à utiliser directement par les utilisateurs de Tencent AI Lab Natural Language Shi." Shuming, directeur du centre de traitement, a déclaré.
Au cours de la dernière décennie, l'intelligence artificielle (IA) a connu une renaissance, et des progrès technologiques importants ont également eu lieu dans le domaine du traitement du langage naturel (NLP). Les progrès de la technologie NLP ont considérablement amélioré la qualité de la traduction automatique, rendu la recherche et les recommandations plus précises et ont également donné naissance à davantage d'applications de scénarios numériques, telles que les robots conversationnels, l'écriture intelligente, etc. Ainsi, en tant que joyau de l'IA, le domaine de la PNL a attiré d'innombrables entreprises, talents et capitaux nationaux et étrangers. Comment divers facteurs favorisent-ils les progrès de sa recherche ? Comment les entreprises incubent-elles et mettent-elles en œuvre les résultats de la recherche ? Comment les praticiens concernés perçoivent-ils les goulots d’étranglement et les controverses dans le développement de l’IA ?
Récemment, "T Frontline" a eu l'honneur d'interviewer le Tencent AI Lab Natural Language Processing Center, dans l'espoir d'en avoir un aperçu du point de vue d'un "laboratoire d'intelligence artificielle".
T Frontline : TencentQuelles directions le laboratoire AILab explore-t-il dans le traitement du langage naturel ?
Shi Shuming : L'équipe de traitement du langage naturel de Tencent AI Lab mène des recherches dans quatre directions : compréhension de texte, génération de texte, dialogue intelligent et traduction automatique. En termes de résultats, à en juger par la situation des publications papier, au cours des trois dernières années, l'équipe a publié chaque année plus de 50 articles universitaires dans des conférences et revues internationales de premier ordre, se classant parmi les meilleures institutions de recherche nationales ; que deux de nos articles ont été notés séparément pour le meilleur article de la NAACL'2021 et l'article exceptionnel de l'ACL'2021. En termes de concours académiques, nous avons remporté de nombreux concours de poids lourd. Par exemple, nous avons remporté la première place dans 5 tâches lors du concours international de traduction automatique WMT'2021 de l'année dernière.
En plus des articles et des concours académiques, nous transformons également consciemment nos résultats de recherche en systèmes et données open source, ouverts aux utilisateurs internes et externes à l'entreprise. Ces systèmes et données comprennent le système de compréhension de texte TexSmart, le système de traduction interactif TranSmart, l'assistant créatif intelligent "Effidit", les données vectorielles de mots chinois contenant 8 millions de mots, etc.
Les données vectorielles de mots chinois publiées fin 2018 sont appelées « vecteur de mots Tencent » par le monde extérieur. Elles se situent au premier niveau en termes d'échelle, de précision et de fraîcheur. Elles ont fait l'objet d'une large attention, de discussions et d'utilisations. dans l'industrie et a été continuellement utilisé dans de nombreuses applications pour améliorer les performances. Comparé à des systèmes similaires, le système de compréhension de texte TexSmart fournit une reconnaissance d'entité nommée (NER), une association sémantique, une expression sémantique profonde, un mappage de texte et d'autres fonctions spéciales, et a remporté le meilleur prix à la 19e Conférence chinoise de linguistique informatique (CCL'). 2020) Prix de démonstration du système. Le système de traduction interactif TranSmart est le premier produit Internet de traduction interactif public en Chine. Il fournit des fonctions importantes telles que la méthode de saisie de la traduction, le décodage des contraintes et la fusion des mémoires de traduction. Il prend en charge de nombreux clients, entreprises et scénarios à l'intérieur et à l'extérieur de l'entreprise, notamment l'Agence de documentation des Nations Unies, Memsource, Huatai Securities, Tencent Music, China Literature Online, Tencent Games Going Global, Tencent Optionnel Stock Document Translation, etc. L'assistant créatif intelligent "Effidit" que nous avons lancé il y a quelque temps fournit la complétion de texte multidimensionnelle, un polissage de texte diversifié et d'autres fonctions spéciales. Il utilise la technologie de l'IA pour aider les écrivains à diverger des idées, à enrichir les expressions et à améliorer l'efficacité de l'édition et de l'écriture du texte.
T Frontline : En termes de collaboration intelligente, pouvez-vous prendre « Effidit » comme exemple et parler de l'origine et de l'état actuel du projet ?
Shi Shuming : Le projet d'assistant d'écriture intelligent Effidit a été lancé avant la fête nationale en 2020. Il y a deux raisons principales pour réaliser ce projet : premièrement, il y a des problèmes d'écriture, et deuxièmement, la technologie PNL requise pour ce scénario est cohérente avec l'accumulation de capacités de notre équipe.
Tout d'abord, parlons des problèmes liés à l'écriture : dans la vie et au travail, nous avons souvent besoin de lire des actualités, des romans, des articles de comptes publics, des articles, des rapports techniques, etc., et nous devons également écrire certaines choses, comme documents techniques, procès-verbaux de réunions, documents de reporting, etc. Nous pouvons constater que le processus de lecture est généralement détendu, agréable et sans effort, mais l'écriture est différente. Nous ne savons souvent pas comment utiliser les mots appropriés pour exprimer nos pensées. Parfois, les phrases et les paragraphes écrits avec beaucoup d'effort sont toujours les mêmes. . Il a l’air sec et sujet aux fautes de frappe au milieu. Peut-être que la plupart des gens savent mieux lire qu’écrire. Nous avons donc réfléchi à la possibilité d'utiliser la technologie pour résoudre les problèmes liés à l'écriture et améliorer l'efficacité de l'écriture ?
Parlons de la deuxième raison pour laquelle nous avons lancé ce projet : nous avons réfléchi à la façon dont la technologie PNL peut améliorer l'efficacité du travail humain et la qualité de vie ? Au cours des dernières années, nous avons mené des travaux de recherche approfondis dans les sous-directions de la PNL telles que la compréhension de texte, la génération de texte et la traduction automatique. La plupart des travaux de recherche sont souvent menés autour d'un point, et les résultats ponctuels sont difficiles à utiliser directement par les utilisateurs. Par conséquent, nous enchaînons inconsciemment un certain nombre de résultats de recherche ponctuels pour former une ligne, c’est-à-dire un système. Nous avons recherché des scénarios de mise en œuvre des résultats de recherche en génération de texte. Compte tenu des problèmes d'écriture mentionnés précédemment, nous avons décidé de lancer le projet Effidit d'assistant d'écriture intelligent après discussion.
Après un an et demi de recherche et développement, la première version est sortie. Ensuite, nous continuerons à itérer et à optimiser, à écouter les commentaires des utilisateurs, à améliorer l'efficacité de diverses fonctions et à nous efforcer de produire un outil facile à utiliser et populaire auprès des utilisateurs.
T Frontline : Ces dernières années, l'IA de confiance a attiré l'attention des acteurs de l'industrie. Pouvez-vous parler de l'IA de confiance dans le domaine de la compréhension de la PNL ? et le progrès ?
Shi Shuming : Je ne connais pas grand-chose à l'IA digne de confiance et je ne peux parler que de quelques pensées superficielles. L’IA digne de confiance est un concept abstrait et il n’existe actuellement aucune définition précise. Cependant, d’un point de vue technique, il comprend de nombreux éléments : interprétabilité du modèle, robustesse, équité et protection de la vie privée, etc. Ces dernières années, des modèles de langage pré-entraînés basés sur la structure Transformer ont montré des résultats étonnants sur de nombreuses tâches de traitement du langage naturel et ont attiré une large attention. Cependant, ce type de modèle d’IA est essentiellement un modèle de boîte noire basé sur les données. Leur interprétabilité des résultats de prédiction est médiocre, la robustesse du modèle n’est pas très bonne et ils sont enclins à apprendre les biais inhérents aux données (comme le sexe). Biais), entraînant certains problèmes d’équité du modèle. Les vecteurs de mots qui apparaissent plus tôt que les modèles linguistiques pré-entraînés souffrent également de préjugés sexistes. À l'heure actuelle, d'une part, la construction de modèles d'IA crédibles est une direction de recherche qui attire l'attention dans le domaine de l'apprentissage automatique et de la PNL. De nombreux travaux de recherche ont été réalisés et certains progrès ont été réalisés. En revanche, ces avancées sont encore loin de l’objectif. Par exemple, en termes d’interprétabilité des modèles profonds, les progrès ne sont pas particulièrement importants et une étape clé n’a pas été franchie.
Le Tencent AI Lab où je travaille mène également des travaux de recherche sur l'IA de confiance. Tencent AI Lab a continué d'investir dans des travaux d'IA fiables depuis 2018 et a obtenu des résultats dans trois directions principales : la robustesse contradictoire, l'apprentissage par transfert distribué et l'interprétabilité. À l'avenir, Tencent AI Lab se concentrera sur l'équité et l'explicabilité de l'IA et continuera à explorer l'application des technologies connexes dans les domaines médical, pharmaceutique, des sciences de la vie et autres.
T Frontline : Selon vous, quel est le goulot d'étranglement de la recherche actuelle en PNL ? Quelles sont les orientations futures ? Shi Shuming : Depuis l'émergence du domaine de recherche sur le traitement du langage naturel,
le plus gros goulot d'étranglement auquel il a été confronté est de savoir comment véritablement comprendre la sémantique exprimée par un morceau de texte en langage naturel.Ce goulot d’étranglement n’a pas été surmonté jusqu’à présent. Les êtres humains ont véritablement la capacité de comprendre le langage naturel. Par exemple, lorsque nous voyons la phrase « Elle aime le bleu », nous connaissons sa signification, ce qu'est « j'aime » et ce qu'est « bleu ». Quant à l'algorithme NLP, lorsqu'il traite la phrase ci-dessus, il n'y a pas de différence essentielle avec la phrase "abc def xyz" que l'on voit dans une langue étrangère inconnue. Supposons que dans cette langue étrangère inconnue, « abc » signifie « elle », « def » signifie comme et « xyz » signifie « vert ». Lorsque nous ne savons rien de cette langue étrangère, nous ne pouvons comprendre aucune phrase dans cette langue étrangère. Si nous avons la chance de voir un grand nombre de phrases écrites dans cette langue étrangère, nous pourrons faire une analyse statistique sur celles-ci, en essayant d'établir la correspondance entre les mots de cette langue étrangère et les mots de notre langue maternelle, en espérant enfin pouvoir casser le langage Objectif. Ce processus n’est pas facile et il n’y a aucune garantie de succès final.
Pour l’IA, la situation à laquelle elle est confrontée est pire que celle de nous, humains, déchiffrant une langue étrangère inconnue. Nous avons un sens commun de la vie et une cartographie des mots natifs avec des concepts internes dans notre esprit, mais l'IA n'a pas ces choses. La méthode symbolique dans la recherche en PNL tente d'ajouter des capacités humaines à l'IA à travers l'expression symbolique de textes et de graphiques de connaissances, en essayant de résoudre fondamentalement le problème de la compréhension, tandis que la méthode statistique ignore temporairement le bon sens et les concepts internes de l'esprit, etc. . Se concentrer sur l'amélioration des méthodes statistiques et sur la pleine utilisation des informations contenues dans les données elles-mêmes. Jusqu’à présent, la deuxième méthode constitue la majorité de la recherche industrielle et a obtenu un plus grand succès.
À en juger par les percées et les progrès de la PNL statistique au cours de la dernière décennie, la La technologie des vecteurs de mots
(c'est-à-dire l'utilisation d'un vecteur dense de dimension moyenne pour représenter un mot)a surmonté le goulot d'étranglement de la calculabilité des mots et a combiné Les algorithmes d'apprentissage profond et la puissance de calcul GPU ont lancé une série d'avancées en matière de PNL au cours de la dernière décennie. L'émergence de nouvelles structures de réseau (telles que Transformer) et de paradigmes (tels que la pré-formation) a considérablement amélioré la calculabilité du texte et l'effet de la représentation du texte. Cependant, comme la PNL statistique ne modélise pas le bon sens et les concepts de base aussi bien que les humains, et ne peut pas comprendre fondamentalement le langage naturel, il est difficile d’éviter certaines erreurs de bon sens. Bien sûr, la communauté des chercheurs n'a jamais abandonné ses efforts en matière de symbolisation et de représentation sémantique profonde. Les tentatives les plus influentes dans ce domaine au cours des dix dernières années incluent Wolfram Alpha et AMR (Abstract Meaning Representation). Ce chemin est très difficile et les principaux défis sont la modélisation d'un grand nombre de concepts abstraits et l'évolutivité (c'est-à-dire s'étendre de la compréhension de phrases hautement formalisées à la compréhension de textes généraux en langage naturel).
Les futures orientations de recherche possibles en technologie de base comprennent : des modèles linguistiques de nouvelle génération, la génération de texte contrôlable, l'amélioration des capacités de transfert inter-domaines des modèles, des modèles statistiques qui intègrent efficacement les connaissances, une représentation sémantique approfondie, etc. Ces orientations de recherche correspondent à certains goulots d’étranglement locaux dans la recherche en PNL. La direction qui doit être explorée en termes d'application est de savoir comment utiliser la technologie PNL pour améliorer l'efficacité du travail humain et la qualité de vie.
T Frontline : Comment l'orientation PNL du AI Lab est-elle explorée et aménagée en termes de recherche fondamentale, de technologie de pointe et d'industrialisation ? Quelles sont les prochaines étapes ?
Shi Shuming : En termes de recherche fondamentale, notre objectif est de rechercher des percées dans la recherche fondamentale, de résoudre certains goulots d'étranglement dans la recherche actuelle et de nous efforcer de produire des produits originaux, utiles et influents comme Word2vec, Transformer et Bert results. Afin d'atteindre cet objectif, d'une part, nous donnons aux chercheurs fondamentaux une plus grande liberté et les encourageons à faire des choses avec un impact potentiel à long terme, d'autre part, tous les membres de l'équipe utilisent le brainstorming et d'autres méthodes pour sélectionner ; un certain nombre d’orientations clés, travaillons ensemble.
En termes d'industrialisation, en plus de la transformation technologique des produits existants de l'entreprise, nous nous concentrons sur la création d'un ou deux produits technologiques dirigés par nous-mêmes. L'objectif est d'intégrer les résultats de la recherche pour améliorer l'efficacité du travail ou la qualité de vie des personnes. Ces produits technologiques incluent TranSmart, un système de traduction interactif pour les traducteurs, et Effidit, un assistant créatif intelligent pour l'édition de texte et la rédaction de scénarios. Nous continuerons à peaufiner ces deux produits techniques.
À la recherche du Jade à Kunshan : Les chercheurs ont besoin d'un certain degré de libertéT Frontline : En termes de départements de recherche scientifique, quels sont selon vous les différents axes d'intervention des chercheurs et des ingénieurs algorithmiques ?
Shi Shuming : Dans notre équipe, les responsabilités des ingénieurs en algorithmes comprennent deux points : l'un est de mettre en œuvre ou d'optimiser les algorithmes existants (comme l'algorithme dans un article publié), et l'autre est de mettre en œuvre et de peaufiner les produits techniques. Outre les deux responsabilités d’un ingénieur algorithmique, les responsabilités du chercheur incluent également la proposition et la publication de résultats de recherche originaux. Cette division n'est pas absolue et les frontières sont relativement floues. Elle dépend largement des intérêts personnels du salarié et des besoins du projet.T Frontline : En tant que manager, quelles sont les différences entre la gestion des équipes de laboratoire et les méthodes et concepts traditionnels de gestion des ingénieurs techniques ?
Shi Shuming : Pour l'équipe commerciale, les ingénieurs techniques doivent travailler en étroite collaboration pour créer les produits prévus à travers certains processus de gestion de projet. Les équipes de laboratoire sont généralement composées de chercheurs fondamentaux et d'ingénieurs techniques (et peut-être d'un petit nombre de personnel chargé des produits et des opérations). Pour la recherche fondamentale, les chercheurs doivent bénéficier d'une plus grande liberté, moins de « conseils » et plus d'aide, respecter leurs intérêts, stimuler leur potentiel et les encourager à faire quelque chose ayant un impact potentiel à long terme. Les percées dans la recherche fondamentale ne sont souvent pas planifiées de haut en bas ni gérées par des processus de gestion de projet. En revanche, lorsque l’équipe du laboratoire construit des produits techniques, cela nécessite davantage de collaboration entre chercheurs et ingénieurs techniques, complétée par des processus légers de gestion de projet. Postes d'IA de laboratoire : la sélection des candidats accorde plus d'attention aux « trois bonnes choses » et la force intérieure est suffisamment forteT première ligne : s'il y a un candidat qui a une forte capacité de recherche et a publié de nombreux articles à haut niveau conférences de niveau supérieur, mais a de faibles capacités d'ingénierie, l'accepterez-vous ? Shi Shuming : C'est une bonne question que l'on rencontre souvent lors du recrutement. Idéalement, le monde universitaire et l’industrie souhaiteraient cultiver ou recruter des talents dotés de solides capacités de recherche et d’ingénierie. Cependant, dans la pratique, ces personnes sont rares et font souvent l’objet d’une concurrence entre diverses entreprises et instituts de recherche. Lors du processus d'entretien, pour les candidats présentant des capacités de recherche particulièrement remarquables, nos exigences en matière de capacités d'ingénierie seront réduites d'autant, mais elles doivent être supérieures à un seuil de base.De même, pour les candidats dotés de fortes capacités d'ingénierie, nos exigences en matière de capacités de recherche seront également inférieures. Dans le processus de travail réel, s'ils sont organisés correctement, les employés dotés de solides capacités de recherche et de solides capacités d'ingénierie mettront pleinement en valeur leurs avantages respectifs grâce à la coopération et mèneront à bien le projet ensemble.
T Frontline : Quelles capacités valorisez-vous le plus chez les candidats ?Shi Shuming : Le Dr Shen Xiangyang a déclaré que les exigences pour recruter des personnes sont « trois bonnes » : bonne en mathématiques, bonne en programmation et bonne attitude. De bonnes mathématiques correspondent au potentiel de recherche d'une personne, une bonne programmation correspond à des capacités d'ingénierie et une bonne attitude implique « d'être passionné par son travail », « d'être capable de coopérer avec des collègues pour obtenir des résultats gagnant-gagnant » et « d'être fiable dans l'action ». ". Ces trois points sont valorisés par de nombreux instituts de recherche. Au cours du processus d'entretien proprement dit, la capacité et le potentiel de recherche du candidat sont souvent évalués en lisant des documents de publication papier et en discutant de projets, la capacité d'ingénierie du candidat est évaluée au moyen de tests de programmation et des résultats du projet, et le processus d'entretien global est utilisé pour déduire si le candidat est authentique. "Bonne attitude". Cette méthode de spéculation et d’évaluation peut parfois commettre des erreurs, mais dans l’ensemble, la précision est assez élevée.
Il y a aussi certaines capacités qu'il est difficile de juger au travers d'un entretien d'une ou deux heures, mais si les salariés recrutés ont ces capacités, ils sont un trésor. Le premier est la capacité de choisir des sujets de recherche importants. La seconde est la capacité d’accomplir une chose. Les personnes ou les équipes qui ne disposent pas de cette capacité peuvent toujours démarrer divers sujets ou projets, mais ces sujets et projets ne sont jamais terminés avec une grande qualité et se terminent souvent par un déception. Cela peut avoir quelque chose à voir avec l'exécution, la persévérance, la concentration, le niveau technique, etc. Le troisième est la capacité à supporter la solitude et les critiques. Les choses importantes et influentes ne sont souvent pas comprises par la plupart des gens avant que leur influence ne se manifeste ; si votre cœur n'est pas assez fort et ne peut pas supporter la solitude et les critiques, il peut être difficile de persister, et il sera facile d'abandonner votre intention initiale et sautez dans ce qui est déjà un océan rouge pour involuer les points chauds actuels.
T Frontline : Quelles suggestions avez-vous actuellement pour les nouveaux diplômés et les techniciens qui ont changé de carrière pour entrer dans le domaine de l'intelligence artificielle ?
Shi Shuming : Les diplômes universitaires, l'école et la participation aux projets de chaque diplômé sont différents. Les techniciens qui passent à l'intelligence artificielle ont des expériences professionnelles et de vie très différentes. Il est difficile de donner trop de suggestions universelles. Je ne peux penser qu’à quelques points pour l’instant : Premièrement, ne vous contentez pas de vous plonger dans l’action et d’ignorer la collecte d’informations et de renseignements. Trouvez plus de personnes âgées, de sœurs ou d'amis pour vous renseigner sur la situation, écoutez leur présentation de la situation de travail actuelle et leur évaluation des différents types de travail et des différentes unités de travail, et comprenez le chemin qu'ils ont parcouru et les pièges sur lesquels ils ont marché. Dans le même temps, les informations sont collectées via diverses méthodes telles que des forums, des comptes publics, de courtes vidéos, etc. pour aider à prendre des décisions à ce stade critique de la vie. Deuxièmement, si vous êtes à plus d’un an de l’obtention de votre diplôme et que vous n’avez aucune expérience de stage, trouvez un endroit fiable pour effectuer un stage. Grâce aux stages, d'une part, vous pouvez accumuler une expérience pratique, améliorer vos capacités et expérimenter à l'avance le sentiment de travail, d'autre part, l'expérience de stage enrichira également votre CV et améliorera votre compétitivité lors de la recherche d'un emploi ; Troisièmement, l'involution est toujours inévitable au travail, et tout se passe comme prévu. Contrôlez les attentes, ajustez votre mentalité et trouvez des moyens de digérer le fossé émotionnel causé par les changements. Quatrièmement, après vous être installé, n’oubliez pas vos rêves, travaillez dur et accomplissez quelque chose qui soit digne de vos capacités.
Je souhaite que chaque diplômé puisse trouver l'emploi de ses rêves et évoluer dans son travail, et je souhaite à chaque technicien qui change de carrière et entre dans le domaine de l'intelligence artificielle puisse profiter du bonheur et des gains apportés par la lutte dans cette nouvelle voie de l'IA.
Shi Shuming, diplômé du département d'informatique de l'université Tsinghua, et est actuellement directeur du centre de traitement du langage naturel du Tencent AI Lab. Ses intérêts de recherche comprennent l'exploration de connaissances, la compréhension du langage naturel, la génération de texte et le dialogue intelligent. Il a publié plus de 100 articles dans des conférences et revues universitaires telles que ACL, EMNLP, AAAI, IJCAI, WWW, SIGIR, TACL, etc., avec un indice H de 35. Il a été coprésident de la démonstration du système de l'EMNLP 2021 et du CIKM 2013, membre principal du comité de programme de KDD2022 et membre du comité de programme de l'ACL, de l'EMNLP et d'autres conférences.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!