Maison >Périphériques technologiques >IA >L'IA générative en vogue peut-elle redonner vie aux haut-parleurs intelligents ?

L'IA générative en vogue peut-elle redonner vie aux haut-parleurs intelligents ?

王林
王林avant
2023-06-06 08:05:391043parcourir

Les produits tels que les enceintes intelligentes, presque oubliés par un grand nombre de consommateurs, n'ont depuis longtemps plus été au centre de l'attention de la plupart des consommateurs après avoir connu la « folie » de 2017 et 2018. Juste au moment où tout le monde pensait que les haut-parleurs intelligents seraient un feu de paille, l’émergence de ChatGPT semble donner une seconde chance aux haut-parleurs intelligents, et a également donné à cette industrie en déclin une nouvelle opportunité. Alors, les haut-parleurs intelligents et la désormais populaire IA générative peuvent-ils créer des étincelles ?

LIA générative en vogue peut-elle redonner vie aux haut-parleurs intelligents ?

L'IA générative pourrait être une bénédiction déguisée pour l'industrie des enceintes intelligentes. Selon les données pertinentes d'une étude de marché, au premier trimestre 2023, en raison des effets combinés de facteurs tels qu'une forte homogénéité des produits et une baisse de la demande des consommateurs, les ventes au détail en ligne d'enceintes intelligentes nationales se sont élevées à 1,57 million d'unités, soit une autre baisse de 40,6 %. , tandis qu'au cours de l'année 2022, les ventes nationales omnicanales d'enceintes intelligentes s'élevaient à 26,31 millions d'unités, soit une diminution d'une année sur l'autre de 28 %.

Pourquoi les enceintes intelligentes, autrefois très attendues par les grands géants et même considérées comme une possible entrée dans la maison intelligente, ont-elles glissé dans les abysses ces dernières années ? Il n’y a en fait qu’une seule raison, c’est que les haut-parleurs intelligents ne sont vraiment pas assez intelligents.

En 2017, lorsque le concept d'enceintes intelligentes était très populaire, il y a eu un débat dans l'industrie pour savoir si l'objectif des enceintes intelligentes devait être « l'intelligence » ou la « qualité sonore ». En fin de compte, une série de produits axés sur la qualité sonore, tels que Tencent Listening et Apple HomePod, ont utilisé leurs échecs tragiques pour prouver que l’argument de vente des enceintes intelligentes ne peut être que l’intelligence.

LIA générative en vogue peut-elle redonner vie aux haut-parleurs intelligents ?

Malheureusement, cependant, le niveau d'intelligence de la plupart des haut-parleurs intelligents ne peut être décrit que comme « étendu », tandis que les grands fabricants accordent une attention limitée à l'intelligence artificielle telle que l'ASR (reconnaissance vocale), le traitement sémantique naturel PNL et le champ lointain. la prise de son. Les progrès de la technologie acoustique harmonieuse sont en effet un peu trop optimistes. En fait, le haut-parleur intelligent est très simple d'un point de vue technique. Son mode de fonctionnement consiste à collecter la voix de l'utilisateur, puis à envoyer l'audio au serveur, puis à calculer et produire les résultats, et enfin à envoyer les résultats au haut-parleur intelligent pour qu'il s'allume. dans des comportements spécifiques. Par exemple, ouvrir une application ou répondre à la question d'un utilisateur.

Oui, l'enceinte intelligente elle-même n'a rien à voir avec l'intelligence artificielle. Les vrais corps de Xiaoai, Xiaodu et Tmall Genie sont cachés sur les serveurs correspondants. Tout cela conduit également au fait que la clé pour déterminer l'expérience d'un haut-parleur intelligent est la technologie de capture du son en champ lointain, qui est la capacité de capturer avec précision les commandes vocales de l'utilisateur dans un environnement acoustique complexe. Après tout, l'utilisateur ne peut pas dire « dire ». une blague » et le haut-parleur intelligent écoute. Appelons cela « jouer une chanson ».

LIA générative en vogue peut-elle redonner vie aux haut-parleurs intelligents ?

La solution pour les haut-parleurs intelligents consiste à utiliser un réseau de microphones à grande échelle pour collecter le son, mais il existe un problème qui n'a pas été résolu, à savoir le réveil vocal (repérage de mots clés). Lorsque vous utilisez des haut-parleurs intelligents, vous devez utiliser des mots de réveil tels que « Salut, Siri », « Xiao Ai Classmate » et « Xiaodu Xiaodu » pour faire savoir au haut-parleur intelligent que vous lui parlez, ce qui signifie que intelligent orateurs L'orateur n'a pas la capacité de servir activement. Plus important encore, en raison de limitations techniques, les haut-parleurs intelligents ont longtemps été capables de comprendre uniquement des instructions simples, telles que « augmenter/diminuer le volume », « jouer la chanson d'un tel », etc. Des instructions plus complexes La reconnaissance des phrases est souvent difficile.

L'importance de l'IA générative telle que ChatGPT et Wenxinyiyan pour les locuteurs intelligents est que la première peut aider les locuteurs intelligents à comprendre des phrases plus complexes et à fournir une communication plus naturelle. Je pense que les amis qui ont utilisé Microsoft Bing Chat, Baidu Wenxinyiyan ou ChatGPT devraient savoir que lorsque vous parlez à ce type d'IA générative, vous n'avez pas besoin d'utiliser une déclaration d'ouverture telle que "Bonjour, ChatGPT", vous pouvez commencer par taper directement le contenu.

LIA générative en vogue peut-elle redonner vie aux haut-parleurs intelligents ?

L'IA générative étant basée sur un modèle de langage à grande échelle (LLM, Large Language Model), elle ajoute des données d'annotation manuelle et une technologie d'apprentissage par renforcement à partir des commentaires humains, et est complétée par une technologie de graphe de connaissances, c'est-à-dire un multi -diagramme relationnel qui écrit les connaissances en triplets structurés (comprenant des entités, des concepts et des relations), permettant à l'IA de comprendre la signification des instructions humaines et, finalement, de sélectionner le contenu d'une énorme base de données d'informations pour y répondre.

ChatGPT Le plus grand changement par rapport à des produits comme Siri et Xiaoai est la possibilité d'avoir plusieurs cycles de conversations. Comparé à Siri, qui ressemble presque à une « mémoire de poisson », ChatGPT peut toujours parler aux utilisateurs, associé à une perception plus claire des émotions, donnant aux utilisateurs le sentiment qu'ils parlent vraiment à une personne vivante. Pour un produit grand public, les utilisateurs ne se soucient évidemment pas de l'avancée des principes techniques qui le sous-tendent, mais se concentrent sur sa capacité à résoudre les problèmes ou à répondre aux besoins.

LIA générative en vogue peut-elle redonner vie aux haut-parleurs intelligents ?

Le charme de l'IA générative réside dans sa limite supérieure élevée de capacités. Un exemple typique est Microsoft Copilot. En même temps, il peut également répondre dans une certaine mesure aux besoins sociaux des utilisateurs. ChatGPT a lancé un « compagnon virtuel » sur son modèle et a gagné plus de 1 000 utilisateurs. De manière générale, combiner l’IA générative avec des enceintes intelligentes peut presque compenser les défauts de ces dernières, en leur conférant un niveau d’intelligence exploitable sur le marché grand public.

En fait, certains fabricants d’enceintes intelligentes ont déjà pris des mesures. Par exemple, en février de cette année, alors que Baidu préparait Wen Xin Yi Yan, Xiaodu avait déjà annoncé qu'il intégrerait Wen Xin Yi Yan pour créer le modèle d'IA « Xiaodu Lingji » pour les scénarios d'appareils intelligents en avril, Tmall ; Génie a accédé à "Niaodu" Le "remplacement de la bouche AI" créé par le modèle "l'oiseau divise l'oiseau" a également annoncé son accès au Tongyi Qianwen d'Alibaba.

LIA générative en vogue peut-elle redonner vie aux haut-parleurs intelligents ?

Mais il faut souligner que l’IA générative n’est pas une « panacée ». Pour l’instant, toute IA générative est confrontée à un problème inévitable : la rareté des ressources informatiques. La nouvelle récente selon laquelle le plafond d'IA génératif GPT-4 est devenu « stupide » a attiré beaucoup d'attention. Par rapport à l'état où il venait de sortir, il est devenu un consensus parmi les utilisateurs sur la qualité du code texte de GPT-4. décliné sous tous ses aspects.

Oui, en fait, non seulement GPT-4, mais aussi les produits destinés au public tels que ChatGPT et Wenxinyiyan ont connu des situations similaires. L'augmentation du nombre d'utilisateurs a entraîné une baisse des performances des grands modèles.

Le principal problème auquel est confronté le domaine de l'IA générative est que les ressources informatiques sont limitées et incapables de faire face à l'afflux d'utilisateurs. Afin de garantir l'expérience utilisateur, de tels produits ne peuvent que réduire les performances des grands modèles et réduire les performances. quantité de contenu généré. Il est temps de « réduire la charge » sur le serveur. En comparaison, la taille actuelle du marché des haut-parleurs intelligents est sans aucun doute plus grande, donc après avoir accédé à l’IA générative, il est presque inévitable de rencontrer des problèmes similaires.

LIA générative en vogue peut-elle redonner vie aux haut-parleurs intelligents ?

Ce qui est susceptible d'arriver à l'avenir, c'est que le niveau d'intelligence des haut-parleurs intelligents affichera une parabole. L'expérience utilisateur initiale s'améliorera à pas de géant, mais à mesure que le nombre d'utilisateurs continue d'augmenter, les performances intelligentes pourraient augmenter. "dégrader" "Revenir au niveau d'il y a quelques années.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer