Maison >Périphériques technologiques >IA >Utilisez un moteur volcanique et un grand modèle pour « allumer » le volant de données

Utilisez un moteur volcanique et un grand modèle pour « allumer » le volant de données

王林avant: 2023-09-20 21:21:031481parcourir

Dans le processus de transformation de milliers d'industries par de grands modèles, Volcano Engine a pris les devants en fournissant une réponse personnalisée à l'industrie des données.

Le 19 septembre, lors du « Data Flywheel V-Tech Data Driven Technology Summit » qui s'est tenu à Shanghai, Volcano Engine a annoncé les capacités de grand modèle de langage (Large Language Models) de la plateforme d'intelligence numérique VeDI.

Utilisez un moteur volcanique et un grand modèle pour « allumer » le volant de données

Après la mise à niveau du produit, il peut utiliser le langage naturel pour « trouver des chiffres », aider au développement de modèles d'entrepôt de données, optimiser le code, mais également compléter la génération de graphiques visuels et mettre en œuvre une analyse d'attribution lors de conversations et d'autres fonctions. Même les opérateurs ordinaires sans compétences en codage peuvent trouver rapidement des chiffres et les analyser. Actuellement, les produits de données liés au VeDI ont été invités à être testés.

Les produits de données mis à niveau ont considérablement abaissé le seuil d'utilisation des données. Dans le passé, si un opérateur ordinaire voulait trouver le numéro, il avait souvent besoin de demander de l'aide au personnel de R&D. Le personnel de R&D écrivait des codes pour aider à récupérer le numéro. L'analyse d'une donnée nécessitait de combiner de nombreuses connaissances professionnelles. Désormais, grâce à des produits de données améliorés, les opérateurs peuvent saisir à tout moment leurs besoins en langage naturel et obtenir les données souhaitées en temps réel.

Cela stimulera davantage la valeur des données. Au sein de l'entreprise, un seuil d'utilisation plus bas permettra à davantage de personnes dans la chaîne de consommation de données de commencer à contacter et à utiliser les données. Les besoins en données qui ont été supprimés par le seuil réel dans le passé seront satisfaits et les informations commerciales basées sur les données seront satisfaites. plus opportun et la prise de décision sera plus opportune. L’imagination commerciale davantage scientifique et basée sur les données sera libérée.

Pour les entreprises en cours de numérisation, la valeur des données sera publiée à une fréquence de circulation plus élevée et le volant d'inertie des données sera encore accéléré.

Les grands modèles sont intégrés dans la liaison de données complète, réduisant encore davantage le seuil de production et d'utilisation des données

Par rapport aux petits modèles, les grands modèles ont de puissantes capacités de raisonnement par généralisation, des capacités de récupération d'outils externes et code Capacité générative. Ces fonctionnalités ont un impact significatif sur les produits de données.

Une capacité de raisonnement généralisé plus forte signifie une intelligence plus élevée, mais en même temps, elle doit également être complétée en combinant de nombreux outils pour ajuster diverses capacités, telles que les mathématiques et les capacités analytiques. Le modèle d'interaction en langage naturel ouvert à l'ère des grands modèles a également apporté un nouvel espace d'imagination à l'utilisation des produits de données.

À partir de mars de cette année, Byte a commencé à combiner de grands modèles avec des produits de données Dans des tests à petite échelle avec itération rapide, l'équipe de Luo Xuan a rapidement découvert que dans les principaux scénarios de produits de données, les grands modèles Les améliorations. et les changements apportés sont évidents. Par la suite, l'équipe a commencé à expérimenter à grande échelle des scénarios de produits de données, en quantifiant constamment les priorités des scénarios et en promouvant la mise en œuvre de grands modèles dans les produits.

Dans le processus de transformation des grands modèles de l'industrie des données, la sélection des scénarios est l'une des étapes les plus critiques Un scénario d'utilisation approprié doit non seulement être établi sur la base de la technologie actuelle ou prévisible, mais également. Il est garanti qu'après l'ajout de grands modèles, les utilisateurs ou les entreprises peuvent avoir une meilleure expérience tout en apportant plus de valeur de consommation de données, ce qui peut stimuler davantage la production de données.

Luo Xuan a partagé que par exemple, si la solution originale ne prend que 1 à 2 secondes dans certains scénarios, après avoir utilisé un grand modèle, en raison du problème de retard du grand modèle, cela peut prendre plus de 5 secondes pour Si vous utilisez un langage naturel, ce scénario ne peut pas répondre aux besoins d’expérience de l’entreprise en matière de rapidité et n’est pas valide.

« Cependant, par exemple, dans le processus de génération de code court, après l'ajout du langage naturel, l'efficacité de la scène est grandement améliorée à l'avenir, à mesure que les performances des grands modèles continuent de s'améliorer, dans tous les aspects. la liaison de données complète, les grands modèles peuvent Les changements intelligents qu'elle apportera vaudront encore plus la peine d'être attendus. La plateforme VeDI annoncée par Volcano Engine comprend principalement deux parties : DataLeap et DataWind. Parmi eux, le « Number Assistant » de DataLeap peut prendre en charge la recherche de nombres sous forme de questions et réponses, et le « Development Assistant » peut prendre en charge la génération et l'optimisation de code SQL en langage naturel ; langage pour compléter la requête et l’analyse de visualisation de données.

Couvre tout le lien entre la recherche, la récupération et l'analyse des chiffres, abaissant ainsi le seuil technique pour l'ensemble du processus de production et de consommation de données.

DataLeap - Number Finding Assistant

« Trouver des numéros » est généralement la première étape de toute la chaîne de consommation de données. Ce n'est qu'en trouvant les actifs de données corrects que la consommation de données peut être réalisée.Cependant, « trouver des chiffres » dans le processus traditionnel n'est pas une tâche simple et nécessite une forte dépendance à l'égard de l'expertise commerciale. Habituellement, les gens ne peuvent confirmer que par des recherches par mots clés, puis par une sélection manuelle ou par la recherche de développeurs de données professionnels. P Utilisez DataLEAP -Trouver l'assistant "trouver le comptage"

Utilisez un moteur volcanique et un grand modèle pour « allumer » le volant de données

^{La fonction "Trouver l'assistant", qui se combine avec le grand modèle de langage (LLM), réduit considérablement le seuil de "trouver le comptage".}Grâce à « l'Assistant de recherche numérique », les personnes sans compétences en codage peuvent également effectuer des requêtes « anthropomorphes » en langage naturel

Par exemple, un opérateur de commerce électronique peut demander directement : « Quelles sont les conditions de fonctionnement de la salle de diffusion en direct de Haowu dans. les sept derniers jours ? DataLeap - L'assistant de recherche de données recommandera des tableaux liés aux conditions commerciales en fonction de la base de connaissances commerciales et expliquera les dimensions de données correspondant à chaque tableau.

Actuellement, le "Number Finder Assistant" peut mettre en œuvre la récupération par questions-réponses de divers types de données et connaissances métier associées, notamment les tables Hive, les ensembles de données, les tableaux de bord, les indicateurs de données, les dimensions, etc., et réaliser des requêtes anthropomorphes. .

De plus, en plus de faciliter la « recherche de nombres », « l'assistant de recherche de nombres » combiné à la capacité des grands modèles peut encore améliorer la précision de la « recherche de nombres ». Dans le passé, avec les solutions techniques traditionnelles, la récupération des actifs de données reposait sur une gestion de données structurées, et les données commerciales non structurées pouvaient avoir des connexions manquantes. Lorsque des mots-clés sont utilisés pour la récupération, un problème de fragmentation des liens peut en résulter, ce qui peut réduire considérablement le nombre de données basées sur. scénarios commerciaux. Trouvez et consommez efficacement. De plus, la recherche fournit un ensemble de réponses candidates basées sur des mots-clés, ce qui nécessite une sélection et une confirmation manuelles. Il ne s'agit pas de réponses directes, ce qui rend difficile pour les utilisateurs d'avoir une bonne expérience.

Maintenant, dans le processus conversationnel avec les utilisateurs, les grands modèles de langage (LLM) peuvent comprendre les intentions réelles des utilisateurs, rendant le processus de recherche plus ciblé, économisant le coût du jugement humain et « trouver des chiffres » lui-même devient plus Dans le même temps, avec l'amélioration progressive des capacités de compréhension et d'analyse sémantique du modèle, la récupération conversationnelle a une efficacité de récupération plus élevée sur l'ensemble du lien que la simple récupération de mots clés.

DataLeap - Assistant de développement

Dans le processus de production et de traitement des données, l'« Assistant de développement » peut prendre en charge l'utilisation du langage naturel et générer automatiquement du code SQL, il peut automatiquement implémenter la réparation et le code des bogues ; optimisation des codes existants, explications et commentaires, etc. De plus, vous pouvez également consulter des questions d'utilisation de SQL telles que la recherche de documents, l'utilisation de fonctions, des exemples de code, etc.代 Développement automatique du code SQL

L'assistant de développement sous la couche inférieure adopte un grand modèle de langage (LLM). Après une formation massive sur le code et le corpus, vous pouvez entrer en fonction des informations de métadonnées de l'utilisateur et générer de haute qualité. code de traitement des données et avoir la capacité de comprendre, de réécrire, de questionner et de répondre au code.

Utilisez un moteur volcanique et un grand modèle pour « allumer » le volant de données

码 Réparation automatique Le code existant 复 L'assistant de développement a brisé la barrière de la langue et réduit considérablement le seuil de développement des données. « À l’origine, pour (traiter) des données, vous aviez peut-être besoin de connaître un langage de programmation, tel que SQL ou Python, ce qui représente une exigence relativement forte. Cependant, vous n’avez désormais plus besoin d’un langage de programmation et pouvez donc utiliser le langage naturel. Cela signifie que les exigences pour les personnes effectuant cela ont été encore réduites. "

Pour les analystes et les opérateurs qui ont des besoins en matière de consommation de données, ils peuvent effectuer des ETL de base même s'ils ne comprennent pas SQL.

Les opérateurs peuvent laisser DataLeap générer automatiquement des codes de demande de données correspondant aux conditions commerciales, telles que les ventes de commandes par ville ou le trafic des salles de diffusion en direct par période horaire, etc. Les opérateurs peuvent également poser des questions sur la signification du code, par exemple « Y a-t-il un plan d'optimisation pendant l'exécution de cette table ? » ou ils peuvent avoir une conversation : « Aidez-moi à vérifier et à corriger cette chaîne de code. » Vous pouvez également analyser le code généré en un seul clic, appeler des outils SQL pour vérifier le tableau et cliquer pour confirmer la réparation automatique de l'IA afin d'optimiser davantage les actifs de données.

Plus important encore, pour les développeurs professionnels, DataLeap - Development Assistant peut les aider à effectuer certains travaux de base et à répondre à certains besoins complexes mais fondamentaux des analystes de données et des opérateurs commerciaux qui s'appuient sur les données, les ingénieurs n'ont qu'à corriger et vérifier les données. précision du code généré à la fin.

En conséquence, le personnel de R&D peut se concentrer sur un travail plus créatif, se concentrer davantage sur les besoins de scénarios complexes, utiliser des assistants de développement pour optimiser le code et améliorer la productivité de la R&D et la qualité du code.

DataWind - Assistant d'analyse

Après avoir réalisé la recherche et la récupération des nombres, nous sommes arrivés au lien d'analyse des données. DataWind - Analysis Assistant, qui combine des capacités de modèles étendus, peut aider les personnes occupant des postes non analytiques à réaliser une série d'explorations commerciales telles que des requêtes et des analyses de visualisation de données via un dialogue en langage naturel, abaissant ainsi le seuil de ce lien.

La première est la création du « dataset ». Avec les actifs de données, les opérateurs utilisent le glisser-déposer DataWind pour créer des ensembles de données, puis utilisent le langage naturel pour définir la logique des différents champs, par exemple en vérifiant directement les données de la « période de diffusion en direct des grandes célébrités ».

Une fois le champ généré 后 Après l'avoir vérifié, l'opérateur peut visualiser l'analyse et l'exploration. Dans le passé, les outils de BI utilisaient généralement des opérations de glisser-déposer. Même si le seuil a été abaissé dans la production de tableaux de bord, dans le domaine de l'analyse et de l'insight, une grande quantité de connaissances professionnelles est encore nécessaire pour mieux comprendre les données. un "seuil".

Utilisez un moteur volcanique et un grand modèle pour « allumer » le volant de données

Exploration visuelle

capable de réaliser des hypothèses et des vérifications de base, et de proposer des idées d'analyse.

La fonction d'analyse automatique de l'IA fournie par DataWind peut prendre en charge une exploration plus approfondie des raisons qui la sous-tendent sur la base de graphiques. Par exemple, l'IA peut analyser automatiquement les graphiques visuels générés tels que le « graphique du trafic de la salle de diffusion en direct par période de temps » et la « zone supérieure des ventes de la salle de diffusion en direct ». Il suffit aux opérateurs de procéder à une attribution plus approfondie via un dialogue basé sur les résultats de l'analyse.

Utilisez un moteur volcanique et un grand modèle pour « allumer » le volant de données

Dans le même temps, DataWind se connecte également à des outils de collaboration bureautiques tels que Feishu. Les utilisateurs peuvent effectuer des analyses plus étendues grâce à l'abonnement aux messages de messagerie instantanée et aux conversations naturelles, réalisant une analyse flexible à tout moment et en tout lieu, répondant aux besoins des ensembles de données, visuels. les informations et les abonnements aux messages. L'intelligence en libre-service sur l'ensemble de la liaison et l'intégration du bureau de China Unicom permettent d'intégrer de manière transparente l'analyse des données dans la vie quotidienne.

Messages de messagerie instantanée coordonnés Abonnez-vous pour l'analyse d'extension

L'analyse du seuil pour les assistants d'analyse réduira encore le seuil d'analyse de la lecture des « diagrammes de données » pour comprendre directement les résultats grâce au dialogue en langage naturel, à l'analyse des données et au cycle de réflexion. a été considérablement raccourci pour résoudre l'analyse passée de l'analyse passée. Obtenez un aperçu des problèmes qui nécessitent beaucoup de connaissances professionnelles et raccourcissez le cycle d'analyse des données.

À ce stade, les scénarios d'application de DataWind - Analysis Assistant sont déjà très riches. En plus de permettre l'exploration conversationnelle dans les scénarios d'analyse de base, Analysis Assistant étend également ses capacités à la génération d'expressions et à d'autres tâches qui nécessitaient auparavant davantage. seuils techniques dans la scène.

Le grand modèle accélère le volant d'inertie des données pour aider les entreprises à mieux s'orienter vers les données

ByteDance possède un gène profond axé sur les données. Depuis sa création, presque tous les scénarios de ByteDance ont été soumis à des tests A/B, et des ajustements sont effectués grâce au retour de données pour piloter les stratégies commerciales, par exemple si l'effet d'optimisation de la qualité vidéo de Douyin est bon, si l'optimisation de la stratégie de l'algorithme de recommandation est bonne. précis, et même les noms de Toutiao ont également été testés A/B.

Au sein de Byte, le périmètre de consommation de données est très large. Sur le plan organisationnel, tout le monde, des cadres supérieurs aux cadres intermédiaires, ainsi que les employés de première ligne, peuvent essentiellement voir les données et les utiliser pour évaluer l'état opérationnel, les revenus et les dépenses de l'entreprise, les progrès commerciaux et les stratégies de produits. Dans des scénarios spécifiques, tels que le marketing en temps réel dans le commerce électronique en direct, les opérations conçoivent et mettent en œuvre les stratégies marketing correspondantes basées sur des données en temps réel.

Byte a permis une prise de décision scientifique et une action agile grâce à la consommation de données, ce qui a amélioré la valeur commerciale grâce à une consommation fréquente de données et des avantages commerciaux, il a ciblé la construction d'actifs de données de haute qualité à faible coût pour mieux prendre en charge les applications métiers.

En avril de cette année, sur la base de plus de dix ans d'expérience pratique axée sur les données de ByteDance, Volcano Engine a publié un nouveau paradigme pour la mise à niveau de l'intelligence numérique d'entreprise, le « Data Flywheel », utilisant le « Data Flywheel » pour pleinement résumer le flux de données de l'entreprise Après avoir été intégré aux flux commerciaux, il peut obtenir l'effet volant d'amélioration des actifs de données et des applications métier.

Dans le cadre de la tendance générale à la numérisation, les entreprises de milliers de secteurs se rapprochent de la numérisation et les données deviennent de plus en plus importantes pour les entreprises. En tant que nouveau facteur de production, les données accompagnent la transformation numérique et intelligente des entreprises. Mais objectivement parlant, même si de nombreuses entreprises ont fait beaucoup de construction numérique, elles ne parviennent pas à libérer pleinement la valeur des données.

"Une entreprise peut déployer des produits de données à un prix élevé, mais il se peut que très peu de personnes les utilisent réellement en interne. Si les données sont difficiles à circuler, il sera difficile d'en réaliser la valeur." observé sur le marché des produits de données,

De nombreuses entreprises en pleine construction numérique rencontrent des problèmes tels que des coûts élevés de construction et de gestion des données, des barrières élevées à l'utilisation des produits de données et une faible valeur des actifs de données.

Du point de vue de l'ensemble du processus de numérisation, il est difficile mais correct d'être "data-driven". Prenant Byte comme exemple, Luo Xuan a révélé qu'actuellement, 80 % des employés de ByteDance peuvent utiliser directement les produits de données et que les actifs de données gérables et opérationnels couvrent 80 % des scénarios d'analyse quotidiens. À en juger par l'expérience de Byte, cela signifie que le taux d'utilisation des produits de données internes au sein de l'entreprise et la couverture des actifs de données gérables et opérationnels dans le scénario doivent être augmentés à un niveau plus élevé afin de former un bon « volant de données » dans le entreprise. .

Dans ce processus, les produits de données soutenus par de grands modèles peuvent être une force motrice importante pour aider les entreprises à atteindre leurs objectifs.

La plateforme d'intelligence numérique VeDI, qui a été mise à niveau avec des capacités de grands modèles, réduit encore l'ensemble du processus de production et de consommation de données, tel que la recherche de nombres, la récupération de nombres et l'analyse des données. Avec le même niveau de demande, grâce au VeDI mis à niveau, le nombre de personnes dans l'entreprise ayant la capacité d'utiliser des produits de données est passé des analystes de données professionnels à toutes les personnes ayant des besoins en données, qui peuvent être des opérations, des patrons, des chefs de produit, etc. La consommation de données devient inclusive.

"Ce n'est qu'en abaissant le seuil et en utilisant les données que nous pourrons savoir quel type de valeur les données généreront dans la circulation." Pour les entreprises qui viennent d'entrer dans le processus de numérisation, la valeur des données est loin d'être la même. les trésors découverts et les produits de données à seuil inférieur peuvent être la clé pour les débloquer.

Avec la bénédiction des grands modèles, le « volant de données » au sein de l'entreprise va accélérer sa rotation.

L'activité de l'entreprise dispose d'un moteur plus puissant et le personnel de l'entreprise peut obtenir rapidement des retours de données à partir de « données sortantes en quelques secondes », optimisant ainsi l'entreprise plus rapidement. Dans le processus d'accélération du flux de données, davantage d'actifs de données de haute qualité continuent de s'accumuler. Donnez à l'entreprise plus d'informations et, en fin de compte, rendez les décisions commerciales plus scientifiques et plus agiles.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python sql 数据类型数据结构算法 hive etl 数据分析 bug

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Casque Bigscreen Beyond VR : le plus léger et le plus petit au monde, disponible dès maintenant, pesant seulement 127 grammesArticle suivant：Casque Bigscreen Beyond VR : le plus léger et le plus petit au monde, disponible dès maintenant, pesant seulement 127 grammes

Articles Liés

Voir plus