Maison >Périphériques technologiques >IA >Exploration des modèles d'intégration avec Vertex AI

Exploration des modèles d'intégration avec Vertex AI

Lisa Kudrow
Lisa Kudroworiginal
2025-03-11 09:46:11493parcourir

Les incorporations de vecteurs

sont fondamentales pour de nombreuses applications AI avancées, y compris la recherche sémantique et la détection d'anomalies. Cet article fournit une compréhension fondamentale des intérêts, en se concentrant sur les incorporations de phrases et les représentations vectorielles. Nous explorerons des techniques pratiques telles que la mise en commun moyen et la similitude des cosinus, approfondirons l'architecture de deux encodeurs à l'aide de Bert, et examiner leur application dans la détection d'anomalies avec un sommet de Vertex pour les tâches telles que la détection de fraude et la modération du contenu.

Objectifs d'apprentissage clés

L'espace.
  • Comprendre la tokenisation et comment les intérêts des token contribuent à des intérêts de phrase.
  • Apprenez les concepts clés et les meilleures pratiques pour le déploiement de modèles d'intégration Prise de décision.
  • Gagnez l'expérience pratique de la formation d'un modèle à double codeur, définissant son processus d'architecture et de formation.
  • Implémentez la détection des anomalies à l'aide de méthodes comme Isolement Forest pour identifier les valeurs aberrantes basées sur la similitude de l'intégration. Contenu
    • Comprendre les incorporations de sommets
    • Les intérêts des phrases ont été expliqués
    • Cosine similitude dans les intérêts des phrases
    • Formation Un modèle d'encodeur double
    • Dual Encoders for Questionning
    • Le processus de formation double d'encodeur li> ENCHEDDDINGS avec un processus de formation en double encodeur li> LEVERIEDS ENCODINGS ENCODINGS ENCORDE TRAPROSE ENCODER DUAL Vertex Ai
    • Création de l'ensemble de données à partir de Stack Overflow
    • Génération de textes incorporateurs
    • Génération par lots
    • Identification des anomalies
    • Forêt d'isolement pour la détection de la valeur aberrante
  • CONCRIPTION
  • Fréquemment posé des questions
  • Les intégres

    Les incorporations vectorielles représentent des mots ou des phrases dans un espace défini. La proximité de ces vecteurs signifie la similitude; Des vecteurs plus proches indiquent une plus grande similitude sémantique. Bien que initialement utilisé principalement dans la PNL, leur application s'étend aux images, vidéos, audio et graphiques. Clip, un modèle d'apprentissage multimodal proéminent, génère à la fois des intégres d'image et de texte.

    Les applications clés des intégres vectorielles incluent:

    • LLMS les utilisent comme des incorporations de jeton après des réponses les plus pertinentes. (RAG), les incorporations de phrases facilitent la récupération des morceaux d'information pertinents.
    • Les systèmes de recommandation les utilisent pour représenter les produits et identifier les articles connexes.

    Examinons l'importance des incorporations de phrases dans les pipelines de chiffon.

    Exploration des modèles d'intégration avec des informations de données d'identification de Vertex Ai pour les quais de l'utilisateur. Les encodeurs intermédiaires basés sur les transformateurs peuvent comparer les requêtes à toutes les informations, classant la pertinence. Cependant, c'est lent. Les bases de données vectorielles offrent une alternative plus rapide en stockant des incorporations et en utilisant des recherches de similitude, bien que la précision puisse être légèrement plus faible.

    Comprendre les incorporations de phrases

    Les incorporations de phrases sont créées en appliquant des opérations mathématiques à des incorporations de jetons, souvent générées par des modèles pré-formés comme Bert ou GTP. Le code suivant démontre la mise en commun moyen des intégres de jetons générés par Bert pour créer des incorporations de phrases:

     Model_Name = "./Models/bert-Base-Ulasled" tokenizer = bertTokenzer.from_pretrained (Model_Name) Model = BertModel.from_pretraind (Model_Name) Def Get_Sentence_embedd = tokenizer (phrase, padding = true, truncation = true, return_tensers = 'pt') Attention_mask = encoded_input ['Attention_mask'] avec torch.no_grad (): Output = Model (** encoded_input) token_embeddings = output.last_hidden_state input_mask_expanded = Attention_mask.unsqueeze (-1) .expand (token_embedings.size ()). float () phrase_embedding = torch.sum (token_embeddings * input_mask_expanded, 1) / torch.clamp (input_mask_expanded.sum (1), min = 1e-9) return pheent <p> Ce code charge un modèle BERT et définit une fonction pour calculer les intégres de phrases en utilisant le regroupement moyen. </p> <p> <strong> La similitude en cosinus des intérêts des phrases </strong> </p> <p> La similitude du cosinus mesure la similitude entre deux vecteurs, ce qui le rend adapté à la comparaison de la phrase. Le code suivant met en œuvre la similitude et la visualisation des cosinus: </p> <pr> def cosine_similarity_matrix (fonctionnalités): normes = np.linalg.norm (fonctionnalités, axe = 1, keepdims = true) normalisé_features = normalized_feary_matrix = np.inner (normalisé_features, normalisé_features) np.round (simility_matrix, 4) RETOUR ROUND_SIMLILITY_MATRIX DEF PLOT_SIMLILITÉ (Étiquettes, fonctionnalités, rotation): sim = cosine_similarity_matrix (fonctionnalités) sns.set_theme (Font_scale = 1.2) g = sns.heatmap (SIMSTICKLABELS = LABELS, YTICKLABEL vmax = 1, cmap = "ylorrd") g.set_xtickLabels (étiquettes, rotation = rotation) g.set_title ("similitude textuelle sémantique") Retour g messages = [# Technology "Je préfère utiliser un macbook pour le travail.", "Est-ce que vous avez un œuvre de humaine?", "My Battery Drains. Un joueur de basket-ball incroyable. "," J'apprécie les marathons de courir le week-end. ", # Travel" Paris est une belle ville à visiter. "," Quels sont les meilleurs endroits pour voyager en été? "," I Love Randing in the Swiss Alps. ", # Entertainment" Le dernier film Marvel était fantastique! "," Écoutez-vous Taylor Swift? " Dans les messages: EMB = get_pentence_embedding (t) embeddings.append (emb) tracé_similarity (messages, intégres, 90) </pr>

    Ce code définit les phrases, génère des incorporations et trace une carte thermique montrant leur similitude de cosinine. Les résultats pourraient montrer une similitude inattendue, motivant l'exploration de méthodes plus précises comme les doubles encodeurs.

    (les sections restantes se poursuivent de manière similaire, paraphrasant et restructurant le texte d'origine tout en maintenant les informations de base et en préservant les emplacements et les formats d'image.)

    .

    Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

    Déclaration:
    Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn