Le participe de particules est une étape de base dans le traitement des tâches de traitement du langage naturel (NLP). Cela implique de diviser le texte en unités plus petites, appelées marqueurs, qui peuvent être des mots, des sous-mots ou des caractères.
La segmentation efficace des mots est essentielle aux performances des modèles de langage, ce qui en fait une étape importante dans une variété de tâches PNL telles que la génération de texte, la traduction et l'abstraction.
tiktoken est un thésaurus rapide et efficace développé par Openai. Il fournit une solution puissante pour convertir le texte en balises et vice versa. Sa vitesse et son efficacité en font un excellent choix pour les développeurs et les scientifiques des données qui travaillent avec de grands ensembles de données et des modèles complexes.
Ce guide est conçu pour les développeurs, les scientifiques des données et toute personne qui prévoit d'utiliser TikToken et a besoin d'un guide pratique qui contient des exemples.
Bases d'Openai
Commencez avec API Openai et plus encore!
Démarrez maintenant Vous pouvez afficher le code de la version Python Open Source TikToken dans le référentiel GitHub suivant.
Pour importer la bibliothèque, nous exécutons:
<code>pip install tiktoken</code>
Modèle de codage
Le modèle de codage dans TikToken détermine les règles de divulguer du texte en balises. Ces modèles sont cruciaux car ils définissent comment le texte est segmenté et codé, ce qui affecte l'efficacité et la précision des tâches de traitement du langage. Différents modèles OpenAI utilisent différents encodages.
<code>import tiktoken</code>TikToken fournit trois modèles de codage optimisés pour différents cas d'utilisation:
- O200K_BASE: Encodage du dernier modèle GPT-4O-MINI.
- CL100K_BASE: Modèles de codage pour les nouveaux modèles OpenAI tels que GPT-4 et GPT-3.5-Turbo.
- p50k_base: modèles de codex utilisés dans les applications de code.
- R50K_BASE: Encodage plus ancien pour différentes versions de GPT-3.
Tous ces modèles sont disponibles pour l'API d'Openai. Notez que l'API fournit beaucoup plus de modèles que ceux énumérés ici. Heureusement, la bibliothèque Tiktoken offre un moyen facile de vérifier quel codage doit être utilisé avec quel modèle.
Par exemple, si j'ai besoin de savoir quel modèle de codage le modèle de texte-3 utilise, je peux exécuter la commande suivante et obtenir la réponse en sortie:
<code>pip install tiktoken</code>
Nous obtenons
coder le texte en tant que marqueur
Pour coder le texte comme une balise en utilisant TikToken, vous devez d'abord obtenir l'objet codé. Il existe deux façons de l'initialiser. Tout d'abord, vous pouvez le faire en utilisant le nom du tokenzer:
<code>import tiktoken</code>
Alternativement, vous pouvez exécuter la fonction coding_for_model mentionnée plus tôt pour obtenir le codeur d'un modèle spécifique:
<code>print(tiktoken.encoding_for_model('text-embedding-3-small'))</code>
Maintenant, nous pouvons exécuter la méthode d'encoder de l'objet Encode pour coder la chaîne. Par exemple, nous pouvons coder la chaîne "j'aime datacamp" comme suit - Ici, j'utilise le codeur CL100K_BASE:
<code>encoding = tiktoken.get_encoding("[标记器名称]")</code>
Nous obtenons [40, 3021, 2956, 34955] comme sortie.
décoder la marque dans le texte
Pour décoder la marque vers le texte, nous pouvons utiliser la méthode .decode () sur l'objet codé.
Décodons la balise suivante [40, 4048, 264, 2763, 505, 2956, 34955]:
<code>encoding = tiktoken.encoding_for_model("[模型名称]")</code>
Ces marques sont décodées comme "J'ai beaucoup appris de Datacamp".
cas d'utilisation pratiques et conseils
En plus du codage et du décodage, j'ai également pensé à deux autres cas d'utilisation.
Estimation et gestion des coûts
Comprendre le comptage des balises avant d'envoyer une demande à l'API OpenAI peut vous aider à gérer efficacement les coûts. Parce que la facturation d'Openai est basée sur le nombre d'étiquettes traitées, le texte pré-marqué vous permet d'estimer le coût de l'utilisation de l'API. Voici comment calculer les balises dans le texte en utilisant tiktoken:
<code>print(encoding.encode("我爱 DataCamp"))</code>
Nous avons juste besoin de vérifier la longueur du tableau pour voir combien de notes nous obtenons. En connaissant le nombre d'étiquettes à l'avance, vous pouvez décider de raccourcir le texte ou d'ajuster l'utilisation pour rester dans votre budget.
Vous pouvez en savoir plus sur cette méthode dans ce tutoriel sur l'estimation du coût de GPT en utilisant la bibliothèque Tiktoken à Python.
Vérification de la longueur d'entrée
Lorsque vous utilisez des modèles OpenAI de l'API, vous êtes limité par le nombre maximum de marqueurs d'entrée et de sortie. Le dépassement de ces limites peut entraîner des erreurs ou une sortie tronquée. Avec TikToken, vous pouvez vérifier la longueur d'entrée et vous assurer qu'elle est conforme à la limite de marquage.
Conclusion
TikToken est un thésaurus open source qui offre une vitesse et une efficacité adaptées au modèle de langue Openai.
Apprendre à utiliser TikToken pour encoder et décoder du texte et ses différents modèles de codage peuvent améliorer considérablement votre travail avec de grands modèles de langue.
Obtenez la certification AI Top
prouver que vous pouvez utiliser l'IA efficace et de manière responsable. Soyez certifié, soyez embauché
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!
![Impossible d'utiliser Chatgpt! Expliquer les causes et les solutions qui peuvent être testées immédiatement [dernier 2025]](https://img.php.cn/upload/article/001/242/473/174717025174979.jpg?x-oss-process=image/resize,p_40)
Chatgpt n'est pas accessible? Cet article fournit une variété de solutions pratiques! De nombreux utilisateurs peuvent rencontrer des problèmes tels que l'inaccessibilité ou la réponse lente lors de l'utilisation quotidiennement du chatppt. Cet article vous guidera pour résoudre ces problèmes étape par étape en fonction de différentes situations. Causes de l'inaccessibilité de Chatgpt et du dépannage préliminaire Tout d'abord, nous devons déterminer si le problème est du côté du serveur OpenAI, ou les problèmes de réseau ou d'appareils de l'utilisateur. Veuillez suivre les étapes ci-dessous pour dépanner: Étape 1: Vérifiez le statut officiel d'OpenAI Visitez la page d'état OpenAI (status.openai.com) pour voir si le service Chatgpt s'exécute normalement. Si une alarme rouge ou jaune s'affiche, cela signifie ouvert

Le 10 mai 2025, le physicien du MIT Max Tegmark a déclaré au Guardian que les laboratoires AI devraient imiter le calcul de la trinité-test d'Oppenheimer avant de publier une super-intelligence artificielle. «Mon évaluation est que la« constante Compton », la probabilité qu'une race

La technologie de création de musique AI change chaque jour qui passe. Cet article utilisera des modèles d'IA tels que Chatgpt comme exemple pour expliquer en détail comment utiliser l'IA pour aider la création de la musique et l'expliquer avec des cas réels. Nous présenterons comment créer de la musique via Sunoai, Ai Jukebox sur les câlins et la bibliothèque Music21 de Python. Avec ces technologies, tout le monde peut facilement créer de la musique originale. Cependant, il convient de noter que le problème des droits d'auteur du contenu généré par l'IA ne peut pas être ignoré, et vous devez être prudent lorsque vous l'utilisez. Explorons ensemble les possibilités infinies de l'IA dans le domaine de la musique! Le dernier agent d'IA d'OpenAI "Openai Deep Research" présente: [Chatgpt] OPE

L'émergence de ChatGPT-4 a considérablement élargi la possibilité de demandes d'IA. Par rapport à GPT-3.5, le chatppt-4 s'est considérablement amélioré. Il a de puissantes capacités de compréhension du contexte et peut également reconnaître et générer des images. C'est un assistant d'IA universel. Il a montré un grand potentiel dans de nombreux domaines tels que l'amélioration de l'efficacité commerciale et l'assistance à la création. Cependant, en même temps, nous devons également prêter attention aux précautions dans son utilisation. Cet article expliquera en détail les caractéristiques de ChatGPT-4 et introduira des méthodes d'utilisation efficaces pour différents scénarios. L'article contient des compétences pour utiliser pleinement les dernières technologies d'IA, veuillez y faire référence. Le dernier agent d'IA d'OpenAI, veuillez cliquer sur le lien ci-dessous pour plus de détails sur "Openai Deep Research"

Application Chatgpt: lâchez votre créativité avec l'assistant AI! Guide du débutant L'application Chatgpt est un assistant AI innovant qui gère un large éventail de tâches, y compris l'écriture, la traduction et la réponse aux questions. Il s'agit d'un outil avec des possibilités infinies qui est utile pour les activités créatives et la collecte d'informations. Dans cet article, nous expliquerons de manière facile à comprendre pour les débutants, de la façon d'installer l'application Smartphone ChatGpt, aux fonctionnalités propres aux applications telles que les fonctions d'entrée vocale et les plugins, ainsi que les points à garder à l'esprit lors de l'utilisation de l'application. Nous allons également examiner de plus près les restrictions du plugin et la synchronisation de la configuration de l'appareil à périphérique

Version chinoise de Chatgpt: déverrouiller une nouvelle expérience du dialogue d'IA chinois Chatgpt est populaire partout dans le monde, saviez-vous qu'il offre également une version chinoise? Cet outil d'IA puissant supporte non seulement les conversations quotidiennes, mais gère également le contenu professionnel et est compatible avec des chinois simplifiés et traditionnels. Qu'il s'agisse d'un utilisateur en Chine ou d'un ami qui apprend le chinois, vous pouvez en bénéficier. Cet article introduira en détail comment utiliser la version chinoise Chatgpt, y compris les paramètres de compte, la saisie des mots invites chinois, l'utilisation du filtre et la sélection de différents packages, et analyser les risques et stratégies de réponse potentiels. De plus, nous comparerons également la version chinoise de Chatgpt avec d'autres outils d'IA chinois pour vous aider à mieux comprendre ses avantages et ses scénarios d'application. La dernière intelligence de l'IA d'Openai

Ceux-ci peuvent être considérés comme le prochain bond en avant dans le domaine de l'IA génératif, qui nous a donné le chatppt et d'autres chatbots de modèle à grande langue. Plutôt que de simplement répondre aux questions ou générer des informations, ils peuvent prendre des mesures en notre nom, inter

Techniques efficaces de gestion des comptes à l'aide de chatppt | Une explication approfondie de la façon d'utiliser la vie commerciale et privée! Chatgpt est utilisé dans une variété de situations, mais certaines personnes peuvent s'inquiéter de gérer plusieurs comptes. Cet article expliquera en détail comment créer plusieurs comptes pour Chatgpt, que faire lors de l'utilisation et comment le faire fonctionner en toute sécurité et efficacement. Nous couvrons également des points importants tels que la différence dans les entreprises et l'utilisation privée, et nous nous conformons aux conditions d'utilisation d'OpenAI, et fournissons un guide pour vous aider à utiliser plusieurs comptes. Openai


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Version Mac de WebStorm
Outils de développement JavaScript utiles

mPDF
mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

MantisBT
Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

ZendStudio 13.5.1 Mac
Puissant environnement de développement intégré PHP
