recherche
Maisondéveloppement back-endtutoriel phpPHP Master | Travailler avec des chaînes de multicette

PHP Master | Working with Multibyte Strings

La langue numérique, que ce soit en anglais, en japonais ou dans toute autre langue, se compose de nombreux personnages. Par conséquent, lorsqu'il s'agit d'une langue numérique, une question de base est de savoir comment représenter chaque caractère numériquement. Dans le passé, nous n'avions qu'à représenter des caractères anglais, mais maintenant les choses sont très différentes, et le résultat est un schéma de codage de personnage éblouissant pour représenter les personnages dans plusieurs langues différentes. Comment PHP associe-t-il et traite ces différents schémas?

Points clés

  • Les caractères multi-octets utilisent un à quatre octets pour définir des caractères, ce qui est crucial pour les représentations numériques des langues avec plus de 256 caractères uniques. Unicode, en particulier UTF-8, est le schéma de codage le plus utilisé pour ces caractères.
  • PHP lui-même n'est pas conçu pour gérer les caractères multilinants. Pour traiter ces caractères, un ensemble spécial de fonctions, la fonction MBSTring, doit être utilisé. Cependant, l'en-tête HTTP de PHP contient également des identifiants de jeu de caractères qui peuvent remplacer les balises Meta de la page.
  • La prise en charge multi-octets n'est pas la fonction par défaut de PHP et nécessite une reconfiguration. Pour activer la fonction MB, utilisez l'option --Enable-MbString Compile-Time et définissez l'option de configuration d'exécution mbString-coding_translation.
  • Plusieurs commandes de chaînes multipies sont disponibles en PHP, telles que MB_CHECK_ENCODING, MB_STRLEN et MB_ERG_SEARCH, qui sont utilisées pour vérifier si une séquence de codage spécifique est valide, trouver le nombre de caractères dans une chaîne multi-gobyte et effectuer des recherches de caractères traditionnelles. Version multi -yte.

bases

Nous savons tous que les "bits" peuvent être 0 ou 1, tandis que "les octets" sont une combinaison de huit bits consécutifs. Puisqu'il y a huit bits à double valeur dans un octet, un octet peut être configuré dans un total de 256 modes différents (à la 8e puissance de 2). Différents caractères peuvent être associés à chaque mode 8 bits possible. Mettez ces octets dans différents ordres et vous avez votre propre façon de communiquer. Ce n'est pas nécessairement intelligent, cela dépend de qui est des deux extrémités, mais c'est la communication. Tant que nous pouvons exprimer des caractères dans une langue avec 256 caractères uniques ou moins, nous réussissons. Mais que se passe-t-il si nous ne pouvons pas exprimer une langue avec seulement 256 caractères? Ou si nous devons exprimer plusieurs langues dans le même document? Aujourd'hui, alors que nous numérisons tout ce que nous pouvons trouver, 256 caractères sont loin d'être suffisants. Heureusement, les schémas de personnages qui relèvent mieux de ce défi ont été conçus. Ces nouveaux ensembles de super-chargement utilisent un à quatre octets pour définir des caractères. Aujourd'hui, le grand gars dans le domaine du codage des personnages est Unicode, qui est une solution qui utilise plusieurs octets pour représenter les personnages. Il a été développé par Unicode Consortium et est disponible en plusieurs versions: UTF-32 (pour Dreadnaught Class Starship), UTF-16 (pour l'entreprise dans Star Trek: Dark Unbound) et UTF-8 (la plupart d'entre nous devraient l'utiliser dans le vrai monde pour nos applications Web). Comme je l'ai dit, Unicode (y compris UTF-8) utilise plusieurs configurations d'octets pour représenter les caractères. UTF-8 utilise un à quatre octets pour générer 1 112 064 modèles pour représenter différents caractères. Ces "personnages larges" prennent plus de place, mais l'UTF-8 a tendance à traiter plus rapidement que certains autres schémas de codage. Pourquoi tout le monde loue-t-il UTF-8? Une partie de cela est les modèles populaires mis en évidence dans les annonces compatibles UTF-8 vues sur ESPN et TCM, mais principalement parce que UTF-8 imite ASCII, qui suit ASCII précisément si vous n'impliquez aucun caractères spéciaux.

Comment cela affecte-t-il le PHP?

Je sais ce que vous pensez. J'ai juste besoin de définir le jeu de caractères sur "UTF-8" dans ma balise Meta et tout ira bien. Mais ce n'est pas vrai. Premièrement, le simple fait est que PHP n'est pas vraiment conçu pour gérer les caractères multi-gytets, donc l'utilisation de fonctions de chaîne standard pour fonctionner sur ces caractères peut produire des résultats incertains. Lorsque nous devons traiter ces caractères multilingue, nous devons utiliser un ensemble spécial de fonctions: la fonction MBSTring. Deuxièmement, même si vous contrôlez PHP, il peut encore y avoir des problèmes. L'en-tête HTTP qui remplace votre communication contient également une identité de jeu de caractères, qui remplace le contenu dans la balise Meta Page. Alors, comment PHP gère-t-il les caractères multi -yte? Il existe deux ensembles de fonctions qui affectent les chaînes de multicette. Le premier est l'icôve. À partir de la version 5.0, cela est devenu la partie par défaut de la langue, un moyen de convertir un jeu de caractères en une autre représentation de jeu de caractères. Ce n'est pas ce dont nous discuterons dans cet article. La seconde est la prise en charge de MultiByte, qui est une série de commandes préfixées avec "MB_". Il y a beaucoup de ces commandes, et un examen rapide montre que certains d'entre eux sont liés à déterminer si les caractères sont appropriés sur la base d'un schéma de codage donné, tandis que d'autres sont des fonctions orientées vers la recherche similaires à une partie des expressions régulières PHP mais sont des fonctions multi -yte.

Activer la prise en charge de plusieurs mouste pour php

La prise en charge multi-octets n'est pas la fonctionnalité par défaut de PHP, mais il ne nous oblige pas non plus à télécharger des bibliothèques ou des extensions supplémentaires; Malheureusement, si vous utilisez une version gérée de PHP, ce n'est peut-être pas quelque chose que vous pouvez faire. Utilisez la fonction phpinfo () pour afficher votre configuration. Faites défiler vers le bas pour sortir à mi-chemin, et il y aura une section appelée "MbString". Cela vous montrera si les fonctionnalités de base sont activées. Pour plus d'informations sur la façon d'activer cette fonctionnalité, vous pouvez vous référer au manuel. En bref, vous pouvez activer la fonction MB à l'aide de l'option de compilation --r-mbstring et définir l'option de configuration d'exécution mbString-coding_translation. Bien sûr, la solution finale est PHP 6, car elle utilisera la bibliothèque USI IBM (veuillez enlever votre chapeau) pour assurer la prise en charge native pour les jeux de caractères multiples. Tout ce que nous avons à faire est de nous asseoir et d'attendre, non? Mais jusque-là, consultez le support multi -yte disponible maintenant.

Commande de chaîne multi-octets

Il peut y avoir 53 commandes de chaîne multipyte différentes. Il peut y en avoir 54. J'étais un peu à l'écart à un moment donné, mais vous obtenez ce que je veux dire. Inutile de dire que nous ne l'expliquerons pas un par un, mais pour le plaisir, jetons un coup d'œil à quelques-uns.

  • MB_CHECK_ENCODING
La fonction

mb_check_encoding () vérifie pour déterminer si une séquence de codage spécifique est valide pour le schéma de codage. La fonction ne vous dira pas comment la chaîne est encodée (ou quels schémas pour lesquels il fonctionnera), mais il vous dira s'il fonctionne pour le schéma spécifié.

<?php
$string = 'u4F60u597Du4E16u754C';
$string = json_decode('"' . $string . '"');
$valid = mb_check_encoding($string, 'UTF-8');
echo ($valid) ? 'valid' : 'invalid';
?>

Vous pouvez trouver une liste des encodages pris en charge dans le manuel PHP.

  • mb_strlen
La fonction

strlen () renvoie le nombre d'octets dans la chaîne. Pour ASCII, qui est un seul octet, cela rend agréable de trouver le nombre de caractères. Pour les chaînes de multi-gobete, vous devez utiliser la fonction mb_strlen ().

<?php
$string = 'u4F60u597Du4E16u754C';
$string = json_decode('"' . $string . '"');
$valid = mb_check_encoding($string, 'UTF-8');
echo ($valid) ? 'valid' : 'invalid';
?>
  • mb_ereg_search
La fonction

mb_ereg_search () effectue une version multi-gytet de la recherche de caractères traditionnelle. Mais il y a quelques mises en garde - vous devez spécifier le schéma de codage à l'aide de la fonction MB_REGEX_ENCODING (), l'expression régulière n'a pas de séparateur (c'est juste une partie du modèle), et l'expression régulière et la chaîne sont spécifiées en utilisant MB_EREG_SEARCH_INIT ().

<?php
$string = 'u4F60u597Du4E16u754C';
$string = json_decode('"' . $string . '"');

echo strlen($string); // 输出 12 – 错误!
echo mb_strlen($string, 'UTF-8'); // 输出 4
?>

Est-ce que c'est suffisant?

Je ne sais pas comment tu vas, mais je pense que le monde a vraiment besoin de choses plus simples. Malheureusement, le traitement multi-gytet ne répond pas à cette exigence. Mais pour l'instant, c'est quelque chose que vous ne pouvez pas ignorer. Parfois, vous ne pourrez pas effectuer un traitement de chaîne PHP normal (car vous essayez de traiter les caractères qui dépassent la plage ASCII normale (U 0000 - U 00FF). Cela signifie que vous devez utiliser des fonctions orientées MB_. Vous voulez en savoir plus? Sérieusement, voulez-vous? Je pensais vraiment que cela vous ferait peur. Je n'étais pas préparé à cela. Mon temps est venu. Quel est votre meilleur choix? Découvrez le manuel PHP. Oh, et essayez quelque chose. Il n'y a rien pour remplacer l'expérience d'utiliser réellement quelque chose.

(La partie FAQ d'origine doit être conservée ici car son contenu est fortement lié au sujet de l'article et réduira la lisibilité après réécriture.)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Quels sont les avantages de l'utilisation d'une base de données pour stocker des sessions?Quels sont les avantages de l'utilisation d'une base de données pour stocker des sessions?Apr 24, 2025 am 12:16 AM

Les principaux avantages de l'utilisation des sessions de stockage de la base de données incluent la persistance, l'évolutivité et la sécurité. 1. Persistance: Même si le serveur redémarre, les données de session peuvent rester inchangées. 2. Évolutivité: applicable aux systèmes distribués, garantissant que les données de session sont synchronisées entre plusieurs serveurs. 3. Sécurité: La base de données fournit un stockage crypté pour protéger les informations sensibles.

Comment implémentez-vous la gestion des sessions personnalisées dans PHP?Comment implémentez-vous la gestion des sessions personnalisées dans PHP?Apr 24, 2025 am 12:16 AM

L'implémentation de traitement personnalisé de session dans PHP peut être effectué en implémentant l'interface SessionHandlerInterface. Les étapes spécifiques incluent: 1) la création d'une classe qui implémente SessionHandlerInterface, telles que CustomSessionHandler; 2) réécrire des méthodes dans l'interface (telles que l'ouverture, la fermeture, la lecture, l'écriture, la détruire, GC) pour définir le cycle de vie et la méthode de stockage des données de session; 3) Enregistrez un processeur de session personnalisé dans un script PHP et démarrez la session. Cela permet de stocker des données dans des supports tels que MySQL et Redis pour améliorer les performances, la sécurité et l'évolutivité.

Qu'est-ce qu'un identifiant de session?Qu'est-ce qu'un identifiant de session?Apr 24, 2025 am 12:13 AM

SessionID est un mécanisme utilisé dans les applications Web pour suivre l'état de la session utilisateur. 1. Il s'agit d'une chaîne générée aléatoire utilisée pour maintenir les informations d'identité de l'utilisateur lors de plusieurs interactions entre l'utilisateur et le serveur. 2. Le serveur génère et l'envoie au client via des cookies ou des paramètres d'URL pour aider à identifier et à associer ces demandes dans plusieurs demandes de l'utilisateur. 3. La génération utilise généralement des algorithmes aléatoires pour assurer l'unicité et l'imprévisibilité. 4. Dans le développement réel, les bases de données en mémoire telles que Redis peuvent être utilisées pour stocker les données de session pour améliorer les performances et la sécurité.

Comment gérez-vous les sessions dans un environnement sans état (par exemple, API)?Comment gérez-vous les sessions dans un environnement sans état (par exemple, API)?Apr 24, 2025 am 12:12 AM

La gestion des séances dans des environnements sans état tels que les API peut être réalisée en utilisant JWT ou des cookies. 1. JWT convient à l'état sans état et à l'évolutivité, mais il est de grande taille en ce qui concerne les mégadonnées. 2.La cookies est plus traditionnel et facile à mettre en œuvre, mais ils doivent être configurés avec prudence pour assurer la sécurité.

Comment pouvez-vous protéger contre les attaques de scripts croisés (XSS) liées aux séances?Comment pouvez-vous protéger contre les attaques de scripts croisés (XSS) liées aux séances?Apr 23, 2025 am 12:16 AM

Pour protéger l'application des attaques XSS liées à la session, les mesures suivantes sont nécessaires: 1. Définissez les drapeaux httponly et sécurisés pour protéger les cookies de session. 2. Codes d'exportation pour toutes les entrées utilisateur. 3. Implémentez la politique de sécurité du contenu (CSP) pour limiter les sources de script. Grâce à ces politiques, les attaques XSS liées à la session peuvent être protégées efficacement et les données utilisateur peuvent être assurées.

Comment pouvez-vous optimiser les performances de session PHP?Comment pouvez-vous optimiser les performances de session PHP?Apr 23, 2025 am 12:13 AM

Les méthodes pour optimiser les performances de la session PHP incluent: 1. Delay Session Start, 2. Utilisez la base de données pour stocker les sessions, 3. Compress Session Data, 4. Gérer le cycle de vie de la session et 5. Implémenter le partage de session. Ces stratégies peuvent améliorer considérablement l'efficacité des applications dans des environnements de concurrence élevés.

Quel est le paramètre de configuration session.gc_maxlifetime?Quel est le paramètre de configuration session.gc_maxlifetime?Apr 23, 2025 am 12:10 AM

Thesesse.gc_maxlifetimesettingInphpdeterminesthelifespanofessiondata, setInSeconds.1) it'sconfiguredInphp.Iniorviaini_set (). 2)

Comment configurez-vous le nom de session en PHP?Comment configurez-vous le nom de session en PHP?Apr 23, 2025 am 12:08 AM

Dans PHP, vous pouvez utiliser la fonction session_name () pour configurer le nom de session. Les étapes spécifiques sont les suivantes: 1. Utilisez la fonction session_name () pour définir le nom de session, tel que session_name ("my_session"). 2. Après la définition du nom de la session, appelez session_start () pour démarrer la session. La configuration des noms de session peut éviter les conflits de données de session entre plusieurs applications et améliorer la sécurité, mais faire attention à l'unicité, à la sécurité, à la longueur et à la définition du calendrier des noms de session.

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Navigateur d'examen sécurisé

Navigateur d'examen sécurisé

Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

Télécharger la version Mac de l'éditeur Atom

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire

Adaptateur de serveur SAP NetWeaver pour Eclipse

Adaptateur de serveur SAP NetWeaver pour Eclipse

Intégrez Eclipse au serveur d'applications SAP NetWeaver.

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.