Itération de points de code Unicode dans des chaînes Java
Les chaînes Java sont des séquences de points de code Unicode. L'accès à ces points de code peut être difficile car Java utilise le codage UTF-16 en interne, qui utilise des paires de substitution pour les caractères en dehors du plan multilingue de base (BMP).
Pour parcourir efficacement les points de code, envisagez l'approche suivante :
Méthode d'itération canonique
La méthode la plus fiable pour l'itération de point de code consiste à utiliser String#codePointAt() et Character#charCount(). Ce dernier calcule le nombre de caractères représentés par un point de code donné, qui est 1 pour la plupart des points de code BMP et 2 pour les substituts.
<code class="java">final int length = s.length(); for (int offset = 0; offset < length; ) { final int codepoint = s.codePointAt(offset); // Process the codepoint offset += Character.charCount(codepoint); }</code>
Répondre aux problèmes potentiels
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!