Maison >interface Web >js tutoriel >Explication détaillée de la façon dont JavaScript utilise 300 lignes de code pour convertir les caractères chinois en Pinyin

Explication détaillée de la façon dont JavaScript utilise 300 lignes de code pour convertir les caractères chinois en Pinyin

黄舟
黄舟original
2017-05-21 11:32:292613parcourir

Cet article présente principalement le programmeur de niveau divin JavaScript300 lignes de code pour convertir les caractères chinois en pinyin. Les amis dans le besoin peuvent se référer à

1 .La situation actuelle de la conversion des caractères chinois en Pinyin

Tout d'abord, il faut dire qu'il existe une forte demande pour la conversion des caractères chinois en Pinyin. Par exemple, les contacts sont triés/filtrés. par lettres Pinyin ; par exemple, les destinations (généralement telles que les achats de billets)

Par Pinyin Classification des lettres initiales et ainsi de suite. Mais la solution à cette exigence, mais je n’ai entendu parler d’aucune implémentation intelligente (en particulier du côté du navigateur), nécessite probablement un énorme dictionnaire.
Spécifiquement pour JavaScript, consultez
github et npm. Les meilleures bibliothèques pour convertir les caractères chinois en pinyin incluent pinyin et pinyin
js. avec un énorme dictionnaire. Ces dictionnaires font souvent des dizaines ou des centaines de Ko (certains même plusieurs Mo), et il faut quand même du courage pour les utiliser côté navigateur. Ainsi, lorsque nous rencontrons le besoin de convertir des caractères chinois en Pinyin, il n'est pas surprenant que notre première réaction soit de rejeter la demande (ou de l'implémenter côté serveur).
Maintenant, si je vous dis qu'on peut convertir des caractères chinois en Pinyin en 300 lignes de code côté navigateur, est-ce incroyable ?

2. À partir du code de contact Android 4.2.2

J'insiste à nouveau sur ce blog - en utilisant le code source

Android, Convertissez facilement les caractères chinois en Pinyin. Aujourd'hui, j'aimerais partager avec vous une solution pour convertir les caractères chinois en Pinyin extraits du code source du système Android. Avec une seule classe et plus de 560 lignes de code, vous pouvez facilement implémenter la fonction de conversion des caractères chinois en. Pinyin sans aucun autre tiers.
Cela a-t-il brisé votre réflexion : existe-t-il un algorithme puissant qui peut abandonner le dictionnaire ?
Après avoir lu le blog pour la première fois, j'ai été un peu déçu. Il n'y avait pas d'analyse algorithmique. Il introduisait simplement les centaines de lignes de code découvertes à partir du code Android. La deuxième fois que j'ai lu le code avec l'idée de le porter en JavaScript, j'ai enfin compris le principe, j'ai donc commencé le parcours du portage.

3. Apprenez-vous étape par étape avec 300 lignes de code JavaScript pour convertir les caractères chinois en pinyin

Tout d'abord, allons droit au but. : pourquoi la conversion des caractères chinois en Pinyin nécessite un énorme dictionnaire de la pensée Règlement ?

Parce que la disposition des caractères chinois n'a rien à voir avec le pinyin, par exemple, dans l'intervalle de caractères chinois u4E00-u9FFF, le premier peut être ha et le second peut être ze. Il n'y a aucun moyen d'associer l'unicode de. Caractères chinois avec pinyin, il ne peut donc y en avoir qu'un. L'immense dictionnaire enregistre le pinyin de chaque caractère chinois (ou caractère chinois couramment utilisé).
Cependant, supposons que nous puissions trier tous les caractères chinois par pinyin, tels que 'A', 'AI', 'AN', 'ANG', 'AO', 'BA',..., 'ZUI',' ZUN', 'ZUO', il suffit alors de mémoriser le premier caractère chinois de chaque caractère chinois
file d'attente avec le même pinyin. Ensuite, le dictionnaire requis sera très petit (couvre simplement tout le pinyin, le nombre de pinyin lui-même n'est pas grand). Maintenant, la partie difficile est de trier les caractères chinois par pinyin. Heureusement, l'
API liée à l'ICU/localisation fournit cette API de tri (s'il n'y avait pas de méthodes de tri/comparaison pratiques, cet article pourrait ne pas apparaître).

C'est pourquoi 300 lignes peuvent être utilisées pour convertir des caractères chinois en pinyin : Intl.CollatorAPI : Intl.Collator implémente en interne le tri

chaîne lié ​​à la localisation. Nous pouvons essentiellement trier tous les caractères chinois selon le pinyin via Intl.Collator.prototype.compare. Tableau de caractères chinois des limites : enregistre les points limites triés. Chaque caractère chinois de cette table de caractères chinois est le premier caractère chinois d'un ensemble de caractères chinois avec le même pinyin après tri (
Chaqueunihansisthefirstonouveauithinsamepinyinwhencollatoriszh_CN). En parlant de ça, il y a peut-être encore quelque chose de flou, je vais donc directement télécharger un morceau de code :

Pour les personnes intéressées étudiants Vous pouvez exécuter le script.js ci-dessus node--icu-data-

dir=node_modules/full-icu pour voir s'il est essentiellement trié par table de caractères chinois pinyin. .

Voici quelques points à noter :

J'ai encore mis "Basic" en gras car la liste des caractères chinois que nous avons obtenu n'est pas complètement triée selon le pinyin. Il y a parfois des autres caractères chinois pinyin insérés au milieu. faire la table de délimitation. Attention particulière.
Le tableau obtenu dans le script ci-dessus est le tri de tous les caractères chinois. Certains d'entre eux sont différents du tableau de HanziToPinyin.java dans le code Android, le tableau de HanziToPinyin.java doit donc être mis à jour. (Le plus gros écueil et la plus grande charge de travail lors du passage de Java à JavaScript : corriger le tableau des limites)
Je pense que tout le monde a vu le code principal : constCOLLATOR=newIntl.Collator(['zh-Hans-CN']), Intl.Collator
(Les paramètres régionaux spécifiés ici sont China zh-Hans-CN) est la clé pour trier les caractères chinois par pinyin. Il s'agit d'une API d'internationalisation qui trie les chaînes dans un ordre spécifique aux paramètres régionaux.
Lors de l'exécution du script, veuillez d'abord npmifull-icu. Cette dépendance installera automatiquement le support chinois manquant et vous demandera comment spécifier le fichier de données ICU pour exécuter le script.
1.ICUICU signifie InternationalComponentsforUnicode, qui fournit une prise en charge Unicode et l'internationalisation des applications.
ICU est un ensemble mature et largement utilisé de bibliothèques C/C++ et Java fournissant un support Unicode et mondialisation pour les applications logicielles. ICU est largement portable et donne aux applications les mêmes résultats sur toutes les plates-formes et entre les logiciels C/C++ et Java.
Et ICU fournit des services de comparaison de chaînes localisées (algorithme de collecte Unicode + règles de comparaison spécifiques localement) :
Collation : comparer la chaîne selon les conventions et les normes d'une langue, d'une région ou d'un pays particulier. Le classement est basé sur l'algorithme de classement Unicode ainsi que sur les règles de comparaison spécifiques aux paramètres régionaux du référentiel de données locales communes, une source complète pour ce type de données.
Sur les navigateurs modernes, ICU prend généralement en charge la langue locale de l'utilisateur et nous pouvons l'utiliser directement.
Mais pour node.js, généralement, ICU ne contient qu'un sous-ensemble (généralement l'anglais), nous devons donc ajouter nous-mêmes la prise en charge du chinois. D'une manière générale, vous pouvez installer full-icu
via npminstallfull-icu pour installer le support chinois manquant. (Voir node--icu-data-dir=node_modules/full-icu ci-dessus).
2.IntlAPI La section précédente devrait essentiellement expliquer les connaissances liées à l'internationalisation/localisation. Ici, nous ajouterons l'utilisation de l'API intégrée. Comment vérifier si la langue de l'utilisateur et le Runtime prennent en charge cette langue ? Intl.Collator.supportedLocalesOf(array|string)
Renvoie un tableau contenant les paramètres régionaux pris en charge (sans revenir aux paramètres régionaux par défaut. Le paramètre peut être un tableau ou une chaîne, qui correspond aux paramètres régionaux que vous souhaitez tester (). c'est-à-dire la balise de langue BCP47).

Construire Collator objet et trier la chaîne

via Intl.Collator.prototype comparer. , nous pouvons trier les chaînes dans l'ordre spécifié par le langage. En chinois, ce tri se fait principalement dans l'ordre piny, 'A', 'AI', 'AN', 'ANG', 'AO', 'BA', 'BAI', 'BAN', 'BANG',' BAO','BEI','BEN','BENG','BI','BIAN','BIAO','BIE','BIN','BING','BO','BU','CA' ,'CAI','CAN',...
, c'est la clé pour convertir les caractères chinois en pinyin que nous avons mentionnés ci-dessus.

4. Correction de la table des limites

Évidemment, il y a un problème avec cette table des limites et doit être corrigé.
On voit que la plupart des caractères chinois ont été convertis en qing. On voit qu'il y a un problème avec le caractère chinois correspondant au pinyin de qing.
J'ai trouvé ce caractère chinois, c'est 'u72c5'/'狅', plus un caractère avant et après, ['u4eb2','u72c5','u828e']/["情","狅","苎"]
.
Recherchez , 'u72c5'/'狅' peut être lu comme qing, mais maintenant il est lu comme kuang, ce qui devrait être la cause de l'erreur.
Selon la liste de tri initiale de tous les caractères chinois, le premier caractère chinois de qing est 'u9751'/'靑'.
Après le changement, seules 104 conversions ont échoué.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn