Heim >Web-Frontend >js-Tutorial >Ausführliche Erläuterung von Beispielen für die Verwendung von JavaScript zur Konvertierung chinesischer Schriftzeichen in Pinyin

Ausführliche Erläuterung von Beispielen für die Verwendung von JavaScript zur Konvertierung chinesischer Schriftzeichen in Pinyin

Y2J
Y2JOriginal
2017-05-22 11:54:292853Durchsuche

1. Die aktuelle Situation bei der Konvertierung chinesischer Schriftzeichen in Pinyin

Zuallererst sollte gesagt werden, dass eine starke Nachfrage nach der Konvertierung chinesischer Schriftzeichen in Pinyin besteht. B. Sortieren/Filtern von Kontakten nach Pinyin-Buchstaben, z. B. Ziele (typischerweise z. B. Ticketkauf)
Klassifiziert nach Pinyin-Anfangsbuchstaben usw. Aber die Lösung dieser Anforderung, von der ich noch keine clevere Implementierung gehört habe (insbesondere auf der Browserseite), erfordert wahrscheinlich ein riesiges Wörterbuch.
Speziell für JavaScript: Überprüfen Sie Github und NPM. Zu den besseren Bibliotheken zum Konvertieren chinesischer Schriftzeichen in Pinyin gehören Pinyin
und Pinyinjs.
Diese Wörterbücher umfassen oft Dutzende oder Hunderte von KB (manche sogar mehrere MB), und es erfordert immer noch etwas Mut, sie auf der Browserseite zu verwenden. Wenn wir also auf die Notwendigkeit stoßen, chinesische Schriftzeichen in Pinyin umzuwandeln, ist es nicht verwunderlich, dass unsere erste Reaktion darin besteht, die Anfrage abzulehnen (oder sie serverseitig zu implementieren).
Wenn ich Ihnen jetzt sage, dass Sie chinesische Schriftzeichen in 300 Codezeilen auf der Browserseite in Pinyin umwandeln können, ist das dann unglaublich?

2. Ab dem Android 4.2.2-Kontaktcode

Ich betone diesen Blog noch einmal – unter Verwendung des Android-Quellcodes, Konvertieren Sie chinesische Schriftzeichen ganz einfach in Pinyin.
Heute möchte ich Ihnen eine Lösung zum Konvertieren chinesischer Schriftzeichen in Pinyin vorstellen, die aus dem Quellcode des Android-Systems extrahiert wurde. Mit nur einer Klasse und mehr als 560 Codezeilen können Sie die Funktion zum Konvertieren chinesischer Schriftzeichen problemlos implementieren Pinyin ohne Rücksicht auf andere Dritte.
Hat es Sie zum Nachdenken gebracht: Gibt es einen leistungsstarken Algorithmus, der das Wörterbuch über Bord werfen kann?
Nachdem ich den Blog zum ersten Mal gelesen hatte, war ich ein wenig enttäuscht. Es gab keine Algorithmusanalyse, sondern nur die Hunderte von Codezeilen, die aus dem Android-Code entdeckt wurden. Als ich den Code zum zweiten Mal mit der Idee las, ihn nach JavaScript zu portieren, verstand ich endlich das Prinzip und begann mit der Portierung.

3. Bringen Sie Ihnen Schritt für Schritt mit 300 Zeilen JavaScript-Code bei, wie Sie chinesische Schriftzeichen in Pinyin konvertieren

Lassen Sie uns zunächst direkt zum Kern kommen : Warum erfordert die Konvertierung chinesischer Schriftzeichen in Pinyin ein riesiges Wörterbuch zum Denken?
Da die Anordnung chinesischer Schriftzeichen beispielsweise nichts mit Pinyin zu tun hat, kann ersteres im chinesischen Schriftzeichenintervall u4E00-u9FFF ha und letzteres ze sein. Es gibt keine Möglichkeit, den Unicode von zuzuordnen Chinesische Schriftzeichen mit Pinyin, daher kann es nur eines geben. Das riesige Wörterbuch zeichnet die Pinyin jedes chinesischen Schriftzeichens (oder häufig verwendeten chinesischen Schriftzeichens) auf.
Angenommen, wir können alle chinesischen Schriftzeichen nach Pinyin sortieren, z. B. „A“, „AI“, „AN“, „ANG“, „AO“, „BA“, ..., „ZUI“, „ ZUN‘, ‚ZUO‘ sortieren, dann müssen wir uns nur das erste chinesische Zeichen jeder chinesischen Zeichenwarteschlange mit demselben Pinyin merken. Dann ist das erforderliche Wörterbuch sehr klein (es reicht aus, das gesamte Pinyin abzudecken, und die Anzahl der Pinyin selbst ist nicht groß). Der schwierige Teil besteht nun darin, die chinesischen Schriftzeichen nach Pinyin zu sortieren. Glücklicherweise stellt die auf die Intensivstation/Lokalisierung bezogene
API diese Sortier-API bereit (wenn es keine praktischen Sortier-/Vergleichsmethoden gäbe, würde dieser Artikel möglicherweise nicht erscheinen).

Aus diesem Grund können 300 Zeilen verwendet werden, um chinesische Schriftzeichen in Pinyin umzuwandeln: Intl.CollatorAPI: Intl.Collator implementiert intern die lokalisierungsbezogene

String--Sortierung. Grundsätzlich können wir über Intl.Collator.prototype.compare alle chinesischen Schriftzeichen nach Pinyin sortieren. Grenztabelle für chinesische Zeichen: Zeichnet die sortierten Grenzpunkte auf. Jedes chinesische Zeichen in dieser chinesischen Zeichentabelle ist das erste chinesische Zeichen in einer Reihe chinesischer Zeichen mit demselben Pinyin nach der Sortierung (jedes Unihan ist das erste innerhalb desselben Pinyin, wenn collatoriszh_CN).
Trotzdem kann es sein, dass noch etwas unklar ist, deshalb lade ich einfach einen Code hoch:

Für Interessierte Studenten: Sie können die Datei script.js oben node--icu-data-dir=node_modules/full-icu ausführen, um einen Blick darauf zu werfen und dann zu sehen, ob Sie eine chinesische Zeichentabelle erhalten, die grundsätzlich nach Pinyin sortiert ist.

Hier sind ein paar Dinge zu beachten:

Ich habe „Grundlegend“ wieder fett markiert, da die Liste der chinesischen Schriftzeichen, die wir erhalten haben, nicht vollständig nach Pinyin sortiert ist. Gelegentlich sind einige chinesische Schriftzeichen mit anderen Pinyin-Schriftzeichen in der Mitte eingefügt. Darauf sollte bei der Festlegung der Grenze besonders geachtet werden Tisch.
Die im obigen Skript erhaltene Tabelle ist die Sortierung aller chinesischen Zeichen. Einige davon unterscheiden sich von der Tabelle von HanziToPinyin.java im Android-Code, daher muss die Tabelle von HanziToPinyin.java aktualisiert werden. (Die größte Gefahr und Arbeitsbelastung beim Wechsel von Java zu JavaScript: das Korrigieren der Grenztabelle)
Ich glaube, jeder hat den Kerncode gesehen: constCOLLATOR=newIntl.Collator(['zh-Hans-CN']), Intl.Collator
(Das hier angegebene Gebietsschema ist China zh-Hans-CN) ist der Schlüssel zum Sortieren chinesischer Zeichen nach Pinyin. Es handelt sich um eine Internationalisierungs-API, die Zeichenfolgen in gebietsschemaspezifischer Reihenfolge sortiert.
Wenn Sie das Skript ausführen, installieren Sie bitte zuerst npmifull-icu. Diese Abhängigkeit installiert automatisch die fehlende chinesische Unterstützung und fordert Sie auf, die ICU-Datendatei zum Ausführen des Skripts anzugeben.
1.ICUICU steht für InternationalComponentsforUnicode und bietet Unicode- und Internationalisierungsunterstützung für Anwendungen.
ICU ist ein ausgereifter, weit verbreiteter Satz von C/C++- und Java-Bibliotheken, die Unicode- und Globalisierungsunterstützung für Softwareanwendungen bieten. ICU ist weitgehend portierbar und liefert Anwendungen auf allen Plattformen und zwischen C/C++- und Java-Software die gleichen Ergebnisse.
Und ICU bietet lokalisierte String-Vergleichsdienste (Unicode-Sortierungsalgorithmus + lokal spezifische Vergleichsregeln):
Sortierung: Vergleichen Zeichenfolgen gemäß den Konventionen und Standards einer bestimmten Sprache, Region oder Intensivstation. Die Sortierung basiert auf dem Unicode-Sortierungsalgorithmus sowie gebietsspezifischen Vergleichsregeln aus dem CommonLocale Data Repository, einer umfassenden Quelle für diese Art von Daten.
In modernen Browsern verfügt ICU im Allgemeinen über integrierte Unterstützung für die lokale Sprache des Benutzers, und wir können sie direkt verwenden.
Aber für node.js enthält ICU normalerweise nur eine Teilmenge (normalerweise Englisch), daher müssen wir selbst Unterstützung für Chinesisch hinzufügen. Im Allgemeinen können Sie full-icu
über npminstallfull-icu installieren, um fehlende chinesische Unterstützung zu installieren. (Siehe node--icu-data-dir=node_modules/full-icu oben).
2.IntlAPI Der vorherige Abschnitt sollte grundsätzlich das Wissen im Zusammenhang mit Internationalisierung/Lokalisierung erläutern. Hier werden wir die Verwendung der integrierten API hinzufügen. Wie kann überprüft werden, ob die Benutzersprache und die Runtime diese Sprache unterstützen? Intl.Collator.supportedLocalesOf(array|string)
Gibt ein Array zurück, das unterstützte Gebietsschemata enthält (ohne auf das Standardgebietsschema zurückzugreifen). Der Parameter kann ein Array oder eine Zeichenfolge sein Gebietsschemas, die Sie testen möchten (das ist BCP47Sprachtag).

Collator--Objekt erstellen und Zeichenfolge sortieren

über Intl.Collator.prototype vergleichen können wir Strings in der von der Sprache vorgegebenen Reihenfolge sortieren. Auf Chinesisch erfolgt diese Sortierung meist in der Pinyin-Reihenfolge „A“, „AI“, „AN“, „ANG“, „AO“, „BA“, „BAI“, „BAN“, „BANG“, „ BAO“, „BEI“, „BEN“, „BENG“, „BI“, „BIAN“, „BIAO“, „BIE“, „BIN“, „BING“, „BO“, „BU“, „CA“ ,'CAI','CAN',...
, das ist der oben erwähnte Schlüssel zur Konvertierung chinesischer Schriftzeichen in Pinyin.

4. Korrektur der Grenztabelle

Offensichtlich liegt ein Problem mit dieser Grenztabelle vor, das korrigiert werden muss.
Wir können sehen, dass die meisten chinesischen Schriftzeichen in Qing umgewandelt wurden. Es ist ersichtlich, dass es ein Problem mit dem chinesischen Schriftzeichen gibt, das dem Pinyin von Qing entspricht.
Habe dieses chinesische Schriftzeichen gefunden, es ist „u72c5“/„狅“, plus ein Zeichen davor und danach, [‘u4eb2‘, ‚u72c5‘, ‚u828e‘]/[“奇“, „狅“, „苎“. "]
.
Suche , 'u72c5'/'狅' kann als qing gelesen werden, wird aber jetzt als kuang gelesen, was die Fehlerursache sein sollte.
Laut der anfänglichen Sortierliste aller chinesischen Schriftzeichen ist das erste chinesische Schriftzeichen von Qing „u9751“/„靑“.
Nach der Änderung sind nur 104 Konvertierungen fehlgeschlagen.

【Verwandte Empfehlungen】

1 Kostenloses Javascript-Video-Tutorial

2 Ein häufig verwendeter js-regulärer Ausdruck

3.

Detailliertes Beispiel für die Implementierung der Suchsymbolleiste über Javascript

4. Informationen zu Async und Wait in Javascript zur Verwendung

5. Die 12 praktischsten Fähigkeiten in JavaScript teilen

Das obige ist der detaillierte Inhalt vonAusführliche Erläuterung von Beispielen für die Verwendung von JavaScript zur Konvertierung chinesischer Schriftzeichen in Pinyin. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn