Heim > Artikel > Web-Frontend > Die ultimative Lösung zum Konvertieren chinesischer Zeichen in Pinyin in JavaScript, mit einer detaillierten Einführung in die JS-Pinyin-Eingabemethode
Im Internet gibt es viele Artikel über die Konvertierung chinesischer Schriftzeichen und Pinyin mit JS, aber sie sind ziemlich chaotisch und werden alle voneinander kopiert, einige jedoch nicht unterstützen polyphone Zeichen, einige unterstützen keine Töne und einige Wörterbuchdateien sind zu groß. Manchmal muss ich beispielsweise nur den ersten Buchstaben des chinesischen Pinyin abrufen, aber ich muss eine 200-KB-Wörterbuchdatei importieren, die den tatsächlichen Anforderungen nicht gerecht wird .
Zusammenfassend lässt sich sagen, dass ich mehrere gängige Wörterbuchdateien im Internet sorgfältig organisiert und geändert und einfach eine Werkzeugbibliothek gekapselt habe, die direkt verwendet werden kann.
Github-Projektadresse: https://github.com/liuxianan/pinyinjs
Vollständige Demo-Demonstration: http://demo.liuxianan.com /pinyinjs/
Chinesische Schriftzeichen in Pinyin umwandeln:
Pinyin in chinesische Schriftzeichen umwandeln:
Es wird allgemein angenommen, dass der Bereich chinesischer Schriftzeichen in der Unicode-Kodierung /^[u2E80-u9FFF]+$/
(11904-40959) beträgt, aber viele davon Es handelt sich nicht um chinesische Schriftzeichen, oder es handelt sich um lesbare chinesische Schriftzeichen. Die in diesem Artikel verwendeten chinesischen Schriftzeichenbereiche sind alle /^[u4E00-u9FA5]+$/
, also (19968-40869). Es gibt auch ein separates chinesisches Schriftzeichen 〇 Die Unicode-Position ist 12295.
Chinesische Schriftzeichen haben 21 Anfangskonsonanten: b, p, m, f, d, t, n, l, g, k, h, j, q, x, zh , ch, sh, r, z, c, s, 24 Finals, darunter 6 Einzelfinals: a, o, e, i, u, v und 18 zusammengesetzte Finals: ai, ei, ui, ao, ou , iu , Das heißt, ve, er, an , en , in, un , vn , ang, eng, ing , ong, vorausgesetzt, dass Anfangskonsonanten und Endkonsonanten paarweise kombiniert werden, gibt es 24X21=504 Kombinationen. Die tatsächliche Situation ist, dass einige Kombinationen sind bedeutungslose Typen wie bv, gie, ve usw. Nach dem Entfernen dieses Teils sind noch 412 Typen übrig.
Wird in aufsteigender Reihenfolge entsprechend der Größe der Wörterbuchdateien angezeigt.
Der Inhalt dieser Wörterbuchdatei ist ungefähr wie folgt:
/** * 拼音首字母字典文件 */ var pinyin_dict_firstletter = {}; pinyin_dict_firstletter.all = "YDYQSXMWZSSXJBYMGCCZQPSSQBYCDSCDQLDYLYBSSJG..."; pinyin_dict_firstletter.polyphone = {"19969":"DZ","19975":"WM","19988":"QJ","20048":"YL",...};
Dieses Datenwörterbuch konvertiert Unicode-Zeichen in 4E00
(19968 )-9FA5
(40869) Insgesamt 20.902 Pinyin-Initialen chinesischer Schriftzeichen werden zusammengefügt, um eine sehr lange Zeichenfolge zu erhalten, und dann werden die chinesischen Schriftzeichen mit polyphonen Schriftzeichen (insgesamt 370 polyphone Schriftzeichen) separat aufgelistet. Die Größe der Wörterbuchdatei beträgt 25kb
.
Der Vorteil dieser Wörterbuchdatei besteht darin, dass sie klein ist und multiphonetische Zeichen unterstützt. Der Nachteil besteht darin, dass sie nur den ersten Buchstaben von Pinyin erhalten kann.
Diese Wörterbuchdatei klassifiziert chinesische Schriftzeichen nach Pinyin, wobei insgesamt 401 Kombinationen und 6763 häufig verwendete chinesische Schriftzeichen nicht unterstützt werden. Da es aus dem Internet stammt, ist die Anzahl der enthaltenen Wörter gering, sodass die Dateigröße nur 24 KB beträgt. Ich werde sehen, ob ich es später erweitern kann, wenn ich Zeit habe.
Der ungefähre Inhalt der Wörterbuchdatei ist wie folgt (dies ist nur ein Beispiel, daher wird nur ein kleiner Teil gezeigt):
/** * 常规拼音数据字典,收录常见汉字6763个,不支持多音字 */ var pinyin_dict_notone = { "a":"啊阿锕", "ai":"埃挨哎唉哀皑癌蔼矮艾碍爱隘诶捱嗳嗌嫒瑷暧砹锿霭", "an":"鞍氨安俺按暗岸胺案谙埯揞犴庵桉铵鹌顸黯", "ang":"肮昂盎", "ao":"凹敖熬翱袄傲奥懊澳坳拗嗷噢岙廒遨媪骜聱螯鏊鳌鏖", "ba":"芭捌扒叭吧笆八疤巴拔跋靶把耙坝霸罢爸茇菝萆捭岜灞杷钯粑鲅魃", "bai":"白柏百摆佰败拜稗薜掰鞴", "ban":"斑班搬扳般颁板版扮拌伴瓣半办绊阪坂豳钣瘢癍舨", "bang":"邦帮梆榜膀绑棒磅蚌镑傍谤蒡螃", "bao":"苞胞包褒雹保堡饱宝抱报暴豹鲍爆勹葆宀孢煲鸨褓趵龅", "bo":"剥薄玻菠播拨钵波博勃搏铂箔伯帛舶脖膊渤泊驳亳蕃啵饽檗擘礴钹鹁簸跛", "bei":"杯碑悲卑北辈背贝钡倍狈备惫焙被孛陂邶埤蓓呗怫悖碚鹎褙鐾", "ben":"奔苯本笨畚坌锛" // 省略其它 };
Später stellte ich langsam fest, dass es viele davon gab Fehler in dieser Wörterbuchdatei, wie z. B. das Ersetzen von 虐
. Das Pinyin von wird als nue
geschrieben (die korrekte Schreibweise sollte nve sein), 躺
wird als thang
geschrieben und polyphonetische Zeichen werden nicht unterstützt, daher gehe ich später darauf ein hat eine Wörterbuchdatei in diesem Format basierend auf anderen Wörterbuchdateien neu generiert:
Insgesamt 404 Pinyin-Kombinationen
Enthält 6763 häufig verwendete chinesische Schriftzeichen
Unterstützt multiphonetische Zeichen
Unterstützt keine Töne
Die Dateigröße beträgt 27 KB
Gleichzeitig habe ich auf der Grundlage einer häufig verwendeten Online-Artikel-Häufigkeitstabelle für 6763 chinesische Schriftzeichen diese 6763 chinesischen Schriftzeichen nach ihrer Nutzungshäufigkeit sortiert, sodass eine zufriedenstellende JS-Version davon entsteht Eingabemethode realisiert werden kann.
Darüber hinaus wurde laut einer weiteren, umfassenderen Wörterbuchdatei festgestellt, dass es tatsächlich 412 Pinyin-Kombinationen gibt. Die 8 Aussprachen, die in der obigen Wörterbuchdatei nicht vorkommen, sind:
chua,den,eng,fiao,m,kei,nun,shei
Zunächst habe ich die folgende strukturierte Wörterbuchdatei aus dem Internet gefunden (im Folgenden als Wörterbuch A bezeichnet). Sie unterstützt Töne und polyphone Zeichen und konvertiert Unicode-Zeichen in 4E00
(19968)- 9FA5
(40869). Insgesamt sind 20902 chinesische Zeichen (20903, wenn 〇 enthalten ist) in Pinyin aufgeführt. Die Wörterbuchdateigröße ist 280kb
:
3007 (ling2) 4E00 (yi1) 4E01 (ding1,zheng1) 4E02 (kao3) 4E03 (qi1) 4E04 (shang4,shang3) 4E05 (xia4) 4E06 (none0) 4E07 (wan4,mo4) 4E08 (zhang4) 4E09 (san1) 4E0A (shang4,shang3) 4E0B (xia4) 4E0C (ji1) 4E0D (bu4,bu2,fou3) 4E0E (yu3,yu4,yu2) 4E0F (mian3) 4E10 (gai4) 4E11 (chou3) 4E12 (chou3) 4E13 (zhuan1) 4E14 (qie3,ju1) ...
Unter ihnen, für diejenigen, die die Aussprache nicht haben oder nicht finden können, habe ich einheitlich als none0
markiert und festgestellt, dass es insgesamt 525 solcher chinesischen Schriftzeichen gibt.
Im Einklang mit dem Ziel, die Größe der Wörterbuchdatei so weit wie möglich zu reduzieren, habe ich festgestellt, dass mit Ausnahme des ersten 〇(3007) in der obigen Datei alles andere kontinuierlich ist, also habe ich es in geändert Die folgende Struktur wurde ebenfalls von 280kb
auf 117kb
reduziert:
var pinyin_dict_withtone = "yi1,ding1 zheng1,kao3,qi1,shang4 shang3,xia4,none0,wan4 mo4,zhang4,san1,shang4 shang3,xia4,ji1, bu4 bu2 fou3,yu3 yu4 yu2,mian3,gai4,chou3,chou3,zhuan1,qie3 ju1...";
Der Nachteil dieser Wörterbuchdatei besteht darin, dass die Töne mit Zahlen gekennzeichnet sind Pinyin wie xiǎo míng tóng xué
, wird ein Algorithmus benötigt, um Buchstaben an geeigneten Positionen in āáǎàōóǒòēéěèīíǐìūúǔùüǖǘǚǜńň
umzuwandeln.
本来还准备自己尝试写一个转换的方法的,后来又找到了如下字典文件(下面称为字典B),它收录了20867个汉字,也支持声调和多音字,但是声调是直接标在字母上方的,由于它将汉字也列举出来,所以文件体积比较大,有327kb
,大致内容如下:
{ "吖": "yā,ā", "阿": "ā,ē", "呵": "hē,a,kē", "嗄": "shà,á", "啊": "ā,á,ǎ,à,a", "腌": "ā,yān", "锕": "ā", "錒": "ā", "矮": "ǎi", "爱": "ài", "挨": "āi,ái", "哎": "āi", "碍": "ài", "癌": "ái", "艾": "ài", "唉": "āi,ài", "蔼": "ǎi" /* 省略其它 */ }
但是经过比对,发现有502个汉字是字典A中读音为none
但是字典B中有读音的,还有21个汉字是字典A中有但是B中没有的:
{ "兙": "shí kè", "兛": "qiān", "兝": "fēn", "兞": "máo", "兡": "bǎi kè", "兣": "lǐ", "唞": "dǒu", "嗧": "jiā lún", "囍": "xǐ", "堎": "lèng líng", "猤": "hú", "瓩": "qián wǎ", "礽": "réng", "膶": "rùn", "芿": "rèng", "蟘": "tè", "貣": "tè", "酿": "niàng niàn niáng", "醸": "niàng", "鋱": "tè", "铽": "tè" }
还有7个汉字是B中有但是A中没有的:
{ "㘄": "lēng", "䉄": "léng", "䬋": "léng", "䮚": "lèng", "䚏": "lèng,lì,lìn", "㭁": "réng", "䖆": "niàng" }
所以我在字典A的基础上将二者进行了合并,得到了最终的字典文件pinyin_dict_withtone.js,文件大小为122kb
:
var pinyin_dict_withtone = "yī,dīng zhēng,kǎo qiǎo yú,qī,shàng,xià,hǎn,wàn mò,zhàng,sān,shàng shǎng,xià,qí jī...";
我将这几种字典文件放在一起并简单封装了一下解析方法,使用中可以根据实际需要引入不同字典文件。
封装好的3个方法:
/** * 获取汉字的拼音首字母 * @param str 汉字字符串,如果遇到非汉字则原样返回 * @param polyphone 是否支持多音字,默认false,如果为true,会返回所有可能的组合数组 */ pinyinUtil.getFirstLetter(str, polyphone); /** * 根据汉字获取拼音,如果不是汉字直接返回原字符 * @param str 要转换的汉字 * @param splitter 分隔字符,默认用空格分隔 * @param withtone 返回结果是否包含声调,默认是 * @param polyphone 是否支持多音字,默认否 */ pinyinUtil.getPinyin(str, splitter, withtone, polyphone); /** * 拼音转汉字,只支持单个汉字,返回所有匹配的汉字组合 * @param pinyin 单个汉字的拼音,不能包含声调 */ pinyinUtil.getHanzi(pinyin);
下面分别针对不同场合如何使用作介绍。
<script type="text/javascript" src="pinyin_dict_firstletter.js"></script> <script type="text/javascript" src="pinyinUtil.js"></script> <script type="text/javascript"> pinyinUtil.getFirstLetter('小茗同学'); // 输出 XMTX pinyinUtil.getFirstLetter('大中国', true); // 输出 ['DZG', 'TZG'] </script>
需要特别说明的是,如果你引入的是其它2个字典文件,也同样可以获取拼音首字母的,只是说用这个字典文件更适合。
<script type="text/javascript" src="pinyin_dict_noletter.js"></script> <script type="text/javascript" src="pinyinUtil.js"></script> <script type="text/javascript"> pinyinUtil.getPinyin('小茗同学'); // 输出 'xiao ming tong xue' pinyinUtil.getHanzi('ming'); // 输出 '明名命鸣铭冥茗溟酩瞑螟暝' </script>
<script type="text/javascript" src="pinyin_dict_withletter.js"></script> <script type="text/javascript" src="pinyinUtil.js"></script> <script type="text/javascript"> pinyinUtil.getPinyin('小茗同学'); // 输出 'xiǎo míng tóng xué' pinyinUtil.getPinyin('小茗同学', '-', true, true); // 输出 ['xiǎo-míng-tóng-xué', 'xiǎo-míng-tòng-xué'] </script>
一个正式的输入法需要考虑的东西太多太多,比如词库、用户个人输入习惯等,这里只是实现一个最简单的输入法,没有任何词库(虽然加上也可以,但是web环境不适合引入太大的文件)。
推荐使用第二个字典文件pinyin_dict_noletter.js
,虽然字典三字数更多,但是不能按照汉字使用频率排序,一些生僻字反而在前面。
<link rel="stylesheet" type="text/css" href="simple-input-method/simple-input-method.css"> <input type="text" class="test-input-method"/> <script type="text/javascript" src="pinyin_dict_noletter.js"></script> <script type="text/javascript" src="pinyinUtil.js"></script> <script type="text/javascript" src="simple-input-method/simple-input-method.js"></script> <script type="text/javascript"> SimpleInputMethod.init('.test-input-method'); </script>
由于本工具类的目标环境是web,而web注定了文件体积不能太大,所以不能引入太大的词库文件,由于没有词库的支持,所以多音字无法识别,实现的拼音输入法也无法智能地匹配出合适的词语,需要词库支持的可以参考这个nodejs环境下的项目:http://www.php.cn/
以上就是JavaScript 汉字与拼音互转终极方案 附JS拼音输入法的详细介绍的内容,更多相关内容请关注PHP中文网(www.php.cn)!