ホームページ >バックエンド開発 >PHPチュートリアル >paip - 文字が中国語であるかどうか、および漢字であるかどうかを判断します。
paip. 文字が中国語であるかどうか、および漢字であるかどうかを判断します uapi python java php
##中国語を判断する原則
注: 中国語と中国語の文字 CJKV の違い。 。日本、韓国、シンガポール、古代ベトナムなどでも漢字は使用されていますが、中国語は使用されていません。 。英語とフランス語が両方ともラテン文字を使用するのと同じように、ラテン語は英語と同じではありません。 。
漢字 Unicode 区間 4E00(19968)? 9FBF(40895)、表意文字区間には複数の国の漢字が含まれていますが、これは必要なものではありません。 。
GB
中国語の漢字は簡体字と繁体字に分けられ、一般的に使用される 3500 文字があります。ただし、同じ繁体字でも、香港、マカオ、台湾や海外で使用される漢字とは異なります。 。どちらも簡体字ですが、中国本土、マレーシア、シンガポールなど海外で使われているものとは若干の違いがあります。 。
通常、中国本土で一般的に使用される簡体字中国語文字は 3500 文字だけ必要です (gb2312)。 。
2312 標準には、第 1 レベルの漢字 3755 文字と第 2 レベルの漢字 3008 文字を含む、合計 6763 文字が含まれています。また、ラテン文字、ギリシャ文字、日本語のひらがなおよびカタカナ文字、ロシア語のキリル文字を含む 682 文字も含まれています。
Unicode エンコードでは、一般的に使用される 3500 文字がすべて連続しているわけではありません。この間隔は、通常の規則を使用して書き込むことはできません。
この 3500 字の漢字マッピングを読み込んで、入力テキストとの一致判定を行うには、map を使用するしかありません。
著者 Laowa's Claw Attilax Ai Long、EMAIL:1466519819@qq.com
出典: http://blog.csdn.net/attilax
##漢字を判断する原則
中国語を判断するよりも便利です漢字を判断しすぎます。
漢字 Unicode 間隔 4E00 (19968)? 9FBF (40895)、多くの国の漢字を含む表意文字間隔
漢字の ACI/Unicode コードを取得します
サイズを判断してください
## uapi
中国語の文字の Unicode エンコードを取得します... unicode()
中国語 (すべての国と地域) を判定 isChinesChar()
中国語 (大陸) の漢字を判定 isChina ChineseChar()
日本語の漢字を判定 isJapan ChineseChar()
韓国語を判定漢字 isKorea ChineseChar()
## java
char word1 = 'Y';
(int) word
##php PHP ord() function
##python
def isChinesChar(char):
""" "
漢字 Unicode 間隔 4E00 (19968) ? 9FBF(40895)
'(' ylei の yanen fenkail を括弧で囲み、bs chchar..
true を返す
:
falseを返す