ホームページ  >  記事  >  バックエンド開発  >  UTF-16に関する問題と解決策

UTF-16に関する問題と解決策

零下一度
零下一度オリジナル
2017-06-12 13:08:313223ブラウズ

Google のサイトマップ サービスでは、公開されるすべてのサイトマップが Unicode の UTF-8 でエンコードされている必要があります。 Google では、ISO-8859-1 などの非 Unicode エンコードはもちろん、UTF-16 などの他の Unicode エンコードさえも許可していません。 XML 勧告では特に「すべての XML ハンドラーは Unicode 3.1 の UTF-8 および UTF-16 エンコーディングを受け入れる必要がある」と規定されているため、技術的には、これは Google が非標準の XML パーサーを使用していることを意味しますが、これは本当に大きなことでしょうか? UTF-8 は誰でも利用できることが、UTF-8 を選択する第一の、そして最も説得力のある理由です。現在世界中で使用されているあらゆるスクリプトを処理できます。まだいくつかのギャップはありますが、それらはますます目立たなくなり、徐々に埋められています。含まれていないリテラルは通常、他の文字セットでは実装されておらず、たとえ実装されていたとしても XML では使用できません。最良の場合、これらのスクリプトはフォント借用を通じて Latin-1 などのシングルバイト文字セットに渡されます。このようなまれなテキストの実際のサポートは、Unico

1 から最初に提供される可能性がありますUTF-8 による XML ドキュメントのエンコードの詳細な紹介

UTF-16に関する問題と解決策

はじめに: Google のサイトマップ サービスでは、公開されているすべてのサイトマップを次の形式でエンコードする必要があります。 Unicode の UTF-8。 Google では、ISO-8859-1 などの非 Unicode エンコードはもちろん、UTF-16 などの他の Unicode エンコードさえも許可していません。 XML 勧告では特に「すべての XML ハンドラーは Unicode 3.1 の UTF-8 および UTF-16 エンコーディングを受け入れる必要がある」と規定されているため、技術的には、これは Google が非標準の XML パーサーを使用していることを意味しますが、これは本当に大きなことでしょうか?

2. Java のコードポイントと UTF-16 に関する詳細な紹介

UTF-16に関する問題と解決策

はじめに: Unicode と UTF-8/UTF-16/UTF-32 Unicode の関係と UTF -8/UTF-16/UTF-32 の関係は文字セットとエンコーディングです。文字セットの概念には、実際には 2 つの側面が含まれています。1 つは文字のセットであり、もう 1 つはエンコード スキームです。キャラクタ セットは、それに含まれるすべてのシンボルを定義します。狭義のキャラクタ セットには、このキャラクタ セットに属するすべてのシンボルが定義されるだけです。しかし、一般的に言えば、文字セットは文字のコレクションを定義するだけでなく、各シンボルのバイナリ エンコーディングも定義します。 GB2312 または ASCII について言及する場合、それは...

3. java 8 Update 20 の新機能 - 文字列の重複排除

UTF-16に関する問題と解決策

はじめに: アプリケーション内の文字列は大量のメモリを消費します。 。特に、個々の UTF-16 文字を含む char[] 配列は、各文字が 2 ビットを占めるため、JVM メモリ消費に最も大きく影響します。 実際には、メモリの 30% が文字列によって消費されるのは非常に一般的です。いいえ

4. php ページでは、ヘッダーを導入するために include が使用されます。php は、ヘッダーの上に空白行が表示されます。php include include html include の使用法

はじめに: include 、 header:php ページは headerphp を導入するために include を使用しており、ヘッダーの上に空白行があります: この問題は長い間私を悩ませてきましたが、重要なのはここにあるということです。コードのエンコードに問題がある。私のページの header.php で使用されているエンコード形式は BOM ありの UTF-8 です。ヘッダーの空白行が消えるように、BOM ありのコードを BOM なしに変更します。 UTF-8 BOM は UTF-8 署名とも呼ばれます。実際、UTF-8 BOM は UTF-16 と UTF-32 をサポートするために追加されます。

5. 霊芝胞子粉の効果、機能、および消費方法 (続き)

はじめに: 霊芝胞子粉の効能と働きと飲み方: 霊芝胞子粉の効能と役割と飲み方 Web ページを任意の文字セットで正常に表示する方法 2 (続き): に転送:coolcode.cn これは数日前に書きました。Web ページを任意の文字セットで正常に表示する方法に関する記事です。導入は非常に簡単です。つまり、最初の 128 文字以外の文字セットは NCR で表されます。当時は簡単すぎると思ったので、具体的な変換方法は紹介しませんでした。しかし、後でこの質問をしている人がいたので、ここで詳しく説明します。最初のステップは、ソース文字セットの文字列を UTF-16 文字セットに変換することです。このステップは、UTF-16 文字セットの各文字が 2 バイトであり、後の処理が簡単であるためです。 6. PHP は BOM ヘッダー コードを削除します

はじめに: PHP は BOM ヘッダー コードを削除します UTF-8 BOM は UTF-8 署名とも呼ばれます。実際、UTF-8 BOM は UTF-16 と UTF-32 をサポートするために追加されます。現在のファイルを識別しやすくするためにどのエンコーディングが使用されていますか? ただし、BOM はエディターに表示されませんが、追加の空白行と同様に出力が生成されます。 PHP ファイルを変更した後にこの問題が発生する場合は、次のようにします。 * ログインまたはログアウトできません。 * ページの先頭に空行が表示されます。 * ページトップへ

7. php で XML ノード データを取得するという小さな問題を解決するのを手伝ってください

はじめに: XML ノード データを取得するという小さな問題を解決するのを手伝ってください。 php が得意すぎるので、=express,=530000 のときの値を取得したいのですが、以下のようなコードを書いていただけますか? :

8 編集 $msg=“中国” このメッセージを別のアプリケーションに送信して受信したいのですが、アプリケーションが正常に表示できるようにメッセージを utf-16 でエンコードされたワイドバイトに変換するにはどうすればよいですか? 今直接送ってみたら半角だった。                                   -----

9. phpでutf16beエンコーディングをutf8に変換することは可能ですか

はじめに: phpでutf16beエンコーディングをutf8に変換することは可能ですか? utf16beのデータをutf8のデータに変換する必要があります(utf-8の中国語を直接gbkに変換するのが正常ですが、文字が正常ではありません)。ネットで調べたのですが見つかりませんでした。 ------解決策-----------$text = iconv('utf-16be', 'utf-8', $t

【関連Q&Aの推奨事項】:

java - UTF-16エンコーディングの問題

c++ プログラミングのascllバージョンまたはunicodeバージョンの問題、どのエンコーディングがunicodeバージョンであるか

コードポイントに関するcharとstringの質問についてコードユニット

以上がUTF-16に関する問題と解決策の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。