ホームページ  >  記事  >  バックエンド開発  >  PHP文字エンコード変換クラス、ANSI、Unicode、Unicodeビッグエンディアン、UTF-8、UTF-8+Bom相互変換をサポート

PHP文字エンコード変換クラス、ANSI、Unicode、Unicodeビッグエンディアン、UTF-8、UTF-8+Bom相互変換をサポート

WBOY
WBOYオリジナル
2016-08-08 09:30:181843ブラウズ

phpの文字エンコーディング変換クラス。はANSI、Unicode、Unicodeビッグエンディアン、UTF-8、UTF-8+Bomなどの変換をサポートしています。 methododing methodingsoding anusiエンコード:


ファイルヘッダー(ファイルエンコードの開始時の署名バイト) 2 バイトを占有します


復帰と改行、シングルバイト、16 進表現は 0d 0a


UNICODE エンコード:


ファイルヘッダー、16 進表現は FF FE


各キャラクター2つのバイトcarriageのリターンとラインフィードの文字、ダブルバイト、16進表現が000d 000d 000 000A 〜unicodeビッグエンディアンエンコード:


ファイルヘッダーの16進表現はFe ffです


次のエンコーディングは、文字の高位ビットを前に、低位ビットを後ろに配置します。これは、Unicode エンコーディングとはまったく逆です


キャリッジリターンとラインフィード文字、ダブルバイト、16 進表現は 0d00 0a00


UTF-8 エンコーディング:


ファイルヘッダー、16 進表現は EF BB BF


UTF-8 は Unicode の可変長文字エンコーディングです。 、キャリッジリターン、ラインフィードはすべて1バイトで表されます

キャリッジリターンとラインフィード、シングルバイト、16進数表現は0d 0aです

変換原則:最初に文字を変換しますエンコードを UTF-8 に変換し、UTF-8 から対応する文字エンコードに変換します。

CharsetConv.class.php

<?php
/** 字符编码转换类, ANSI、Unicode、Unicode big endian、UTF-8、UTF-8+Bom互相转换
*   Date:   2015-01-28
*   Author: fdipzone
*   Ver:    1.0
*
*   Func:
*   public  convert       转换
*   private convToUtf8    把编码转为UTF-8编码
*   private convFromUtf8  把UTF-8编码转换为输出编码
*/

class CharsetConv{ // class start

    private $_in_charset = null;   // 源编码
    private $_out_charset = null;  // 输出编码
    private $_allow_charset = array(&#39;utf-8&#39;, &#39;utf-8bom&#39;, &#39;ansi&#39;, &#39;unicode&#39;, &#39;unicodebe&#39;);


    /** 初始化
    * @param String $in_charset  源编码
    * @param String $out_charset 输出编码
    */
    public function __construct($in_charset, $out_charset){

        $in_charset = strtolower($in_charset);
        $out_charset = strtolower($out_charset);

        // 检查源编码
        if(in_array($in_charset, $this->_allow_charset)){
            $this->_in_charset = $in_charset;
        }

        // 检查输出编码
        if(in_array($out_charset, $this->_allow_charset)){
            $this->_out_charset = $out_charset;
        }

    }


    /** 转换
    * @param  String $str 要转换的字符串
    * @return String      转换后的字符串
    */
    public function convert($str){

        $str = $this->convToUtf8($str);   // 先转为utf8
        $str = $this->convFromUtf8($str); // 从utf8转为对应的编码

        return $str;
    }


    /** 把编码转为UTF-8编码
    * @param  String $str 
    * @return String
    */
    private function convToUtf8($str){

        if($this->_in_charset=='utf-8'){ // 编码已经是utf-8,不用转
            return $str;
        }

        switch($this->_in_charset){
            case 'utf-8bom':
                $str = substr($str, 3);
                break;

            case 'ansi':
                $str = iconv('GBK', 'UTF-8//IGNORE', $str);
                break;

            case 'unicode':
                $str = iconv('UTF-16le', 'UTF-8//IGNORE', substr($str, 2));
                break;

            case 'unicodebe':
                $str = iconv('UTF-16be', 'UTF-8//IGNORE', substr($str, 2));
                break;

            default:
                break;
        }

        return $str;

    }


    /** 把UTF-8编码转换为输出编码
    * @param  String $str
    * @return String
    */
    private function convFromUtf8($str){

        if($this->_out_charset=='utf-8'){ // 输出编码已经是utf-8,不用转
            return $str;
        }

        switch($this->_out_charset){
            case 'utf-8bom':
                $str = "\xef\xbb\xbf".$str;
                break;

            case 'ansi':
                $str = iconv('UTF-8', 'GBK//IGNORE', $str);
                break;

            case 'unicode':
                $str = "\xff\xfe".iconv('UTF-8', 'UTF-16le//IGNORE', $str);
                break;

            case 'unicodebe':
                $str = "\xfe\xff".iconv('UTF-8', 'UTF-16be//IGNORE', $str);
                break;

            default:
                break;
        }

        return $str;

    }


} // class end

?>

デモ:
unicodeビッグエンディアンをutf-8+bomに変換

<?php
require "CharsetConv.class.php";

$str = file_get_contents(&#39;source/unicodebe.txt&#39;);

$obj = new CharsetConv(&#39;unicodebe&#39;, &#39;utf-8bom&#39;);
$response = $obj->convert($str);

file_put_contents('response/utf-8bom.txt', $response, true);
?>

ソースコードのダウンロードアドレス: クリックして表示

上記では、ANSI、Unicode、Unicode ビッグ エンディアン、UTF-8、UTF-8+Bom などの変換をサポートする PHP 文字エンコーディング変換クラスを紹介しました。PHP チュートリアルに興味のある友人に役立つことを願っています。 。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
前の記事:php形式の金額次の記事:php形式の金額