Heim >Backend-Entwicklung >PHP-Tutorial >PHP-Zeichenkodierungskonvertierungsklasse, unterstützt die Konvertierung von ANSI, Unicode, Unicode Big Endian, UTF-8 und UTF-8 BOM ineinander

PHP-Zeichenkodierungskonvertierungsklasse, unterstützt die Konvertierung von ANSI, Unicode, Unicode Big Endian, UTF-8 und UTF-8 BOM ineinander

WBOY
WBOYOriginal
2016-08-08 09:30:181922Durchsuche

PHP-Zeichenkodierungskonvertierungsklasse, unterstützt ANSI, Unicode, Unicode Big Endian, UTF-8, UTF-8+Bom und gegenseitige Konvertierung.

Vier gängige Methoden zur Kodierung von Textdateien

ANSI-Kodierung:

Kein Datei-Header (das ikonische Byte am Anfang der Dateikodierung)

ANSI-kodierte alphanumerische Zeichen belegen ein Byte und chinesische Schriftzeichen zwei Bytes

Wagenrücklauf- und Zeilenvorschubzeichen, Einzelbyte, hexadezimale Darstellung ist 0d 0a

UNICODE-Kodierung:

Dateikopf, hexadezimale Darstellung ist FF FE

Jedes Zeichen ist mit zwei Bytes codiert

Wagenrücklauf- und Zeilenvorschubzeichen, Doppelbyte, hexadezimale Darstellung ist 000d 000a

Unicode-Big-Endian-Kodierung:

Die hexadezimale Darstellung des Dateiheaders ist FE FF

Die folgende Codierung setzt das hohe Bit des Zeichens vorne und das niedrige Bit hinten umgekehrt mit der Unicode-Kodierung

Wagenrücklauf- und Zeilenvorschubzeichen, Doppelbytes, hexadezimale Darstellung ist 0d00 0a00

UTF-8-Kodierung:

Dateikopf, hexadezimale Darstellung ist EF BB BF

UTF-8 ist eine Variable -Zeichenkodierung von Unicode. Zahlen, Buchstaben, Wagenrücklauf und Zeilenvorschub werden alle durch ein Byte dargestellt

Wagenrücklauf und Zeilenvorschub. Einzelbyte, hexadezimale Darstellung ist 0d 0a

Konvertierungsprinzip: Konvertieren Sie zuerst die Zeichenkodierung in UTF-8 und dann von UTF-8 in die entsprechende Zeichenkodierung.

CharsetConv.class.php

<?php
/** 字符编码转换类, ANSI、Unicode、Unicode big endian、UTF-8、UTF-8+Bom互相转换
*   Date:   2015-01-28
*   Author: fdipzone
*   Ver:    1.0
*
*   Func:
*   public  convert       转换
*   private convToUtf8    把编码转为UTF-8编码
*   private convFromUtf8  把UTF-8编码转换为输出编码
*/

class CharsetConv{ // class start

    private $_in_charset = null;   // 源编码
    private $_out_charset = null;  // 输出编码
    private $_allow_charset = array(&#39;utf-8&#39;, &#39;utf-8bom&#39;, &#39;ansi&#39;, &#39;unicode&#39;, &#39;unicodebe&#39;);


    /** 初始化
    * @param String $in_charset  源编码
    * @param String $out_charset 输出编码
    */
    public function __construct($in_charset, $out_charset){

        $in_charset = strtolower($in_charset);
        $out_charset = strtolower($out_charset);

        // 检查源编码
        if(in_array($in_charset, $this->_allow_charset)){
            $this->_in_charset = $in_charset;
        }

        // 检查输出编码
        if(in_array($out_charset, $this->_allow_charset)){
            $this->_out_charset = $out_charset;
        }

    }


    /** 转换
    * @param  String $str 要转换的字符串
    * @return String      转换后的字符串
    */
    public function convert($str){

        $str = $this->convToUtf8($str);   // 先转为utf8
        $str = $this->convFromUtf8($str); // 从utf8转为对应的编码

        return $str;
    }


    /** 把编码转为UTF-8编码
    * @param  String $str 
    * @return String
    */
    private function convToUtf8($str){

        if($this->_in_charset=='utf-8'){ // 编码已经是utf-8,不用转
            return $str;
        }

        switch($this->_in_charset){
            case 'utf-8bom':
                $str = substr($str, 3);
                break;

            case 'ansi':
                $str = iconv('GBK', 'UTF-8//IGNORE', $str);
                break;

            case 'unicode':
                $str = iconv('UTF-16le', 'UTF-8//IGNORE', substr($str, 2));
                break;

            case 'unicodebe':
                $str = iconv('UTF-16be', 'UTF-8//IGNORE', substr($str, 2));
                break;

            default:
                break;
        }

        return $str;

    }


    /** 把UTF-8编码转换为输出编码
    * @param  String $str
    * @return String
    */
    private function convFromUtf8($str){

        if($this->_out_charset=='utf-8'){ // 输出编码已经是utf-8,不用转
            return $str;
        }

        switch($this->_out_charset){
            case 'utf-8bom':
                $str = "\xef\xbb\xbf".$str;
                break;

            case 'ansi':
                $str = iconv('UTF-8', 'GBK//IGNORE', $str);
                break;

            case 'unicode':
                $str = "\xff\xfe".iconv('UTF-8', 'UTF-16le//IGNORE', $str);
                break;

            case 'unicodebe':
                $str = "\xfe\xff".iconv('UTF-8', 'UTF-16be//IGNORE', $str);
                break;

            default:
                break;
        }

        return $str;

    }


} // class end

?>

Demo: Unicode Big Endian zu UTF-8 +bom

<?php
require "CharsetConv.class.php";

$str = file_get_contents(&#39;source/unicodebe.txt&#39;);

$obj = new CharsetConv(&#39;unicodebe&#39;, &#39;utf-8bom&#39;);
$response = $obj->convert($str);

file_put_contents('response/utf-8bom.txt', $response, true);
?>

Quellcode-Download-Adresse: Zum Anzeigen klicken

Das Obige stellt die PHP-Zeichenkodierungskonvertierungsklasse vor, die die gegenseitige Konvertierung von ANSI, Unicode, Unicode Big Endian, UTF-8 und UTF-8 Bom unterstützt, einschließlich relevanter Inhalte. Ich hoffe, dass es für Freunde hilfreich ist, die an PHP-Tutorials interessiert sind .

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Vorheriger Artikel:Menge im PHP-FormatNächster Artikel:Menge im PHP-Format