Heim  >  Artikel  >  Backend-Entwicklung  >  Inhalte im Zusammenhang mit der PHP-Zeichenkodierungskonvertierungsklasse

Inhalte im Zusammenhang mit der PHP-Zeichenkodierungskonvertierungsklasse

jacklove
jackloveOriginal
2018-06-09 11:10:332250Durchsuche

PHP-Zeichenkodierungskonvertierungsklasse, unterstützt ANSI, Unicode, Unicode Big Endian, UTF-8, UTF-8+Bom und gegenseitige Konvertierung.

Vier gängige Methoden zur Kodierung von Textdateien

ANSI-Kodierung :

Kein Dateiheader (Flag-Byte am Anfang der Dateikodierung)

Die alphanumerische ANSI-Kodierung belegt ein Byte, chinesische Zeichen zwei Bytes

Wagenrücklauf- und Zeilenvorschubzeichen, Einzelbyte, hexadezimale Darstellung ist 0d 0a

UNICODE-Kodierung:

Dateikopf, hexadezimale Darstellung ist FF FE

Jedes Zeichen ist mit zwei Bytes codiert

Wagenrücklauf und Zeile Feed-Zeichen, Doppelbyte, hexadezimale Darstellung ist 000d 000a

Unicode-Big-Endian-Kodierung:

Die hexadezimale Darstellung von Der Dateiheader ist FE FF

Bei der folgenden Kodierung wird das hohe Bit des Zeichens vorne und das niedrige Bit hinten platziert, was genau dem umgekehrten Unicode-Kodieren entspricht

Wagenrücklauf und Zeilenvorschub, Doppelbytes, hexadezimale Darstellung ist 0d00 0a00

UTF-8-Kodierung:

Dateikopf, hexadezimale Darstellung ist EF BB BF

UTF-8 ist eine variable Länge der Unicode-Zeichenkodierung, Zahlen, Buchstaben, Wagenrücklauf und Zeile Feed werden alle durch ein Byte dargestellt, chinesische Zeichen belegen 3 Bytes

Wagenrücklauf und Zeilenvorschub, Einzelbyte, hexadezimale Darstellung Für 0d 0a

Konvertierungsprinzip: Konvertieren Sie zuerst die Zeichenkodierung in UTF-8 und dann von UTF-8 in die entsprechende Zeichenkodierung.

CharsetConv.class.php

<?php
/** 字符编码转换类, ANSI、Unicode、Unicode big endian、UTF-8、UTF-8+Bom互相转换
*   Date:   2015-01-28
*   Author: fdipzone
*   Ver:    1.0
*
*   Func:
*   public  convert       转换
*   private convToUtf8    把编码转为UTF-8编码
*   private convFromUtf8  把UTF-8编码转换为输出编码
*/
class CharsetConv{ // class start
    private $_in_charset = null;   // 源编码
    private $_out_charset = null;  // 输出编码
    private $_allow_charset = array(&#39;utf-8&#39;, &#39;utf-8bom&#39;, &#39;ansi&#39;, &#39;unicode&#39;, &#39;unicodebe&#39;);
    /** 初始化
    * @param String $in_charset  源编码
    * @param String $out_charset 输出编码
    */
    public function __construct($in_charset, $out_charset){
        $in_charset = strtolower($in_charset);
        $out_charset = strtolower($out_charset);
        // 检查源编码
        if(in_array($in_charset, $this->_allow_charset)){
            $this->_in_charset = $in_charset;
        }
        // 检查输出编码
        if(in_array($out_charset, $this->_allow_charset)){
            $this->_out_charset = $out_charset;
        }
    }
    /** 转换
    * @param  String $str 要转换的字符串
    * @return String      转换后的字符串
    */
    public function convert($str){
        $str = $this->convToUtf8($str);   // 先转为utf8
        $str = $this->convFromUtf8($str); // 从utf8转为对应的编码
        return $str;
    }
    /** 把编码转为UTF-8编码
    * @param  String $str 
    * @return String
    */
    private function convToUtf8($str){
        if($this->_in_charset==&#39;utf-8&#39;){ // 编码已经是utf-8,不用转
            return $str;
        }
        switch($this->_in_charset){
            case &#39;utf-8bom&#39;:
                $str = substr($str, 3);
                break;
            case &#39;ansi&#39;:
                $str = iconv(&#39;GBK&#39;, &#39;UTF-8//IGNORE&#39;, $str);
                break;
            case &#39;unicode&#39;:
                $str = iconv(&#39;UTF-16le&#39;, &#39;UTF-8//IGNORE&#39;, substr($str, 2));
                break;
            case &#39;unicodebe&#39;:
                $str = iconv(&#39;UTF-16be&#39;, &#39;UTF-8//IGNORE&#39;, substr($str, 2));
                break;
            default:
                break;
        }
        return $str;
    }
    /** 把UTF-8编码转换为输出编码
    * @param  String $str
    * @return String
    */
    private function convFromUtf8($str){
        if($this->_out_charset==&#39;utf-8&#39;){ // 输出编码已经是utf-8,不用转
            return $str;
        }
        switch($this->_out_charset){
            case &#39;utf-8bom&#39;:
                $str = "\xef\xbb\xbf".$str;
                break;
            case &#39;ansi&#39;:
                $str = iconv(&#39;UTF-8&#39;, &#39;GBK//IGNORE&#39;, $str);
                break;
            case &#39;unicode&#39;:
                $str = "\xff\xfe".iconv(&#39;UTF-8&#39;, &#39;UTF-16le//IGNORE&#39;, $str);
                break;
            case &#39;unicodebe&#39;:
                $str = "\xfe\xff".iconv(&#39;UTF-8&#39;, &#39;UTF-16be//IGNORE&#39;, $str);
                break;
            default:
                break;
        }
        return $str;
    }
} // class end
?>

Demo: Unicode Big Endian zu UTF-8+Bom

afe612444d886363ae90ca7ae28be542convert($str);
file_put_contents('response/utf-8bom.txt', $response, true);
?>

PHP-Zeichenkodierungskonvertierungsklasse, unterstützt ANSI, Unicode, Unicode Big Endian, UTF-8, UTF-8+Bom und gegenseitige Konvertierung für Weitere verwandte Inhalte finden Sie auf der chinesischen PHP-Website.

Verwandte Empfehlungen:

Erklärung der Ersetzungsmethode php str_replace für bestimmte Zeiten

Über die Verwendung von Header, headers_sent, headers_list, header_remove Beschreibung

Die Lösung, um den Ganzzahltyp des von MySQL über PDO zurückgegebenen Felds in den String-Typ zu ändern

Das obige ist der detaillierte Inhalt vonInhalte im Zusammenhang mit der PHP-Zeichenkodierungskonvertierungsklasse. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn