用fabpot/goutte(https://github.com/FriendsOfPHP/Goutte)抓取網頁的時候,發現無論目標頁是什麼編碼(gb2312...),最後得到的都是unicode。
研究下發現是Symfony的crawler呼叫了html-entities編碼。
mb_convert_encoding($content, 'HTML-ENTITIES', $charset);
引用
A numeric character reference in HTML refers to a character by its Universal Character Set/Unicode code point
以上就介紹了HTML-ENTITIES編碼,包括了方面的內容,希望對PHP教程有興趣的朋友有所幫助。