fabpot/goutte(https://github.com/FriendsOfPHP/Goutte)를 사용하여 웹페이지를 크롤링할 때 대상 페이지의 인코딩(gb2312...)에 관계없이 최종 결과는 유니코드라는 것을 발견했습니다.
조사 결과 Symfony의 크롤러가 html-entities 인코딩을 호출하는 것으로 나타났습니다.
mb_convert_encoding($content, 'HTML-ENTITIES', $charset);
참조
HTML의 숫자 참조는 범용 문자 세트/유니코드 코드 포인트로 문자를 참조합니다
위 내용은 HTML-ENTITIES 코딩의 측면을 포함하여 소개되었으며, PHP 튜토리얼에 관심이 있는 친구들에게 도움이 되기를 바랍니다.