首页 >后端开发 >php教程 >为什么我的 PHP DOMDocument::loadHTML() 无法正确处理 UTF-8?

为什么我的 PHP DOMDocument::loadHTML() 无法正确处理 UTF-8?

Barbara Streisand
Barbara Streisand原创
2024-12-25 12:12:14932浏览

Why is my PHP DOMDocument::loadHTML() not handling UTF-8 correctly?

PHP DOMDocument loadHTML 未正确编码 UTF-8

问题:

解析 HTML 时使用 PHP 的 DOMDocument::loadHTML(), UTF-8 字符无法正确解释,导致输出失真。

原因:

DOMDocument 默认情况下假定输入字符串采用 ISO-8859-1 编码。然而,HTML5 中普遍使用 UTF-8。当加载 UTF-8 字符串而不指定编码时,DOMDocument 会误解它们。

解决方案:

要解决此问题,您需要为输入指定正确的编码细绳。您有多种选择:

  • 前置 XML 编码声明: 添加 声明到字符串的开头。
  • 使用元字符集声明: 添加 标记到
  • 使用 SmartDOMDocument 库: 该库通过在将字符串加载到 DOMDocument 之前将字符串转换为 HTML 实体来解决此问题。
  • 使用 mb_encode_numericentity() 函数: 该函数将 UTF-8 字符转换为其等效的 HTML 实体,然后可以正确解析哪个 DOMDocument。

示例:

此代码演示如何使用 mb_encode_numericentity() 函数:

$profile = '<p>イリノイ州シカゴにて、アイルランド系の家庭に</p>';
$dom = new DOMDocument();
$dom->loadHTML(mb_encode_numericentity($profile, [0x80, 0x10FFFF, 0, ~0], 'UTF-8'));
echo $dom->saveHTML();

通过使用这些技术,您可以确保在 PHP 中正确解析并显示 UTF-8 字符DOM文档。

以上是为什么我的 PHP DOMDocument::loadHTML() 无法正确处理 UTF-8?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn