检测与删除页面BOM(UTF-8)空行方法_PHP教程-php教程-PHP中文网

首页

后端开发

php教程

检测与删除页面BOM(UTF-8)空行方法_PHP教程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 13, 2016 am 10:49 AM

bomutf-8与删除发现在我们方法检测空白空行页面

我们经常会在发现页面中无故多了一些空白行了，但在编辑器中又看到到，这个我们知道是由BOM(UTF-8)导致的，下面小编来给大家分享几种关于BOM(UTF-8)检测与删除方法。

下图是出现前面说的情况后用firebug看到的HTML代码。

图1

里面莫名其妙多出了一个空白行，而我们看源代码里面却没有。

我最常用的办法，利用php替换

BOM: 万国码档案签名 BOM (Byte Order Mark, U+FEFF)

BOM 的内容可以表示 UNICODE 是哪种编码, 但是在接收到的档案, 要拆解后写入 DB, 看到 BOM 就觉得有点 ooxx.

在 utf8_encode 看到两段程式可以来测试写入/移除 BOM.

将写入的档案内容前加 BOM

代码如下	复制代码
function writeUTF8File($filename,$content) { $f = fopen($filename, 'w'); fwrite($f, pack("CCC", 0xef,0xbb,0xbf)); fwrite($f,$content); fclose($f); } ?>

移除 BOM function

代码如下	复制代码
function removeBOM($str = '') { if (substr($str, 0,3) == pack("CCC",0xef,0xbb,0xbf)) { $str = substr($str, 3); } return $str; } ?>

由此上述 BOM = pack("CCC",0xef,0xbb,0xbf), 所以移除 BOM 的写法可用上面的 removeBOM function 或下述其一:

■str_replace("锘�", '', $bom_content);
■preg_replace("/^锘�/", '', $bom_content);
另外看到判断此字串是不是 UTF-8 的 function:

代码如下	复制代码
function isUTF8($string) { return (utf8_encode(utf8_decode($string)) == $string); }

linux系统中使用shell来解决

在详细讨论UTF-8编码中BOM的检测与删除问题前，不妨先通过一个例子热热身：

代码如下	复制代码
shell> curl -s http://www.bKjia.c0m/ \| head -1 \| sed -n l 锘�br /> //EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> $

如上所示，前三个字节分别是357、273、277，这就是八进制的BOM。

代码如下

复制代码

如上所示，前三个字节分别是EF、BB、BF，这就是十六进制的BOM。注：用到了第三方网站的页面，不能保证例子始终可用。实际做项目开发时，可能会面对成百上千个文本文件，如果有几个文件混入了BOM，那么很难察觉，如果没有带BOM的UTF-8文本文件，可以用vi杜撰几个，相关命令如下：

设置UTF-8编码：

代码如下	复制代码
:set fileencoding=utf-8

添加BOM：

代码如下	复制代码
:set bomb

删除BOM：

代码如下	复制代码
:set nobomb

查询BOM：

代码如下	复制代码
:set bomb?

如何检测UTF-8编码中的BOM呢？

代码如下

复制代码

shell> grep -r -I -l $'^锘�' /path如何删除UTF-8编码中的BOM呢？

shell> grep -r -I -l $'^锘�' /path | xargs sed -i 's/^锘�//;q'

推荐：如果你使用SVN的话，可以在pre-commit钩子里加上相关代码用以杜绝BOM。

代码如下

复制代码

#!/bin/bash

REPOS="$1"
TXN="$2"

SVNLOOK=/usr/bin/svnlook

for FILE in $($SVNLOOK changed -t "$TXN" "$REPOS" | awk '/^[AU]/ {print $NF}'); do
    if $SVNLOOK cat -t "$TXN" "$REPOS" "$FILE" | grep -q $'^锘�'; then
        echo "Byte Order Mark be found in $FILE" 1>&2
        exit 1
    fi
done

本文用到了很多shell命令

方法三，利用ultraedit编辑器直接修改文档

把出现空行的文档另存没没有BOM的格式就行了。

下图是ultraedit保存文档时的编码格式：

图2

选择里面的UTF8-无BOM，一切解决

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

您如何防止与会议有关的跨站点脚本（XSS）攻击？Apr 23, 2025 am 12:16 AM

要保护应用免受与会话相关的XSS攻击，需采取以下措施：1.设置HttpOnly和Secure标志保护会话cookie。2.对所有用户输入进行输出编码。3.实施内容安全策略(CSP)限制脚本来源。通过这些策略，可以有效防护会话相关的XSS攻击，确保用户数据安全。

您如何优化PHP会话性能？Apr 23, 2025 am 12:13 AM

优化PHP会话性能的方法包括：1.延迟会话启动，2.使用数据库存储会话，3.压缩会话数据，4.管理会话生命周期，5.实现会话共享。这些策略能显着提升应用在高并发环境下的效率。

什么是session.gc_maxlifetime配置设置？Apr 23, 2025 am 12:10 AM

thesession.gc_maxlifetimesettinginphpdeterminesthelifespanofsessiondata，setInSeconds.1）它'sconfiguredinphp.iniorviaini_set（）.2）abalanceIsiseededeedeedeedeedeedeedto to to avoidperformance andununununununexpectedLogOgouts.3）

您如何在PHP中配置会话名？Apr 23, 2025 am 12:08 AM

在PHP中，可以使用session_name()函数配置会话名称。具体步骤如下：1.使用session_name()函数设置会话名称，例如session_name("my_session")。2.在设置会话名称后，调用session_start()启动会话。配置会话名称可以避免多应用间的会话数据冲突，并增强安全性，但需注意会话名称的唯一性、安全性、长度和设置时机。

您应该多久再生一次会话ID？Apr 23, 2025 am 12:03 AM

会话ID应在登录时、敏感操作前和每30分钟定期重新生成。1.登录时重新生成会话ID可防会话固定攻击。2.敏感操作前重新生成提高安全性。3.定期重新生成降低长期利用风险，但需权衡用户体验。

如何在PHP中设置会话cookie参数？Apr 22, 2025 pm 05:33 PM

在PHP中设置会话cookie参数可以通过session_set_cookie_params()函数实现。1)使用该函数设置参数，如过期时间、路径、域名、安全标志等；2)调用session_start()使参数生效；3)根据需求动态调整参数，如用户登录状态；4)注意设置secure和httponly标志以提升安全性。