Rumah >pembangunan bahagian belakang >tutorial php >详谈如何实现PHP HTML截取代码_PHP教程
我们今天将为大家带来的是关于需求:将一段文字截取一定的物理长度显示,注意,要截取的不是字符串的字节数,UFT-8 的编码中文字符是3个字节或者4个字节的,而显示的时候中文会占两个字符的长度,英文字符只占一个,全角的时候又有不同。
而且给的数据是HTML代码串,比如这样:
<ol class="dp-xml"> <li class="alt"><span><span class="tag"><span> </span><span class="tag-name">div</span><span> </span><span class="attribute">class</span><span>=”aaa”</span><span class="tag">></span></span></span></li> <li class="alt"><span><span class="tag"><span> </span><span class="tag-name">a</span><span> </span><span class="attribute">href</span><span>=”/aaa.php?</span><span class="attribute">id</span><span>=</span><span class="attribute-value">1</span><span>″</span><span class="tag">></span></span></span></li> <li class="alt"><span><span>张三</span></span></li> <li class="alt"><span><span class="tag"><span> /a</span><span class="tag">></span><span> </span></span></span></li> <li class="alt"><span><span>评论了 </span></span></li> <li class="alt"><span><span class="tag"><span> </span><span class="tag-name">a</span><span> </span><span class="attribute">href</span><span>=”/aaa.php?</span><span class="attribute">id</span><span>=</span><span class="attribute-value">444</span><span>″</span><span class="tag">></span></span></span></li> <li class="alt"><span><span>李四</span></span></li> <li class="alt"><span><span class="tag"><span> /a</span><span class="tag">></span><span> </span></span></span></li> <li class="alt"><span><span>分享的 </span></span></li> <li class="alt"><span><span class="tag"><span> </span><span class="tag-name">a</span><span> </span><span class="attribute">href</span><span>=”bbb.html”</span><span class="tag">></span></span></span></li> <li class="alt"><span><span>一篇文章文章一长串的东西</span></span></li> <li class="alt"><span><span class="tag"><span> /a</span><span class="tag">></span></span></span></li> <li class="alt"><span><span class="tag"><span> /div</span><span class="tag">></span><span> </span></span></span></li> </ol>
PHP HTML截取代码的时候是要截取 div 标签内部的东西,而且要保留HTML标签,只是对其中的文字做处理。比如我可能只是截取到“李四”的“李”字,但是如果就这样放到前端的话,“李四”前面的 a 标签是没有闭合的,所以截取之后要保证HTML的语法正确。
这个问题确实不太好搞,让我郁闷了两天。请注意,这只是一个字符串,只不过内容是HTML代码,是没有什么DOM的。如果是在前端处理就好办了,直接DOM获取,然后对里面的节点进行处理,最后把innerHTML 之类的东西输出就搞定了。现在可不行了,得换个思路。同事的思路是这样的:
遍历字符串的每一个字符。设置一个标记,碰到标签开始的标记之后再开始计数。对标签内部的字符串处理的时候,还要先判断当前字符的编码是不是可能是中文,一般来说PHP中 UTF-8 编码的中文字符的长度都是3,所以如果碰到是中文字符编码,就要跳过两个不记数……说到这里我自己头已经开始大了。个人认为这种方法很不爽,首先这种精致的逻辑不太容易控制,而且 UFT-8 编码下中文产生的长度有可能是3个或4个 所以代码的严密性值得怀疑。
我个人的思路是,用 Tidy 来搞(具体用法请看PHP手册吧)。昨天研究了一下那个 Tidy ,发现这个东西还是挺好用的。首先,把这个字符串转换成 Tidy 对象,这样:
<ol class="dp-xml"> <li class="alt"><span><span>$</span><span class="attribute">tidy</span><span> = </span><span class="attribute-value">tidy_parse_string<br></span><span>($str, array(), ‘utf8′); </span></span></li> <li><span>// 最后一个是设置编码的,注意,<br>这里是utf8 ,不是utf-8,没有中间那个连线。 </span></li> </ol>
然后获取$tidy中的 body(因为转换之后$tidy会自动加上
等标签):name=>”a”
value => “sdf”
child=> array{[0]=>一个文本节点对象,value是 sdf}
attribute=array{”href”=>”#”}
…..其他属性
可以看到,我们其实是可以单独去处理 a 标签对应节点下面的文字节点的值的,那样PHP HTML截取代码就不会破坏任何HTML完整性。原来我以为改变 a 标签中文字节点的值之后, a 标签的value也会跟着改变,那样我直接返回a标签对应节点的value就OK了,没想到不是那个样子,哎,所以处理过其中的文字之后还是要自己拼出新的HTML。
知道了Tidy对象的结构之后,一切就好办了,只要遍历所有的节点,对于本需求来说,就是找到那个 div 标签,然后开始处理里面的节点。代码如下:
<ol class="dp-xml"> <li class="alt"><span><span>if(mb_strwidth($subchild-</span><span class="tag">></span><span>value, <br>‘utf-8′) </span><span class="tag">></span><span>= $len) </span></span></li> <li><span>{ </span></li> <li class="alt"> <span>$subchild-</span><span class="tag">></span><span class="attribute">value</span><span> = </span><span class="attribute-value">mb_strimwidth<br></span><span>($subchild-</span><span class="tag">></span><span>value, 0, $len, ‘…', ‘utf-8′); </span> </li> <li> <span>$trimed_str </span><span class="attribute">.</span><span>= $subchild-</span><span class="tag">></span><span>value; </span> </li> <li class="alt"><span>break; </span></li> <li><span>} </span></li> <li class="alt"><span>else </span></li> <li><span>{ </span></li> <li class="alt"> <span>$trimed_str </span><span class="attribute">.</span><span>= $subchild-</span><span class="tag">></span><span>value; </span> </li> <li> <span>$</span><span class="attribute">len</span><span> = $len - mb_strwidth($subchild-</span><span class="tag">><br></span><span>value, ‘utf-8′); </span> </li> <li class="alt"><span>} </span></li> </ol>
里面的$subchild 就是一个子节点。注意,这里使用了 mb_strwidth 来获取字符串长度。严重推荐一下这个 mb_strwidth,很好用,它会把中文当作两个字符长度处理,正好符合这里的需求!而且PHP HTML截取代码的时候用到了 mb_strimwidth,这个函数也会把中文当作两个字符长度处理,mb_ 开头的函数真是好用啊。
具体的PHP HTML截取代码代码我就不写出来了,因为是针对一个需求写的,没做成通用的形式。哪天我有时间做成通用的再发布一下。
另外,可惜FireFox不支持 text-overflow 属性,不然也不用后台那么辛苦地去截断了。如果大家有更好的方法,欢迎提出!不胜感激。