Rumah >pembangunan bahagian belakang >tutorial php >javascript - php 抓取的页面如何处理可以只保留DOM结构,去掉CSS和JS?
正则规则写好后,页面一旦有改变就要重新修改正则。
先提取页面的 DOM,有没有比较好的办法?
正则规则写好后,页面一旦有改变就要重新修改正则。
先提取页面的 DOM,有没有比较好的办法?
我想你需要的是 php 的 DOM 模块 ... 默认有安装不用担心 ...
因为不知道你的实际应用场景是什么 ... 给你写个简单的例子吧 ...
<?php /* i heard that you need DOM ..? */ $doc = new DOMDocument(); /* i wrote a simple page ... change it to a curl result ... */ $doc->loadHTML( <title>Sunyanzi's Test</title> <h1>Hello World</h1> <a href="http://segmentfault.com/" id="onlylink">Hey Welcome</a>