Maison >développement back-end >tutoriel php >PHP正则表达式问题
1.怎么正确的匹配谷歌浏览器,火狐浏览器导出的书签备份文件(html格式),正确读取分类目录与书签的上下级关系?
2.导出的备份书签格式:
<code><dt> <h3 folded add_date="1467374152" fav_pos="0">技术性网页</h3> </dt> <dl> <p> </p> <dt> <h3 folded add_date="1467374152" fav_pos="0">Hacker</h3> </dt> <dl> <p> </p> <dt> <a href="http://blog.knowsky.com/192993.htm" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="2">SQL 手工注入大全</a> <dt> <a href="http://www.2cto.com/Article/201207/139493.html" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="6">Burp Suite详细使用教程-Intruder模块详解 - 软件工具 - 红黑联盟</a> </dt> </dt> </dl> <p> </p> <dt> <h3 folded add_date="1467374152" fav_pos="0">安卓开发</h3> </dt> <dl> <p> </p> <dt> <a href="http://www.2cto.com/kf/201310/249684.html" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="1">adb not responding you can wait more - Android移动开发技术文章_手机开发 - 红黑联盟</a> </dt> </dl> <p> </p> <dt> <a href="http://www.oschina.net/code/list?lang=php&catalog=&show=time" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="3">代码分享列表 -- PHP - 开源中国社区</a> <dt> <a href="http://www.yiibai.com/" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="38">易百教程 - 专注于IT教程和实例</a> </dt> </dt> </dl> <p> </p> <dt> <a href="https://www.apachefriends.org/zh_cn/index.html" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="45">XAMPP Installers and Downloads for Apache Friends</a> <dt> <a href="https://www.apachefriends.org/zh_cn/index.html" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="45">XAMPP Installers and Downloads for Apache Friends</a> <dt><a href="https://www.apachefriends.org/zh_cn/index.html" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="45">XAMPP Installers and Downloads for Apache Friends</a></dt> </dt> </dt></code>
尝试用正则表达式匹配,但是学的不精,总是不能正确的获取上下级关系,悉心求教?
1.怎么正确的匹配谷歌浏览器,火狐浏览器导出的书签备份文件(html格式),正确读取分类目录与书签的上下级关系?
2.导出的备份书签格式:
<code><dt> <h3 folded add_date="1467374152" fav_pos="0">技术性网页</h3> </dt> <dl> <p> </p> <dt> <h3 folded add_date="1467374152" fav_pos="0">Hacker</h3> </dt> <dl> <p> </p> <dt> <a href="http://blog.knowsky.com/192993.htm" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="2">SQL 手工注入大全</a> <dt> <a href="http://www.2cto.com/Article/201207/139493.html" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="6">Burp Suite详细使用教程-Intruder模块详解 - 软件工具 - 红黑联盟</a> </dt> </dt> </dl> <p> </p> <dt> <h3 folded add_date="1467374152" fav_pos="0">安卓开发</h3> </dt> <dl> <p> </p> <dt> <a href="http://www.2cto.com/kf/201310/249684.html" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="1">adb not responding you can wait more - Android移动开发技术文章_手机开发 - 红黑联盟</a> </dt> </dl> <p> </p> <dt> <a href="http://www.oschina.net/code/list?lang=php&catalog=&show=time" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="3">代码分享列表 -- PHP - 开源中国社区</a> <dt> <a href="http://www.yiibai.com/" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="38">易百教程 - 专注于IT教程和实例</a> </dt> </dt> </dl> <p> </p> <dt> <a href="https://www.apachefriends.org/zh_cn/index.html" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="45">XAMPP Installers and Downloads for Apache Friends</a> <dt> <a href="https://www.apachefriends.org/zh_cn/index.html" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="45">XAMPP Installers and Downloads for Apache Friends</a> <dt><a href="https://www.apachefriends.org/zh_cn/index.html" add_date="1467374152" last_visit="0" last_modified="1467374152" lovefav="0" fav_pos="45">XAMPP Installers and Downloads for Apache Friends</a></dt> </dt> </dt></code>
尝试用正则表达式匹配,但是学的不精,总是不能正确的获取上下级关系,悉心求教?
只能说这种形式用正则表达式还不如用DOM来解析呢……