Heim >Web-Frontend >HTML-Tutorial >【Jsoup】HTML解析器,轻松获取网页内容_html/css_WEB-ITnose

【Jsoup】HTML解析器,轻松获取网页内容_html/css_WEB-ITnose

WBOY
WBOYOriginal
2016-06-21 09:00:501371Durchsuche

Jsoup简介

jsoup 是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

Jsoup.jpg

官网地址:http://jsoup.org/

在官网中下载 jsou-1.8.3.jar 文件,添加到自己项目的lib库中,便可使用Jsoup提供的api,官网中也提供了一套使用指南(Cookbook),便于开发者借鉴。

Jsoup解析HTML得到一个Document对象,通过操作Document的属性来获取HTML页面内容,所以,在开始之前,先介绍一下XML中Node、Element、Document等这些相关概念的区别,防止因概念混淆而导致乱用错用。

相关概念

  • Jsoup中的继承关系
public abstract class Node implements Cloneable
public class Element extends Node
public class Document extends Element

从Jsoup源码对三者的定义可以看出如下一个树形继承关系:

Node、Element、Document继承关系.png

  1. Node(节点)从上述继承关系上可以明确一点,文档中的所有内容都可以看做是一个节点。节点有很多种类型:属性节点(Attribute)、注释节点(Note)、文本节点(Text)、元素节点(Element)等,通常所说的节点是这些多种节点的统称。

  2. Element(元素)相比节点而言,元素则是一个更小范围的定义。元素继承于节点,是节点的子集,所以一个元素也是一个节点,节点拥有的公有属性和方法在元素中也能使用。

  3. Document(文档)文档继承于元素,指整个HTML文档的源码内容,通过 System.out.println(document.toString()); 即可在控制台打印出网页源码内容。

  4. 相互转换基于Node、Element和Document之间的“缠绵”关系,可以利用各个类中提供的方法适当转换获取所需对象,以供使用。

使用案例

Jsoup解析Html获取Document对象的方式分为三类:在线Url、Html文本字符串、文件,对应API如下

  • connect(String url)

  • parse(String html)

  • parse(File in, String charsetName)

在获取到Document对象之后,可以结合HTML源码,利用Jsoup提供的api通过class、tag、id、attribute等相关属性获取对应Element,进而得到所需要的网页内容。

下面以Jsoup的官网Cookbook页面为例,解析并获取页面目录内容。

网页内容:

Jsoup Cookbook网页.jpg

网页源码:

<!DOCTYPE html><!-- saved from url=(0031)http://www.open-open.com/jsoup/ --><html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><title>jsoup开发指南,jsoup中文使用手册,jsoup中文文档</title><meta name="keywords" content="jsoup开发指南,jsoup中文使用手册,jsoup中文文档,jsoup java html解析器"><meta name="description" content="jsoup Cookbook中文版 - 由http://www.open-open.com翻译整理"><link rel="stylesheet" type="text/css" href="./jsoup开发指南,jsoup中文使用手册,jsoup中文文档_files/style.css"></head><body class="n1-cookbook"><div class="wrap"><div class="header"><div class="nav-sections"><ul>  <li class="n1-home">  <h4><a href="http://jsoup.org/">jsoup</a></h4></li>  <li class="n1-news"><a href="http://jsoup.org/news/">新闻</a></li>  <li class="n1-bugs"><a href="http://jsoup.org/bugs">bugs</a></li>  <li class="n1-discussion"><a href="http://jsoup.org/discussion">讨论</a></li>  <li class="n1-download"><a href="http://jsoup.org/download">下载</a></li>  <li class="n1-api"><a href="http://jsoup.org/apidocs/">api参考</a></li>  <li class="n1-cookbook"><a href="http://jsoup.org/cookbook/">Cookbook</a></li></ul></div></div><div class="breadcrumb"><a href="http://jsoup.org/">jsoup</a> <span class="seperator">&raquo;</span> cookbook </div><div class="content"><div class="col1"><h1>jsoup Cookbook(中文版)</h1><div class="toc"><h3>入门</h3><ol start="1">  <li><a href="http://www.open-open.com/jsoup/parsing-a-document.htm">解析和遍历一个html文档</a></li></ol><h3>输入</h3><ol start="2">  <li><a href="http://www.open-open.com/jsoup/parse-document-from-string.htm">解析一个html字符串</a></li>  <li><a href="http://www.open-open.com/jsoup/parse-body-fragment.htm">解析一个body片断</a></li>  <li><a href="http://www.open-open.com/jsoup/load-document-from-url.htm">根据一个url加载Document对象</a></li>  <li><a href="http://www.open-open.com/jsoup/load-document-from-file.htm">根据一个文件加载Document对象</a></li></ol><h3>数据抽取</h3><ol start="6">  <li><a href="http://www.open-open.com/jsoup/dom-navigation.htm">使用dom方法来遍历一个Document对象</a></li>  <li><a href="http://www.open-open.com/jsoup/selector-syntax.htm">使用选择器语法来查找元素</a></li>  <li><a href="http://www.open-open.com/jsoup/attributes-text-html.htm">从元素集合抽取属性、文本和html内容</a></li>  <li><a href="http://www.open-open.com/jsoup/working-with-urls.htm">URL处理</a></li>  <li><a href="http://www.open-open.com/jsoup/example-list-links.htm">程序示例:获取所有链接</a></li></ol><h3>数据修改</h3><ol start="11">  <li><a href="http://www.open-open.com/jsoup/set-attributes.htm">设置属性值</a></li>  <li><a href="http://www.open-open.com/jsoup/set-html.htm">设置元素的html内容</a></li>  <li><a href="http://www.open-open.com/jsoup/set-text.htm">设置元素的文本内容</a></li></ol><h3> html清理</h3><ol start="14">  <li><a href="http://www.open-open.com/jsoup/whitelist-sanitizer.htm">消除不受信任的html (来防止xss攻击)</a></li></ol><script src="./jsoup开发指南,jsoup中文使用手册,jsoup中文文档_files/ca-pub-7963911354665843.js"></script><script type="text/javascript"><!--google_ad_client = "pub-7963911354665843";/* 728x90, 创建于 11-1-27 */google_ad_slot = "5890482646";google_ad_width = 728;google_ad_height = 90;//--></script><script type="text/javascript" src="./jsoup开发指南,jsoup中文使用手册,jsoup中文文档_files/show_ads.js"></script><ins id="aswift_0_expand" style="display:inline-table;border:none;height:90px;margin:0;padding:0;position:relative;visibility:visible;width:728px;background-color:transparent"><ins id="aswift_0_anchor" style="display:block;border:none;height:90px;margin:0;padding:0;position:relative;visibility:visible;width:728px;background-color:transparent"><iframe width="728" height="90" frameborder="0" marginwidth="0" marginheight="0" vspace="0" hspace="0" allowtransparency="true" scrolling="no" allowfullscreen="true" onload="var i=this.id,s=window.google_iframe_oncopy,H=s&&s.handlers,h=H&&H[i],w=this.contentWindow,d;try{d=w.document}catch(e){}if(h&&d&&(!d.body||!d.body.firstChild)){if(h.call){setTimeout(h,0)}else if(h.match){try{h=s.upd(h,i)}catch(e){}w.location.replace(h)}}" id="aswift_0" name="aswift_0" style="left:0;position:absolute;top:0;"></iframe></ins></ins></div></div><div class="col2"></div></div><div class="footer"><b>jsoup</b> html parser: copyright &copy; 2009 - 2011 <a href="http://www.open-open.com/" rel="me"><b>jonathan hedley</b></a> </div></div></body></html>

Jsoup解析:

import java.io.IOException;import java.text.ParseException;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Elements;/** * @author 亦枫 * @created_time 2016年1月5日 * @file_user_todo Java测试类 * @blog http://www.jianshu.com/users/1c40186e3248/latest_articles */public class JavaTest {    /**     * 入口函数     * @param args     * @throws ParseException     */    public static void main(String[] args) throws ParseException {        try {            //解析Url获取Document对象            Document document = Jsoup.connect("http://www.open-open.com/jsoup/").get();            //获取网页源码文本内容            System.out.println(document.toString());            //获取指定class的内容指定tag的元素            Elements liElements = document.getElementsByClass("content").get(0).getElementsByTag("li");            for (int i = 0; i < liElements.size(); i++) {                System.out.println(i + ". " + liElements.get(i).text());            }        } catch (IOException e) {            System.out.println("解析出错!");            e.printStackTrace();        }    }}

解析结果:

Jsoup parse result.png

欢迎订阅作者头条号:技术鸟欢迎关注亦枫微信公众号【技术鸟】,一个有态度的技术型公众号!

技术鸟_微信二维码.gif

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn