搜尋
首頁web前端html教學jsoup:解析HTML用法小结_html/css_WEB-ITnose

1.解析方式 

(1)从字符串解析 

String html = "

First parse

Parse HTML into a doc.

";

Document doc = Jsoup.parse(html);

?

(2)从URL获取解析

Document doc = Jsoup.connect("http://example.com/").get();     

String title = doc.title();

Document doc = Jsoup.connect("http://example.com") .data("query", "Java").userAgent("Mozilla").cookie("auth", "token").timeout(3000).post();

?

?

(3)从文件解析

File input = new File("/tmp/input.html"); 

Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");


2.DOM方式遍历元素
(1)搜索元素

getElementById(String id)

getElementByTag(String tag)

getElementByClass(String className)

getElementByAttribute(String key)

siblingElements(), firstElementSibling(), lastElementSibling(), nextElementSibling(), previousElementSibling()

parent(), children(), child(int index)

(2)获取元素数据

attr(String key) ? 获取key属性

attributes() ? 获取属性

id(), className(), classNames()

text() ? 获取文本内容

html() ? 获取元素内部HTML内容

outerHtml() ? 获取包括此元素的HTML内容

data() ? 获取

tag(), tagName()


3.选择器语法(jsoup与其他解析器的区别就是可以使用类似jquery的选择器语法来搜索及过滤出所需的元素)
(1)基本选择器

tagname: 搜索tag标签的元素

ns|tag: 搜索命名空间内tag标签的元素,如fb|name:

#id: 搜索有指定id的元素

.class: 搜索有指定class的元素

[attribute]: 搜索有attrribute属性的元素

[^attri]: 搜索有以attri开头的属性的元素

[attr=value]: 搜索有指定属性及其属性值的元素

[attr^=value], [attr$=value], [attr*=value]: 搜索有指定attr属性,且其属性值是以value开头、结尾或包括value的元素,如[href*=/path/]

[attr~=regex]: 搜索有指定attr属性,且其属性值符合regex正则表达式的元素

*: 搜索所有元素

(2)选择器组合

el#id: 同时指定标签名称和id

el.class: 同时指定标签名称和class

el[attr]: 同时指定标签名称和及其中所含属性的名称

上述3项的任意组合,如a[href].highlight

ancestor child: 包含,如div.content p,即搜索

下含有

标签的元素

ancestor > child: 直接包含,如div.content > p,即搜索直属

节点下的

标签元素;div.content > *,即搜索

下的所有元素

siblingA + siblingB: 直接遍历,如div.head + div,即搜索

的元素,其中不再包含子元素

siblingA ~ siblingX: 遍历,如h1 ~ p,即

下直接或间接有

的元素

el, el, el: 组合多个选择器,搜索满足其中一个选择器的元素

(3)伪选择器(条件选择器)

:lt(n): 搜索n号元素之前的元素

:gt(n): 搜索n号元素之后的元素

:eq(n): 搜索n号元素

:has(seletor): 搜索符合指定选择器的元素

:not(seletor): 搜索不符合指定选择器的元素

:contains(text): 搜索包含指定文本的元素,区分大小写

:containsOwn(text): 搜索直接指包含指定文本的元素

:matches(regex): 搜索符合指定正则表达式的元素

:matchesOwn(regex): 搜索本元素文本中符合指定正则表达式的元素

注意:以上伪选择器的索引中,第一个元素位于索引0,第二个元素位于索引1,……

4.获取元素的属性、文本和HTML

获取元素的属性值:Node.attr(String key)

获取元素的文本,包括与其组合的子元素:Element.text()

获取HTML:Element.html()或Node.outerHtml()

5.操作URL

Element.attr("href") ? 直接获取URL

Element.attr("abs:href")或Element.absUrl("href") ? 获取完整URL。如果HTML是从文件或字符串解析过来的,需要调用Jsoup.setBaseUri(String baseUri)来指定基URL,否则获取的完整URL只会是空字符串

6.测试例子

li[class=info] a[class=Author] - 空格前后表示包含关系,即表示li里的a

div[class=mod mod-main mod-lmain]:contains(教学反思) - div中包含"教学反思",适合同时有多个同名DIV的情况

/*

  previousSibling()获取某标签前面的代码

  nextSibling()获取某标签后的代码

  如:

  

  第一名:Lily 

  第二名:Tom  

  第三名:Peter

  

*/

Elements items = doc.select("form[id=form1]");

Elements prevs = items.select("br");

for(Element p : prevs){

   String prevStr = p.previousSibling().toString().trim());

}

/*

 最常用的链接抓取

*/

String itemTag = "div[class=mydiv]";

String linkTag = "a"

Elements items = doc.select(itemTag);

Elements links = items.select(linkTag);

for(Element l : links){

  String href = l.attr("abs:href");//完整Href

  String absHref = l.attr("href");//相对路径

  String text = l.text();

  String title = l.attr("title");

}

7.jsoup在线API 
http://jsoup.org/apidocs/  


陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
HTML,CSS和JavaScript的未來:網絡開發趨勢HTML,CSS和JavaScript的未來:網絡開發趨勢Apr 19, 2025 am 12:02 AM

HTML的未來趨勢是語義化和Web組件,CSS的未來趨勢是CSS-in-JS和CSSHoudini,JavaScript的未來趨勢是WebAssembly和Serverless。 1.HTML的語義化提高可訪問性和SEO效果,Web組件提升開發效率但需注意瀏覽器兼容性。 2.CSS-in-JS增強樣式管理靈活性但可能增大文件體積,CSSHoudini允許直接操作CSS渲染。 3.WebAssembly優化瀏覽器應用性能但學習曲線陡,Serverless簡化開發但需優化冷啟動問題。

HTML:結構,CSS:樣式,JavaScript:行為HTML:結構,CSS:樣式,JavaScript:行為Apr 18, 2025 am 12:09 AM

HTML、CSS和JavaScript在Web開發中的作用分別是:1.HTML定義網頁結構,2.CSS控製網頁樣式,3.JavaScript添加動態行為。它們共同構建了現代網站的框架、美觀和交互性。

HTML的未來:網絡設計的發展和趨勢HTML的未來:網絡設計的發展和趨勢Apr 17, 2025 am 12:12 AM

HTML的未來充滿了無限可能。 1)新功能和標準將包括更多的語義化標籤和WebComponents的普及。 2)網頁設計趨勢將繼續向響應式和無障礙設計發展。 3)性能優化將通過響應式圖片加載和延遲加載技術提升用戶體驗。

HTML與CSS vs. JavaScript:比較概述HTML與CSS vs. JavaScript:比較概述Apr 16, 2025 am 12:04 AM

HTML、CSS和JavaScript在網頁開發中的角色分別是:HTML負責內容結構,CSS負責樣式,JavaScript負責動態行為。 1.HTML通過標籤定義網頁結構和內容,確保語義化。 2.CSS通過選擇器和屬性控製網頁樣式,使其美觀易讀。 3.JavaScript通過腳本控製網頁行為,實現動態和交互功能。

HTML:是編程語言還是其他?HTML:是編程語言還是其他?Apr 15, 2025 am 12:13 AM

HTMLISNOTAPROGRAMMENGUAGE; ITISAMARKUMARKUPLAGUAGE.1)htmlStructures andFormatSwebContentusingtags.2)itworkswithcsssforstylingandjavascript for Interactivity,增強WebevebDevelopment。

HTML:建立網頁的結構HTML:建立網頁的結構Apr 14, 2025 am 12:14 AM

HTML是構建網頁結構的基石。 1.HTML定義內容結構和語義,使用、、等標籤。 2.提供語義化標記,如、、等,提升SEO效果。 3.通過標籤實現用戶交互,需注意表單驗證。 4.使用、等高級元素結合JavaScript實現動態效果。 5.常見錯誤包括標籤未閉合和屬性值未加引號,需使用驗證工具。 6.優化策略包括減少HTTP請求、壓縮HTML、使用語義化標籤等。

從文本到網站:HTML的力量從文本到網站:HTML的力量Apr 13, 2025 am 12:07 AM

HTML是一種用於構建網頁的語言,通過標籤和屬性定義網頁結構和內容。 1)HTML通過標籤組織文檔結構,如、。 2)瀏覽器解析HTML構建DOM並渲染網頁。 3)HTML5的新特性如、、增強了多媒體功能。 4)常見錯誤包括標籤未閉合和屬性值未加引號。 5)優化建議包括使用語義化標籤和減少文件大小。

了解HTML,CSS和JavaScript:初學者指南了解HTML,CSS和JavaScript:初學者指南Apr 12, 2025 am 12:02 AM

WebDevelovermentReliesonHtml,CSS和JavaScript:1)HTMLStructuresContent,2)CSSStyleSIT和3)JavaScriptAddSstractivity,形成thebasisofmodernWebemodernWebExexperiences。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。