隨著網路資訊爆炸性成長,越來越多的應用程式需要從 Web 頁面上取得相關資料。 JSoup是一款Java HTML解析器,可以方便地從Web頁面中提取和操作資料。在Java API開發中,JSoup是一款重要且常用的工具。本文將介紹如何使用JSoup進行Web抓取。
一、JSoup的引入和基本用法
1.引入JSoup
JSoup是一款Java HTML解析器,開發者可以透過Maven 將其引入專案中,加入以下依賴即可:
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.14.2</version> </dependency>
2.基本用法
使用JSoup需要先將HTML頁面的內容解析成Document
對象,然後可以透過這個物件來取得頁面中的各種元素。以下是JSoup的基本用法範例:
String url = "https://www.baidu.com/"; Document document = Jsoup.connect(url).get(); // 通过 URL 加载页面 // 获取页面标题 String title = document.title(); // 获取页面所有超链接 Elements links = document.select("a[href]"); // 循环遍历页面中的所有链接 for(Element link: links){ String linkHref = link.attr("href"); String linkText = link.text(); }
二、使用JSoup進行Web抓取
1.透過URL取得頁面資訊
使用JSoup的方法connect (url).get()
可以透過指定的URL位址取得頁面信息,如下所示:
String url = "https://www.baidu.com/"; Document document = Jsoup.connect(url).get();
2.解析HTML元素
根據頁面的結構,使用select()
方法可以快速取得所需的元素。以下是使用JSoup取得所有連結的範例:
Elements links = document.select("a[href]"); for(Element link: links){ String linkHref = link.attr("href"); String linkText = link.text(); System.out.println(linkHref + " , " + linkText); }
- 過濾
使用選擇器語法,可以取得頁面中符合指定條件的元素。例如,使用以下程式碼可以取得所有class 為"s_ipt" 的input 元素:
Elements inputs = document.select("input[class=s_ipt]");
支援的選擇器語法還包括:標籤選擇器、類別選擇器、ID選擇器、屬性選擇器、組合選擇器、偽選擇器等。
4.事件處理
透過JSoup可以方便地處理頁面中的事件。例如,可以使用以下程式碼來取得所需的 input 元素,並為其綁定一個事件監聽器:
Element input = document.select("input[type=text").first(); input.attr("oninput", "console.log('input value has changed')");
5.提交表單
JSoup同樣可以幫助我們提交表單。例如,可以使用以下程式碼完成百度搜尋框的提交:
String url = "https://www.baidu.com/s"; String keyword = "Java"; Document document = Jsoup.connect(url) .data("wd", keyword) .post();
三、總結
本文介紹如何使用JSoup進行Web抓取,以及JSoup的基本使用方法。使用JSoup可以方便地取得頁面元素、過濾、事件處理、提交表單等。當然,使用JSoup需要注意遵守相關法律法規和道德規範,不能以違法亂紀的方式取得他人資訊。
以上是Java API 開發中使用 JSoup 進行 Web 抓取的詳細內容。更多資訊請關注PHP中文網其他相關文章!

JVM'SperformanceIsCompetitiveWithOtherRuntimes,operingabalanceOfspeed,安全性和生產性。 1)JVMUSESJITCOMPILATIONFORDYNAMICOPTIMIZAIZATIONS.2)c提供NativePernativePerformanceButlanceButlactsjvm'ssafetyFeatures.3)

JavaachievesPlatFormIndependencEthroughTheJavavIrtualMachine(JVM),允許CodeTorunonAnyPlatFormWithAjvm.1)codeisscompiledIntobytecode,notmachine-specificodificcode.2)bytecodeisisteredbytheybytheybytheybythejvm,enablingcross-platerssectectectectectross-eenablingcrossectectectectectection.2)

TheJVMisanabstractcomputingmachinecrucialforrunningJavaprogramsduetoitsplatform-independentarchitecture.Itincludes:1)ClassLoaderforloadingclasses,2)RuntimeDataAreafordatastorage,3)ExecutionEnginewithInterpreter,JITCompiler,andGarbageCollectorforbytec

JVMhasacloserelationshipwiththeOSasittranslatesJavabytecodeintomachine-specificinstructions,managesmemory,andhandlesgarbagecollection.ThisrelationshipallowsJavatorunonvariousOSenvironments,butitalsopresentschallengeslikedifferentJVMbehaviorsandOS-spe

Java實現“一次編寫,到處運行”通過編譯成字節碼並在Java虛擬機(JVM)上運行。 1)編寫Java代碼並編譯成字節碼。 2)字節碼在任何安裝了JVM的平台上運行。 3)使用Java原生接口(JNI)處理平台特定功能。儘管存在挑戰,如JVM一致性和平台特定庫的使用,但WORA大大提高了開發效率和部署靈活性。

JavaachievesPlatFormIndependencethroughTheJavavIrtualMachine(JVM),允許Codetorunondifferentoperatingsystemsswithoutmodification.thejvmcompilesjavacodeintoplatform-interploplatform-interpectentbybyteentbytybyteentbybytecode,whatittheninternterninterpretsandectectececutesoneonthepecificos,atrafficteyos,Afferctinginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginging

JavaispoperfulduetoitsplatFormitiondence,對象與偏見,RichstandardLibrary,PerformanceCapabilities和StrongsecurityFeatures.1)Platform-dimplighandependectionceallowsenceallowsenceallowsenceallowsencationSapplicationStornanyDevicesupportingJava.2)

Java的頂級功能包括:1)面向對象編程,支持多態性,提升代碼的靈活性和可維護性;2)異常處理機制,通過try-catch-finally塊提高代碼的魯棒性;3)垃圾回收,簡化內存管理;4)泛型,增強類型安全性;5)ambda表達式和函數式編程,使代碼更簡潔和表達性強;6)豐富的標準庫,提供優化過的數據結構和算法。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

WebStorm Mac版
好用的JavaScript開發工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3漢化版
中文版,非常好用

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境