Java API 開發中使用 JSoup 進行 Web 抓取-java教程-PHP中文網

首頁

Java

java教程

Java API 開發中使用 JSoup 進行 Web 抓取

王林

Jun 17, 2023 pm 11:49 PM

jsoupjava apiweb 抓取

隨著網路資訊爆炸性成長，越來越多的應用程式需要從 Web 頁面上取得相關資料。 JSoup是一款Java HTML解析器，可以方便地從Web頁面中提取和操作資料。在Java API開發中，JSoup是一款重要且常用的工具。本文將介紹如何使用JSoup進行Web抓取。

一、JSoup的引入和基本用法

1.引入JSoup

JSoup是一款Java HTML解析器，開發者可以透過Maven 將其引入專案中，加入以下依賴即可：

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.2</version>
</dependency>

2.基本用法

使用JSoup需要先將HTML頁面的內容解析成Document 對象，然後可以透過這個物件來取得頁面中的各種元素。以下是JSoup的基本用法範例：

String url = "https://www.baidu.com/";
Document document = Jsoup.connect(url).get(); // 通过 URL 加载页面

// 获取页面标题
String title = document.title();

// 获取页面所有超链接
Elements links = document.select("a[href]");

// 循环遍历页面中的所有链接
for(Element link: links){
    String linkHref = link.attr("href");
    String linkText = link.text();
}

二、使用JSoup進行Web抓取

1.透過URL取得頁面資訊

使用JSoup的方法connect (url).get() 可以透過指定的URL位址取得頁面信息，如下所示：

String url = "https://www.baidu.com/";
Document document = Jsoup.connect(url).get();

2.解析HTML元素

根據頁面的結構，使用select() 方法可以快速取得所需的元素。以下是使用JSoup取得所有連結的範例：

Elements links = document.select("a[href]");

for(Element link: links){
    String linkHref = link.attr("href");
    String linkText = link.text();
    System.out.println(linkHref + " , " + linkText);
}

過濾

使用選擇器語法，可以取得頁面中符合指定條件的元素。例如，使用以下程式碼可以取得所有class 為"s_ipt" 的input 元素：

Elements inputs = document.select("input[class=s_ipt]");

支援的選擇器語法還包括：標籤選擇器、類別選擇器、ID選擇器、屬性選擇器、組合選擇器、偽選擇器等。

4.事件處理

透過JSoup可以方便地處理頁面中的事件。例如，可以使用以下程式碼來取得所需的 input 元素，並為其綁定一個事件監聽器：

Element input = document.select("input[type=text").first();

input.attr("oninput", "console.log('input value has changed')");

5.提交表單

JSoup同樣可以幫助我們提交表單。例如，可以使用以下程式碼完成百度搜尋框的提交：

String url = "https://www.baidu.com/s";
String keyword = "Java";
Document document = Jsoup.connect(url)
                        .data("wd", keyword)
                        .post();

三、總結

本文介紹如何使用JSoup進行Web抓取，以及JSoup的基本使用方法。使用JSoup可以方便地取得頁面元素、過濾、事件處理、提交表單等。當然，使用JSoup需要注意遵守相關法律法規和道德規範，不能以違法亂紀的方式取得他人資訊。

以上是Java API 開發中使用 JSoup 進行 Web 抓取的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

JVM性能與其他語言May 14, 2025 am 12:16 AM

JVM'SperformanceIsCompetitiveWithOtherRuntimes，operingabalanceOfspeed，安全性和生產性。 1）JVMUSESJITCOMPILATIONFORDYNAMICOPTIMIZAIZATIONS.2）c提供NativePernativePerformanceButlanceButlactsjvm'ssafetyFeatures.3）

Java平台獨立性：使用示例May 14, 2025 am 12:14 AM

JavaachievesPlatFormIndependencEthroughTheJavavIrtualMachine（JVM），允許CodeTorunonAnyPlatFormWithAjvm.1）codeisscompiledIntobytecode，notmachine-specificodificcode.2）bytecodeisisteredbytheybytheybytheybythejvm，enablingcross-platerssectectectectectross-eenablingcrossectectectectectection.2）

JVM架構：深入研究Java虛擬機May 14, 2025 am 12:12 AM

TheJVMisanabstractcomputingmachinecrucialforrunningJavaprogramsduetoitsplatform-independentarchitecture.Itincludes:1)ClassLoaderforloadingclasses,2)RuntimeDataAreafordatastorage,3)ExecutionEnginewithInterpreter,JITCompiler,andGarbageCollectorforbytec

JVM：JVM與操作系統有關嗎？May 14, 2025 am 12:11 AM

JVMhasacloserelationshipwiththeOSasittranslatesJavabytecodeintomachine-specificinstructions,managesmemory,andhandlesgarbagecollection.ThisrelationshipallowsJavatorunonvariousOSenvironments,butitalsopresentschallengeslikedifferentJVMbehaviorsandOS-spe

Java：寫一次，在任何地方跑步（WORA） - 深入了解平台獨立性May 14, 2025 am 12:05 AM

Java實現“一次編寫，到處運行”通過編譯成字節碼並在Java虛擬機（JVM）上運行。 1）編寫Java代碼並編譯成字節碼。 2）字節碼在任何安裝了JVM的平台上運行。 3）使用Java原生接口（JNI）處理平台特定功能。儘管存在挑戰，如JVM一致性和平台特定庫的使用，但WORA大大提高了開發效率和部署靈活性。

Java平台獨立性：與不同的操作系統的兼容性May 13, 2025 am 12:11 AM

JavaachievesPlatFormIndependencethroughTheJavavIrtualMachine（JVM），允許Codetorunondifferentoperatingsystemsswithoutmodification.thejvmcompilesjavacodeintoplatform-interploplatform-interpectentbybyteentbytybyteentbybytecode，whatittheninternterninterpretsandectectececutesoneonthepecificos，atrafficteyos，Afferctinginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginginging

什麼功能使Java仍然強大May 13, 2025 am 12:05 AM

JavaispoperfulduetoitsplatFormitiondence，對象與偏見，RichstandardLibrary，PerformanceCapabilities和StrongsecurityFeatures.1）Platform-dimplighandependectionceallowsenceallowsenceallowsenceallowsencationSapplicationStornanyDevicesupportingJava.2）

頂級Java功能：開發人員的綜合指南May 13, 2025 am 12:04 AM

Java的頂級功能包括：1)面向對象編程，支持多態性，提升代碼的靈活性和可維護性；2)異常處理機制，通過try-catch-finally塊提高代碼的魯棒性；3)垃圾回收，簡化內存管理；4)泛型，增強類型安全性；5)ambda表達式和函數式編程，使代碼更簡潔和表達性強；6)豐富的標準庫，提供優化過的數據結構和算法。

See all articles