使用 Java 擷取網站資料
要將網站中的資訊擷取到 Java 程式中,請使用 HTML 解析器,例如 Jsoup。 Jsoup 類似 jQuery 的 CSS 選擇器和表示節點清單(元素)的可迭代類別使其成為首選。
流程:
- 建立一個連接:使用 Jsoup.connect(url) 方法建立與所需網頁的連接。
- 檢索頁:在連線上執行 get() 方法取得頁面的 HTML 文件。
- 解析文件:利用 Jsoup 的 select() 方法和適當的 CSS 選擇器來提取您需要的資料。
範例(從 Stack Overflow 擷取問題和回答者):
<code class="java">import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class WebsiteDataRetrieval { public static void main(String[] args) throws Exception { String url = "https://stackoverflow.com/questions/2835505"; Document document = Jsoup.connect(url).get(); // Extract the question String question = document.select("#question .post-text").text(); System.out.println("Question: " + question); // Extract the answerers Elements answerers = document.select("#answers .user-details a"); for (Element answerer : answerers) { System.out.println("Answerer: " + answerer.text()); } } }</code>
此範例輸出指定 Stack Overflow 問題的問題和答案者清單。
故障排除NoSuchMethodError:
您在 Jsoup 中遇到的錯誤與您正在使用的版本中的問題有關。確保您使用的是最新版本的 Jsoup,因為它已經解決了此問題。此外,請確保您的類別路徑中有 Apache Commons 庫。
以上是如何使用Java和Jsoup從網站提取資料?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本文討論了使用Maven和Gradle進行Java項目管理,構建自動化和依賴性解決方案,以比較其方法和優化策略。

本文使用Maven和Gradle之類的工具討論了具有適當的版本控制和依賴關係管理的自定義Java庫(JAR文件)的創建和使用。

本文討論了使用咖啡因和Guava緩存在Java中實施多層緩存以提高應用程序性能。它涵蓋設置,集成和績效優勢,以及配置和驅逐政策管理最佳PRA

本文討論了使用JPA進行對象相關映射,並具有高級功能,例如緩存和懶惰加載。它涵蓋了設置,實體映射和優化性能的最佳實踐,同時突出潛在的陷阱。[159個字符]

Java的類上載涉及使用帶有引導,擴展程序和應用程序類負載器的分層系統加載,鏈接和初始化類。父代授權模型確保首先加載核心類別,從而影響自定義類LOA

本文解釋了用於構建分佈式應用程序的Java的遠程方法調用(RMI)。 它詳細介紹了接口定義,實現,註冊表設置和客戶端調用,以解決網絡問題和安全性等挑戰。

本文詳細介紹了用於網絡通信的Java的套接字API,涵蓋了客戶服務器設置,數據處理和關鍵考慮因素,例如資源管理,錯誤處理和安全性。 它還探索了性能優化技術,我

本文詳細介紹了創建自定義Java網絡協議。 它涵蓋協議定義(數據結構,框架,錯誤處理,版本控制),實現(使用插座),數據序列化和最佳實踐(效率,安全性,維護


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

Dreamweaver CS6
視覺化網頁開發工具