關於近些年興起的爬取數據,其中大部分人都是使用Python來進行爬取。對於有些人來講,還是不知道Java也可以進行資料爬取的。那接下來小編要跟大家分享一篇關於Java爬取網頁資料的文章。
爬取數據的含義就是獲取請求返回的頁面信息,篩選出我們想要的數據就可以了。
那麼長話短說我們下面開始:
1.環境準備
#工具的話是eclipse或IDEA
配置好maven
#2 .導入jsoup相關依賴
3.開始建立一個專案寫程式碼,小編程式碼如下:
public static void main(String[] args) throws Exception { Scanner sc = new Scanner(System.in) ; System.out.println("請輸入搜尋的關鍵字!!!"); String input = sc.next(); //取得url請求,這裡的請求自己去找 String url = "https://search .xx.com/Search?keyword=" input; //解析網頁(此處jsoup返回的document,就是頁面document物件) Document document = Jsoup.parse(new URL(url), 30000); //所有js中的方法這裡都能夠使用,這裡是取得爬取目標div中的id Element element = document.getElementById("x_goodsList"); System.out.println(element.html()); //////////////////////////////////////////////////////////////////////////////////」的所有的li標籤 Elements elements = document.getElementsByTag("li"); //遍歷li標籤裡面的所有內容 for(Element el : elements){
網站,都是採用延遲載入的。取得的屬性是 source-data-lazy-img而非src
# /*
img 是爬取的圖片,
### name是爬取的商品名稱
*/
String img = el.getElementsByTag(遠price = el.getElementsByClass("p-price").eq(0).text(); String name = el.getElementsByClass("p-name").eq(0).text(); ("========================"); System.out.println(img); System.out.println(price); System.out .println(name); }
最後對於爬取資料感興趣的小夥伴抓緊去試試,在這裡本人杜絕爬取一切違法的爬取行為,哈哈哈,希望小伙伴知道什麼可爬著玩,什麼不可爬。
以上是JAVA爬取網頁資料之jsoup的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本文討論了使用Maven和Gradle進行Java項目管理,構建自動化和依賴性解決方案,以比較其方法和優化策略。

本文使用Maven和Gradle之類的工具討論了具有適當的版本控制和依賴關係管理的自定義Java庫(JAR文件)的創建和使用。

本文討論了使用咖啡因和Guava緩存在Java中實施多層緩存以提高應用程序性能。它涵蓋設置,集成和績效優勢,以及配置和驅逐政策管理最佳PRA

本文討論了使用JPA進行對象相關映射,並具有高級功能,例如緩存和懶惰加載。它涵蓋了設置,實體映射和優化性能的最佳實踐,同時突出潛在的陷阱。[159個字符]

Java的類上載涉及使用帶有引導,擴展程序和應用程序類負載器的分層系統加載,鏈接和初始化類。父代授權模型確保首先加載核心類別,從而影響自定義類LOA


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Dreamweaver Mac版
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SublimeText3 Linux新版
SublimeText3 Linux最新版

WebStorm Mac版
好用的JavaScript開發工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。