首頁  >  文章  >  Java  >  JAVA爬取網頁資料之jsoup

JAVA爬取網頁資料之jsoup

TmDGl
TmDGl原創
2020-04-29 18:13:08169瀏覽

關於近些年興起的爬取數據,其中大部分人都是使用Python來進行爬取。對於有些人來講,還是不知道Java也可以進行資料爬取的。那接下來小編要跟大家分享一篇關於Java爬取網頁資料的文章。

爬取數據的含義就是獲取請求返回的頁面信息,篩選出我們想要的數據就可以了。

那麼長話短說我們下面開始:

1.環境準備

#工具的話是eclipse或IDEA

配置好maven

#2 .導入jsoup相關依賴

                 org.jsoup< /groupId<   org.jsoup< ;     1.13.1     

3.開始建立一個專案寫程式碼,小編程式碼如下:

public static void main(String[] args) throws Exception {    Scanner sc = new Scanner(System.in) ;    System.out.println("請輸入搜尋的關鍵字!!!");    String input = sc.next();    //取得url請求,這裡的請求自己去找   String url = "https://search .xx.com/Search?keyword=" input;    //解析網頁(此處jsoup返回的document,就是頁面document物件)    Document document = Jsoup.parse(new URL(url), 30000);    //所有js中的方法這裡都能夠使用,這裡是取得爬取目標div中的id    Element element = document.getElementById("x_goodsList");    System.out.println(element.html());    //////////////////////////////////////////////////////////////////////////////////」的所有的li標籤   Elements elements = document.getElementsByTag("li");    //遍歷li標籤裡面的所有內容   for(Element el : elements){

 網站,都是採用延遲載入的。取得的屬性是      source-data-lazy-img而非src

#      /*

          img 是爬取的圖片,

##     

#          name是爬取的商品名稱

      */

       String img = el.getElementsByTag(遠price = el.getElementsByClass("p-price").eq(0).text();        String name = el.getElementsByClass("p-name").eq(0).text(); ("========================");        System.out.println(img);        System.out.println(price);        System.out .println(name);    }

最後對於爬取資料感興趣的小夥伴抓緊去試試,在這裡本人杜絕爬取一切違法的爬取行為,哈哈哈,希望小伙伴知道什麼可爬著玩,什麼不可爬。

以上是JAVA爬取網頁資料之jsoup的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn