關於近些年興起的爬取數據,其中大部分人都是使用Python來進行爬取。對於有些人來講,還是不知道Java也可以進行資料爬取的。那接下來小編要跟大家分享一篇關於Java爬取網頁資料的文章。
爬取數據的含義就是獲取請求返回的頁面信息,篩選出我們想要的數據就可以了。
那麼長話短說我們下面開始:
1.環境準備
#工具的話是eclipse或IDEA
配置好maven
#2 .導入jsoup相關依賴
3.開始建立一個專案寫程式碼,小編程式碼如下:
public static void main(String[] args) throws Exception { Scanner sc = new Scanner(System.in) ; System.out.println("請輸入搜尋的關鍵字!!!"); String input = sc.next(); //取得url請求,這裡的請求自己去找 String url = "https://search .xx.com/Search?keyword=" input; //解析網頁(此處jsoup返回的document,就是頁面document物件) Document document = Jsoup.parse(new URL(url), 30000); //所有js中的方法這裡都能夠使用,這裡是取得爬取目標div中的id Element element = document.getElementById("x_goodsList"); System.out.println(element.html()); //////////////////////////////////////////////////////////////////////////////////」的所有的li標籤 Elements elements = document.getElementsByTag("li"); //遍歷li標籤裡面的所有內容 for(Element el : elements){
網站,都是採用延遲載入的。取得的屬性是 source-data-lazy-img而非src
# /*
img 是爬取的圖片,
### name是爬取的商品名稱
*/
String img = el.getElementsByTag(遠price = el.getElementsByClass("p-price").eq(0).text(); String name = el.getElementsByClass("p-name").eq(0).text(); ("========================"); System.out.println(img); System.out.println(price); System.out .println(name); }
最後對於爬取資料感興趣的小夥伴抓緊去試試,在這裡本人杜絕爬取一切違法的爬取行為,哈哈哈,希望小伙伴知道什麼可爬著玩,什麼不可爬。
以上是JAVA爬取網頁資料之jsoup的詳細內容。更多資訊請關注PHP中文網其他相關文章!