零基礎寫Java知乎爬蟲之先拿百度首頁練練手-java教程-PHP中文網

首頁

Java

java教程

零基礎寫Java知乎爬蟲之先拿百度首頁練練手

黄舟

Dec 24, 2016 am 11:11 AM

上一集我們說到需要用Java來製作一個知乎爬蟲，那麼這次，我們就來研究一下如何使用程式碼取得到網頁的內容。

首先，沒有HTML和CSS和JS和AJAX經驗的建議先去W3C（點我點我）小小的了解一下。

說到HTML，這裡就牽涉到一個GET存取和POST存取的問題。

如果對這個方面缺乏了解可以閱讀W3C的這篇：《GET對比POST》。

啊哈，在此不再贅述。

然後咧，接下來我們需要用Java來爬取一個網頁的內容。

這時候，我們的百度就要派上用場了。

沒錯，他不再是那個默默無聞的網速測試器了，他即將成為我們的爬蟲小白鼠！ ~

我們先來看看百度的首頁：

零基礎寫Java知乎爬蟲之先拿百度首頁練練手

相信大家都知道，現在這樣的一個頁面，是HTML和CSS共同工作的結果。

我們在瀏覽器中右鍵點擊頁面，選擇「查看頁面原始碼」：

零基礎寫Java知乎爬蟲之先拿百度首頁練練手

沒錯，就是這一坨翔一樣的東西。這就是百度頁面的原始碼。

接下來我們的任務，就是使用我們的爬蟲也獲得到一樣的東西。

先來看一段簡單的源碼：

import java.io.*;
import java.net.*;
public class Main {
 public static void main(String[] args) {
  // 定义即将访问的链接
  String url = "http://www.baidu.com";
  // 定义一个字符串用来存储网页内容
  String result = "";
  // 定义一个缓冲字符输入流
  BufferedReader in = null;
  try {
   // 将string转成url对象
   URL realUrl = new URL(url);
   // 初始化一个链接到那个url的连接
   URLConnection connection = realUrl.openConnection();
   // 开始实际的连接
   connection.connect();
   // 初始化 BufferedReader输入流来读取URL的响应
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用来临时存储抓取到的每一行的数据
   String line;
   while ((line = in.readLine()) != null) {
    //遍历抓取到的每一行并将其存储到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("发送GET请求出现异常！" + e);
   e.printStackTrace();
  }
  // 使用finally来关闭输入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  System.out.println(result);
 }
}

以上就是Java模擬Get訪問百度的Main方法，

可以運行一下看看結果：

，和我們前面用啊哈瀏覽器看到的一模一樣。至此，一個最簡單的爬蟲就算是做好了。

但是這麼一大坨東西未必都是我想要的啊，怎麼從中抓取出我想要的東西呢？

以百度的大爪子Logo為例。

臨時需求：

取得百度Logo的大爪子的圖片連結。

先說一下瀏覽器的查看方法。

滑鼠對圖片右鍵，選擇審查元素（火狐，Google，IE11，均有此功能，只是名字不太一樣）：

零基礎寫Java知乎爬蟲之先拿百度首頁練練手

啊哈，可以看到在一大堆div的圍攻下的可憐的img標籤。

這個src就是圖片的連結了。

那麼在java中我們怎麼搞呢？

事先說明，為了方便示範程式碼，所有程式碼均未作類封裝，還請諒解。

我們先把前面的程式碼封裝成一個sendGet函數：

import java.io.*;
import java.net.*;
public class Main {
 static String sendGet(String url) {
  // 定义一个字符串用来存储网页内容
  String result = "";
  // 定义一个缓冲字符输入流
  BufferedReader in = null;
  try {
   // 将string转成url对象
   URL realUrl = new URL(url);
   // 初始化一个链接到那个url的连接
   URLConnection connection = realUrl.openConnection();
   // 开始实际的连接
   connection.connect();
   // 初始化 BufferedReader输入流来读取URL的响应
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用来临时存储抓取到的每一行的数据
   String line;
   while ((line = in.readLine()) != null) {
    // 遍历抓取到的每一行并将其存储到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("发送GET请求出现异常！" + e);
   e.printStackTrace();
  }
  // 使用finally来关闭输入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 public static void main(String[] args) {
  // 定义即将访问的链接
  String url = "http://www.baidu.com";
  // 访问链接并获取页面内容
  String result = sendGet(url);
  System.out.println(result);
 }
}

這樣看起來稍微整潔了一點，請原諒我這個強迫症。

接下來的任務，就是從獲取到的一大堆東西裡面找到那個圖片的連結。

我們首先可以想到的方法，是對頁面原始碼的字串result使用indexof函數進行String的子字串搜尋。

沒錯這個方法是可以慢慢解決這個問題，例如直接indexOf("src")找到開始的序號，然後再稀裡嘩啦的搞到結束的序號。

不過我們不能一直使用這種方法，畢竟草鞋只適合出門走走，後期還是需要切假腿來拿人頭的。

請原諒我的亂入，繼續。

那我們用什麼方式來尋找這張圖片的src呢？

沒錯，正如下面觀眾所說，正則匹配。

如果有同學不太清楚正規則，可以參考這篇文章：[Python]網路爬蟲（七）：Python中的正規表示式教學。

簡單來說，正規就像是匹配。

例如三個胖子站在這裡，分別穿著紅衣服，藍衣服，綠衣服。

正則是：抓住那個穿綠衣服的！

然後把綠胖子單獨抓了出來。

就是這麼簡單。

但是正規的語法卻還是博大精深的，剛接觸的時候難免有點摸不著頭腦，

向大家推荐一個正則的在線測試工具：正則表達式在線測試。

有了正規這個神兵利器，那麼怎麼在java裡面使用正規呢？

以上就是零基礎寫Java知乎爬蟲之先拿百度首頁練練手的內容，更多相關內容請關注PHP中文網（www.php.cn）！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

如何將Maven或Gradle用於高級Java項目管理，構建自動化和依賴性解決方案？Mar 17, 2025 pm 05:46 PM

本文討論了使用Maven和Gradle進行Java項目管理，構建自動化和依賴性解決方案，以比較其方法和優化策略。

如何使用適當的版本控制和依賴項管理創建和使用自定義Java庫（JAR文件）？Mar 17, 2025 pm 05:45 PM

本文使用Maven和Gradle之類的工具討論了具有適當的版本控制和依賴關係管理的自定義Java庫（JAR文件）的創建和使用。

如何使用咖啡因或Guava Cache等庫在Java應用程序中實現多層緩存？Mar 17, 2025 pm 05:44 PM

本文討論了使用咖啡因和Guava緩存在Java中實施多層緩存以提高應用程序性能。它涵蓋設置，集成和績效優勢，以及配置和驅逐政策管理最佳PRA

如何將JPA（Java持久性API）用於具有高級功能（例如緩存和懶惰加載）的對象相關映射？Mar 17, 2025 pm 05:43 PM

本文討論了使用JPA進行對象相關映射，並具有高級功能，例如緩存和懶惰加載。它涵蓋了設置，實體映射和優化性能的最佳實踐，同時突出潛在的陷阱。[159個字符]

Java的類負載機制如何起作用，包括不同的類載荷及其委託模型？Mar 17, 2025 pm 05:35 PM

Java的類上載涉及使用帶有引導，擴展程序和應用程序類負載器的分層系統加載，鏈接和初始化類。父代授權模型確保首先加載核心類別，從而影響自定義類LOA

如何將Java的RMI（遠程方法調用）用於分佈式計算？Mar 11, 2025 pm 05:53 PM

本文解釋了用於構建分佈式應用程序的Java的遠程方法調用（RMI）。它詳細介紹了接口定義，實現，註冊表設置和客戶端調用，以解決網絡問題和安全性等挑戰。

如何使用Java的插座API進行網絡通信？Mar 11, 2025 pm 05:53 PM

本文詳細介紹了用於網絡通信的Java的套接字API，涵蓋了客戶服務器設置，數據處理和關鍵考慮因素，例如資源管理，錯誤處理和安全性。它還探索了性能優化技術，我

如何在Java中創建自定義網絡協議？Mar 11, 2025 pm 05:52 PM

本文詳細介紹了創建自定義Java網絡協議。它涵蓋協議定義（數據結構，框架，錯誤處理，版本控制），實現（使用插座），數據序列化和最佳實踐（效率，安全性，維護

See all articles

熱AI工具

熱工具

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中，你可以繼續在那裡關注我們。 MinGW：GNU編譯器集合（GCC）的本機Windows移植版本，可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔；包括對MSVC執行時間的擴展，以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

mPDF是一個PHP庫，可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件，並處理不同的語言。與原始腳本如HTML2FPDF相比，它的速度較慢，並且在使用Unicode字體時產生的檔案較大，但支援CSS樣式等，並進行了大量增強。支援幾乎所有語言，包括RTL（阿拉伯語和希伯來語）和CJK（中日韓）。支援嵌套的區塊級元素（如P、DIV），