Java を使用して Linux 上で Web ページ クローリングを実装するスクリプトを作成する方法には、具体的なコード例が必要です。
日々の仕事や勉強では、 Web ページ上のデータを取得します。 Java を使用して Web ページをクロールするスクリプトを作成するのが一般的な方法です。この記事では、Java を使用して Linux 環境で Web ページをクロールするスクリプトを作成する方法を紹介し、具体的なコード例を示します。
sudo apt-get update sudo apt-get install default-jre
sudo apt-get install default-jdk
インストールが完了したら、次のコマンドを使用してインストールが成功したかどうかを確認します。
java -version javac -version2. 次のコマンドを使用します。 Web ページ クローリング スクリプトを作成するための Java
次は、Java で書かれた簡単な Web ページ クローリング スクリプトの例です:
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.URL; public class WebpageCrawler { public static void main(String[] args) { try { // 定义要抓取的网页地址 String url = "https://www.example.com"; // 创建URL对象 URL webpage = new URL(url); // 打开URL连接 BufferedReader in = new BufferedReader(new InputStreamReader(webpage.openStream())); // 读取网页内容并输出 String inputLine; while ((inputLine = in.readLine()) != null) { System.out.println(inputLine); } // 关闭连接 in.close(); } catch (IOException e) { e.printStackTrace(); } } }
上記のコードは、Java の入力ストリームと出力ストリームおよび URL オブジェクトを介して Web ページ クローリングを実装します。 。まず、クロールする Web ページのアドレスが定義されます。次に、URL 接続を開いて Web ページのコンテンツを読み取るために URL オブジェクトと BufferedReader オブジェクトが作成されます。最後に、入力ストリームのコンテンツがループを通じて読み取られて出力されます。コンソールに。
#Java コードのコンパイル
javac WebpageCrawler.java
Web クローリング スクリプトを実行する
java WebpageCrawler
概要:
以上がJava を使用して Linux 上で Web ページをクロールするスクリプトを作成する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。