検索
ホームページJava&#&チュートリアルJava API開発におけるWebスクレイピングのためのHtmlUnitの使用

Java API 開発における Web スクレイピングに HtmlUnit を使用する

Web スクレイピングは、現代のインターネット アプリケーション設計で一般的に使用されるテクノロジであり、多くの Web サイト データ分析およびマイニングにとって重要なツールでもあります。 Java API 開発では、HtmlUnit ライブラリを使用して Web スクレイピング タスクを簡単に完了できます。

HtmlUnit は Java で書かれたインターフェースのないブラウザで、ブラウザの動作をシミュレートし、ユーザーのように Web ページにアクセスし、ページのコンテンツを取得できます。同時に、HtmlUnit は JavaScript のサポートも提供します。これにより、ページ上でスクリプトを実行し、より複雑な操作を実行できます。

この記事では、HtmlUnit をインストールして設定するところから、Web スクレイピングに HtmlUnit を使用する方法を紹介します。次に、HtmlUnit を使用して Web サイトにアクセスし、ページのコンテンツを取得する方法を示します。最後に、HtmlUnit を使用して Web アプリケーションをテストする方法を見ていきます。

HtmlUnit のインストールと構成

HtmlUnit を使用するには、まず Java プロジェクトに追加する必要があります。 HtmlUnit は Maven 統合依存関係ライブラリから取得できます。pom.xml に次の依存関係を追加するだけです:

<dependency>
    <groupId>net.sourceforge.htmlunit</groupId>
    <artifactId>htmlunit</artifactId>
    <version>2.50</version>
</dependency>

コードでは、HtmlUnit の関連クラスをインポートする必要があります:

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

Web サイトにアクセスしてページのコンテンツを取得します

#HtmlUnit を使用すると、Web サイトに簡単にアクセスしてページのコンテンツを取得できます。次のコード スニペットは、HtmlUnit を使用して baidu.com にアクセスし、ページのタイトルを取得する方法を示しています。

try (WebClient webClient = new WebClient()) {
    HtmlPage page = webClient.getPage("http://www.baidu.com");
    String title = page.getTitleText();
    System.out.println(title);
}

この例では、ブラウザの動作をシミュレートする WebClient オブジェクトを作成し、 getPage() メソッドを使用して、ページの HtmlPage オブジェクトを取得します。次に、 getTitleText() メソッドを使用してページのタイトルを取得します。

ページのタイトルを取得することに加えて、ページの HTML コンテンツも取得できます。次のコード スニペットは、Baidu ホームページの HTML コンテンツを取得する方法を示しています。

try (WebClient webClient = new WebClient()) {
    HtmlPage page = webClient.getPage("http://www.baidu.com");
    String content = page.asXml();
    System.out.println(content);
}

この例では、asXml() メソッドを使用してページの HTML コンテンツを取得します。

JavaScript の実行

HtmlUnit は、静的なページ コンテンツを取得するだけでなく、ページ上で JavaScript コードを実行することもできます。最近のほとんどの Web サイトでは JavaScript が不可欠な部分となっており、多くの Web サイトの中核機能は JavaScript に基づいています。次のコードは、HtmlUnit を使用して単純な JavaScript スクリプトを実行する方法を示しています。

try (WebClient webClient = new WebClient()) {
    String script = "var x = 1 + 1; x;";
    Object result = webClient.executeJavaScript(script).getJavaScriptResult();
    System.out.println(result);
}

この例では、1 1 の結果を変数 x に代入し、x を返す単純な JavaScript スクリプトを作成します。このスクリプトを実行するにはexecuteJavaScript()メソッドを使用し、スクリプトの実行結果を取得するにはgetJavaScriptResult()メソッドを使用しました。

Web アプリケーションのテスト

最後に、HtmlUnit を使用して Web アプリケーションをテストする方法を見てみましょう。 Web アプリケーションをテストするときは、フォームの入力やボタンのクリックなどのユーザーの動作をシミュレートする必要があります。次のコードは、HtmlUnit を使用して単純なログイン ページをテストする方法を示しています。

try (WebClient webClient = new WebClient()) {
    HtmlPage page = webClient.getPage("http://localhost:8080/login");
    HtmlForm form = page.getForms().get(0);
    form.getInputByName("username").setValueAttribute("admin");
    form.getInputByName("password").setValueAttribute("password");
    HtmlButton submitButton = form.getButtonByName("submit");
    HtmlPage resultPage = submitButton.click();
    assertEquals("http://localhost:8080/home", resultPage.getUrl().toString());
}

この例では、まずログイン ページを開き、次にフォーム要素を取得してユーザー名とパスワードを入力します。次に、送信ボタンを取得してクリックします。最後に、ページの URL が意図したターゲット ページを指しているかどうかを確認します。

結論

HtmlUnit は、Web スクレイピングとテストを簡単にする強力なツールです。 HtmlUnit を使用すると、Web サイトのコンテンツをすばやく取得し、JavaScript スクリプトを実行し、Web アプリケーションをテストできます。 HtmlUnit の基本的な使い方を理解することは、理論的な知識の蓄積であるだけでなく、実際のプログラミングにおいても非常に有用で必要なスキルです。

以上がJava API開発におけるWebスクレイピングのためのHtmlUnitの使用の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
JVMは、さまざまなプラットフォームでガベージコレクションをどのように管理していますか?JVMは、さまざまなプラットフォームでガベージコレクションをどのように管理していますか?Apr 28, 2025 am 12:23 AM

jvmmanagesgarbagecollectionacrossplatformseftivivivivitybyusagenerationalaphadadadaptingtosandhardwaredefferences.itemployscollectorslikeserial、parallel、cms、andg1、各sutitedfordifferentscenarios

なぜJavaコードは変更せずに異なるオペレーティングシステムで実行できるのですか?なぜJavaコードは変更せずに異なるオペレーティングシステムで実行できるのですか?Apr 28, 2025 am 12:14 AM

Javaは、Javaの「Write and Averywherewhere」という哲学がJava Virtual Machine(JVM)によって実装されているため、変更なしで異なるオペレーティングシステムで実行できます。コンパイルされたJavaバイトコードとオペレーティングシステムの間の仲介者として、JVMはバイトコードを特定のマシン命令に変換し、JVMがインストールされた任意のプラットフォームでプログラムが独立して実行できることを確認します。

Javaプログラムをコンパイルして実行するプロセスを説明し、プラットフォームの独立性を強調します。Javaプログラムをコンパイルして実行するプロセスを説明し、プラットフォームの独立性を強調します。Apr 28, 2025 am 12:08 AM

Javaプログラムの編集と実行は、BytecodeとJVMを通じ​​てプラットフォームの独立性を達成します。 1)Javaソースコードを書き、それをbytecodeにコンパイルします。 2)JVMを使用して、任意のプラットフォームでByteCodeを実行して、コードがプラットフォーム間で実行されるようにします。

基礎となるハードウェアアーキテクチャは、Javaのパフォーマンスにどのように影響しますか?基礎となるハードウェアアーキテクチャは、Javaのパフォーマンスにどのように影響しますか?Apr 28, 2025 am 12:05 AM

Javaのパフォーマンスはハードウェアアーキテクチャと密接に関連しており、この関係を理解することでプログラミング機能を大幅に改善できます。 1)JVMは、CPUアーキテクチャの影響を受けるJITコンピレーションを介して、Java Bytecodeを機械命令に変換します。 2)メモリ管理とゴミ収集は、RAMとメモリバスの速度の影響を受けます。 3)キャッシュとブランチ予測Javaコードの実行を最適化します。 4)マルチスレッドと並列処理がマルチコアシステムのパフォーマンスを改善します。

ネイティブライブラリがJavaのプラットフォームの独立性を破ることができる理由を説明してください。ネイティブライブラリがJavaのプラットフォームの独立性を破ることができる理由を説明してください。Apr 28, 2025 am 12:02 AM

ネイティブライブラリを使用すると、これらのライブラリはオペレーティングシステムごとに個別にコンパイルする必要があるため、Javaのプラットフォームの独立性が破壊されます。 1)ネイティブライブラリはJNIを介してJavaと対話し、Javaが直接実装できない機能を提供します。 2)ネイティブライブラリを使用すると、プロジェクトの複雑さが増し、さまざまなプラットフォームのライブラリファイルの管理が必要です。 3)ネイティブライブラリはパフォーマンスを改善できますが、それらは注意して使用し、クロスプラットフォームテストを実施する必要があります。

JVMはオペレーティングシステムAPIの違いをどのように処理しますか?JVMはオペレーティングシステムAPIの違いをどのように処理しますか?Apr 27, 2025 am 12:18 AM

JVMは、JavanativeInterface(JNI)およびJava Standard Libraryを介してオペレーティングシステムのAPIの違いを処理します。1。JNIでは、Javaコードがローカルコードを呼び出し、オペレーティングシステムAPIと直接対話できます。 2. Java Standard Libraryは統一されたAPIを提供します。これは、異なるオペレーティングシステムAPIに内部的にマッピングされ、コードがプラットフォーム間で実行されるようにします。

Java 9で導入されたモジュール性は、プラットフォームの独立性にどのように影響しますか?Java 9で導入されたモジュール性は、プラットフォームの独立性にどのように影響しますか?Apr 27, 2025 am 12:15 AM

modularitydoesnotdirectlyectlyectjava'splatformindepensence.java'splatformendepenceismaindainededainededainededaindainedaindained bythejvm、butmodularityinfluencesApplucationStructure andmanagement、間接的なインパクチャプラット形成依存性.1)

ByteCodeとは何ですか?また、Javaのプラットフォームの独立性とどのように関係していますか?ByteCodeとは何ですか?また、Javaのプラットフォームの独立性とどのように関係していますか?Apr 27, 2025 am 12:06 AM

bytecodeinjavaisthe intermediaterepresentationthateNablesplatformindepence.1)javacodeis compiledintobytecodestoredin.classfiles.2)thejvminterpretsorcompilesthisbytecodeintomachinecodeatime、

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター