検索
ホームページウェブフロントエンドhtmlチュートリアル【HtmlUnit】高度なWebクローラー_html/css_WEB-ITnose

以前、Yifeng は Jsoup を使用して Web コンテンツをクロールすることについての記事を書きました:

[Jsoup] HTML パーサー、Web コンテンツを簡単に取得します

Jsoup が提供する API は非常に便利で、JQuery の操作と完全に似ており、簡単に Web データをクロールします。ただし、Jsoup のような通常のクローラー ツールの欠点は、js によって生成されたコンテンツを処理できないことです。

HTML 開発を行ったことがある人なら、多くの Web サイトがデータの取得と処理に ajax と JavaScript を使用していることをご存知でしょう。通常のクローラー ツールは、js のコンテンツを処理できなくなりました。

たとえば、新しいテスト Web ページ ファイル text.html をローカルに作成します。ソース コードは次のとおりです:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"><html>    <head>        <title>main.html</title>        <meta http-equiv="keywords" content="keyword1,keyword2,keyword3">        <meta http-equiv="description" content="this is my page">        <meta http-equiv="content-type" content="text/html; charset=UTF-8">    <style type="text/css">        a {            line-height: 30px;            margin: 20px;        }    </style>        <!--<link rel="stylesheet" type="text/css" href="./styles.css">-->        <script type="text/javascript">var datas = [ {    href : "http://www.jianshu.com/p/8d8edf25850d",    title : "推荐一款编程字体,让代码看着更美"}, {    href : "http://www.jianshu.com/p/153d9f31288d",    title : "Android 利用Camera实现中轴3D卡牌翻转效果"}, {    href : "http://www.jianshu.com/p/d6fb0c9c9c26",    title : "【Eclipse】挖掘专属最有用的快捷键组合"}, {    href : "http://www.jianshu.com/p/72d69b49d135",    title : "【IIS】Windows下利用IIS建立网站并实现局域网共享"} ];window.onload = function() {    var infos = document.getElementById("infos");    for( var i = 0 ; i < datas.length ; i++)        {            var a = document.createElement("a");            a.href = datas[i].href ;            a.innerText = datas[i].title;            infos.appendChild(a);                infos.appendChild(document.createElement("br"))        }}</script>    </head>    <body>        <div class="text" style=" text-align:center;">HtmlUnit 测试网页内容!</div>        <br>        <div id="infos"            style="width: 60%; border: 1px solid green; border-radius: 10px; margin: 0 auto;">        </div>    </body></html>

IIS を介してローカル Web サイトを公開します (Yifeng の以前の記事を参照してください: [IIS] IIS を使用して Web サイトを構築する) Windows 上で LAN 共有を実現する)、ブラウザに表示される Web ページの効果は次のとおりです。

Web ページ表示効果.jpg

Web ページのレビュー要素を通して、本文にテキストが含まれていることがわかります。 Web ページ表示のコンテンツ:

Web ページレビュー element.jpg

ただし、Jsoup ツールから取得することは不可能です。 Web ページのソース コードから、クロールする必要があるコンテンツが、ページが表示された後に ajax と JavaScript を通じて読み込まれることがわかります。

それで、私たちは何をすべきでしょうか?この記事で推奨されているオープン ソース ツール、ブラウザをシミュレートできるパケット キャプチャ アーティファクトである HtmlUnit を使用してください。

対応する jar パッケージを公式 Web サイトからダウンロードし、プロジェクトのライブラリに追加します。 簡単なテスト コードは次のとおりです:

import java.io.IOException;import java.net.MalformedURLException;import java.text.ParseException;import com.gargoylesoftware.htmlunit.BrowserVersion;import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;import com.gargoylesoftware.htmlunit.WebClient;import com.gargoylesoftware.htmlunit.html.DomElement;import com.gargoylesoftware.htmlunit.html.DomNodeList;import com.gargoylesoftware.htmlunit.html.HtmlPage;/** * @author 亦枫 * @created_time 2016年1月12日 * @file_user_todo Java测试类 * @blog http://www.jianshu.com/users/1c40186e3248/latest_articles */public class JavaTest {    /**     * 入口函数     * @param args     * @throws ParseException     */    public static void main(String[] args) throws ParseException {        try {            WebClient webClient = new WebClient(BrowserVersion.CHROME);            HtmlPage htmlPage = (HtmlPage) webClient.getPage("http://localhost/test.html");            DomNodeList domNodeList = htmlPage.getElementsByTagName("a");            for (int i = 0; i < domNodeList.size(); i++) {                DomElement domElement = (DomElement) domNodeList.get(i);                System.out.println(domElement.asText());            }            webClient.close();        } catch (FailingHttpStatusCodeException e) {            e.printStackTrace();        } catch (MalformedURLException e) {            e.printStackTrace();        } catch (IOException e) {            e.printStackTrace();        }    }}

実行後、結果がコンソールに表示されます:

HtmlUnit テストの結果。 jpg

ご覧のとおり、HtmlUnit は AJAX と JavaScript によって読み込まれたコンテンツをキャプチャできます。

HtmlUnit の概要は公式 Web サイトに詳しく書かれています。以下の内容は Yifeng による翻訳の一部です。

HtmlUnit は、グラフィカル インターフェイスを持たない Java ベースのブラウザ プログラムです。 HTML ドキュメントを呼び出し、開発者が通常のブラウザで操作するのと同じように Web コンテンツにアクセスしたり、フォームに入力したり、ハイパーリンクをクリックしたりできるようにする API を提供できます。

JavaScript を非常によくサポートしており、現在も継続的に改良されています。同時に、非常に複雑な AJAX ライブラリを解析し、さまざまな構成で Chrome、Firefox、IE ブラウザをシミュレートできます。

HtmlUnit は通常、テスト目的と Web サイト情報の取得に使用されます。

HtmlUnit には、ネットワーク リクエストのテストや Web コンテンツの取得のための多くの機能が用意されており、公式 Web サイトまたは他の Web サイトにアクセスして学習して使用できます。

Yifeng WeChat 公開アカウント: Technology Birds のフォローへようこそ。一緒に学び、一緒に進歩しましょう!

テクノロジー Bird_WeChat QR Code.gif

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
&lt; Progress&gt;の目的は何ですか 要素?&lt; Progress&gt;の目的は何ですか 要素?Mar 21, 2025 pm 12:34 PM

この記事では、HTML&lt; Progress&gt;について説明します。要素、その目的、スタイリング、および&lt; meter&gt;との違い要素。主な焦点は、&lt; Progress&gt;を使用することです。タスクの完了と&lt; Meter&gt; statiの場合

&lt; datalist&gt;の目的は何ですか 要素?&lt; datalist&gt;の目的は何ですか 要素?Mar 21, 2025 pm 12:33 PM

この記事では、HTML&lt; Datalist&GT;について説明します。オートコンプリートの提案を提供し、ユーザーエクスペリエンスの改善、エラーの削減によりフォームを強化する要素。

&lt; meter&gt;の目的は何ですか 要素?&lt; meter&gt;の目的は何ですか 要素?Mar 21, 2025 pm 12:35 PM

この記事では、html&lt; meter&gt;について説明します。要素は、範囲内でスカラーまたは分数値を表示するために使用され、Web開発におけるその一般的なアプリケーション。それは差別化&lt; Meter&gt; &lt; Progress&gt;およびex

ビューポートメタタグとは何ですか?レスポンシブデザインにとってなぜそれが重要なのですか?ビューポートメタタグとは何ですか?レスポンシブデザインにとってなぜそれが重要なのですか?Mar 20, 2025 pm 05:56 PM

この記事では、モバイルデバイスのレスポンシブWebデザインに不可欠なViewportメタタグについて説明します。適切な使用により、最適なコンテンツのスケーリングとユーザーの相互作用が保証され、誤用が設計とアクセシビリティの問題につながる可能性があることを説明しています。

HTML5&lt; time&gt;を使用するにはどうすればよいですか 日付と時刻を意味的に表す要素?HTML5&lt; time&gt;を使用するにはどうすればよいですか 日付と時刻を意味的に表す要素?Mar 12, 2025 pm 04:05 PM

この記事では、html5&lt; time&gt;について説明します。セマンティックデート/時刻表現の要素。 人間の読み取り可能なテキストとともに、マシンの読みやすさ(ISO 8601形式)のDateTime属性の重要性を強調し、Accessibilitを増やします

HTML5のクロスブラウザー互換性のベストプラクティスは何ですか?HTML5のクロスブラウザー互換性のベストプラクティスは何ですか?Mar 17, 2025 pm 12:20 PM

記事では、HTML5クロスブラウザーの互換性を確保するためのベストプラクティスについて説明し、機能検出、プログレッシブエンハンスメント、およびテスト方法に焦点を当てています。

HTML5フォーム検証属性を使用してユーザー入力を検証するにはどうすればよいですか?HTML5フォーム検証属性を使用してユーザー入力を検証するにはどうすればよいですか?Mar 17, 2025 pm 12:27 PM

この記事では、ブラウザのユーザー入力を直接検証するために、必要、パターン、MIN、MAX、および長さの制限などのHTML5フォーム検証属性を使用して説明します。

&lt; iframe&gt;の目的は何ですか タグ?使用する際のセキュリティ上の考慮事項は何ですか?&lt; iframe&gt;の目的は何ですか タグ?使用する際のセキュリティ上の考慮事項は何ですか?Mar 20, 2025 pm 06:05 PM

この記事では、&lt; iframe&gt;外部コンテンツをWebページ、その一般的な用途、セキュリティリスク、およびオブジェクトタグやAPIなどの代替案に埋め込む際のタグの目的。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません