ホームページ  >  記事  >  Java  >  JAVAがWebページデータをクロールするjsoup

JAVAがWebページデータをクロールするjsoup

TmDGl
TmDGlオリジナル
2020-04-29 18:13:08168ブラウズ

近年出てきたクローリングデータですが、ほとんどの人がPythonを使ってクローリングを行っています。 Java がデータ クローリングも実行できることをまだ知らない人もいます。次に、編集者が Java を使用した Web ページ データのクロールに関する記事を共有します。

データをクロールする意味は、リクエストによって返されたページ情報を取得し、必要なデータをフィルターで除外することです。

それでは、簡単に説明します:

1. 環境の準備

ツールが Eclipse または IDEA の場合

Maven を設定する

2. jsoup 関連の依存関係をインポートする

soup

public static void main( String[] args) throws Exception { Scanner sc = new Scanner(System.in); System.out.println("検索キーワードを入力してください!!!"); // URL を取得します。 request、ここで自分でリクエストを見つけます String url = "https://search.xx.com/Search?keyword="+input; // Web ページを解析します (ここで jsoup によって返されるドキュメントはページ ドキュメント オブジェクトです) ドキュメント ドキュメント= Jsoup.parse(new URL(url), 30000); //ここでは js のすべてのメソッドを使用できます。ここでは、クロール対象の div 要素要素の ID を取得します。 = document.getElementById("x_goodsList"); out.println(element.html()); //クロール対象の div 内のすべての li タグを取得します。 Elements = document.getElementsByTag("li"); // li タグ内のすべてのコンテンツをスキャンします。 elements){

//多くの画像をクロールする Web サイトでは遅延読み込みが使用されることがあります。取得する属性は src ではなく Source-Data-Lazy-IMG です

/ *

IMG はクローリングの画像です

String img = el.getElementsByTag("img").eq(0).attr("src" ); 文字列価格 = el.getElementsByClass("p-price").eq(0).text(); 文字列名 = el.getElementsByClass("p-name").eq(0).text(); out.println("====================== ===); 違法なクローリング行為はここで止めます、ハハハ、友達に何ができるかを知ってもらいたいですクロールできるものとクロールできないもの。

以上がJAVAがWebページデータをクロールするjsoupの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。