近年出てきたクローリングデータですが、ほとんどの人がPythonを使ってクローリングを行っています。 Java がデータ クローリングも実行できることをまだ知らない人もいます。次に、編集者が Java を使用した Web ページ データのクロールに関する記事を共有します。
データをクロールする意味は、リクエストによって返されたページ情報を取得し、必要なデータをフィルターで除外することです。
それでは、簡単に説明します:
1. 環境の準備
ツールが Eclipse または IDEA の場合
Maven を設定する
2. jsoup 関連の依存関係をインポートする
soup groupId>
public static void main( String[] args) throws Exception { Scanner sc = new Scanner(System.in); System.out.println("検索キーワードを入力してください!!!"); // URL を取得します。 request、ここで自分でリクエストを見つけます String url = "https://search.xx.com/Search?keyword="+input; // Web ページを解析します (ここで jsoup によって返されるドキュメントはページ ドキュメント オブジェクトです) ドキュメント ドキュメント= Jsoup.parse(new URL(url), 30000); //ここでは js のすべてのメソッドを使用できます。ここでは、クロール対象の div 要素要素の ID を取得します。 = document.getElementById("x_goodsList"); out.println(element.html()); //クロール対象の div 内のすべての li タグを取得します。 Elements = document.getElementsByTag("li"); // li タグ内のすべてのコンテンツをスキャンします。 elements){ //多くの画像をクロールする Web サイトでは遅延読み込みが使用されることがあります。取得する属性は src ではなく Source-Data-Lazy-IMG です / * IMG はクローリングの画像ですString img = el.getElementsByTag("img").eq(0).attr("src" ); 文字列価格 = el.getElementsByClass("p-price").eq(0).text(); 文字列名 = el.getElementsByClass("p-name").eq(0).text(); out.println("====================== ===); 違法なクローリング行為はここで止めます、ハハハ、友達に何ができるかを知ってもらいたいですクロールできるものとクロールできないもの。
以上がJAVAがWebページデータをクロールするjsoupの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。