Javaクローラーの解析例-＆＃＆チュートリアル-php.cn

ホームページ

Java

＆＃＆チュートリアル

Javaクローラーの解析例

黄舟

Sep 16, 2017 am 10:48 AM

java事例分析爬虫類

まず、この記事を読んだ後、マスターになれることを保証するものではありませんが、クローラーとは何か、クローラーの使用方法、http プロトコルを使用して他の人のシステムに侵入する方法を理解することができます。もちろん、これは単なる簡単なチュートリアルであり、いくつかの簡単なデータを取得できます。

コードから始めて、ステップごとに説明しましょう:

これはツールクラスです。 http リクエストを送信するためのツールクラスはインターネット上のどこにでも見つかります。 -------------区切り線

トピックに入りましょう: まず、Web サイトのログインページをクロールし、ページのソースコードを確認し、ログイン要求を送信するためのメソッド名。一般に、小規模な Web サイトでは from surface アクションに直接記述されるため、簡単に見つけることができますが、中規模の Web サイトではこれは記述されません。非常に簡単ですが、見つけるのに少し手間がかかります。 js にある場合もあれば、このページにない場合もあります。大規模な Web サイトの場合は、パケットキャプチャツールを使用して、キャプチャされたリクエスト情報を確認することをお勧めします。ブラウザに付属の f12 を押しても、すぐにログイン情報が取得できませんでした。最終的に、JD.com のログインインターフェイスを取得することができました。インターフェースアドレス; コードをアップロードしました

String data =HttpPosts.sendGet(ログインアドレス (パラメータなし; 文字列型アドレス), パラメータ (user_id=6853&export=112)); (返されるログインステータスは通常、json 形式です)ログインに成功したかどうかがカウントされます。状況に応じて true のものもあれば、1 のものもある) 取得または投稿を選択し、ログインページのリクエストを真似します

次に、Cookie を取得するための別のリクエストを作成します

package com.df.util;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLConnection;
import java.util.List;
import java.util.Map;
import org.apache.log4j.Logger;
import org.jsoup.Connection;
import org.jsoup.Connection.Method;
import org.jsoup.Connection.Response;
import org.jsoup.Jsoup;
import com.df.controller.DFContorller;
public class HttpPosts {
    private final static Logger logger = Logger.getLogger(DFContorller.class);
    public static String sendPost(String url, String param) {
        PrintWriter out = null;
        BufferedReader in = null;
        String result = "";
        try {
            URL realUrl = new URL(url);
            // 打开和URL之间的连接
            URLConnection conn = realUrl.openConnection();
            // 设置通用的请求属性
            conn.setRequestProperty("accept", "*/*");
            conn.setRequestProperty("connection", "Keep-Alive");
            conn.setRequestProperty("user-agent",
                    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
            // 发送POST请求必须设置如下两行
            conn.setDoOutput(true);
            conn.setDoInput(true);
            // 获取URLConnection对象对应的输出流
            out = new PrintWriter(conn.getOutputStream());
            // 发送请求参数
            out.print(param);
            // flush输出流的缓冲
            out.flush();
            // 定义BufferedReader输入流来读取URL的响应
            in = new BufferedReader(
                    new InputStreamReader(conn.getInputStream(),"utf-8"));
            String line;
            while ((line = in.readLine()) != null) {
                result += line;
            }
        } catch (Exception e) {
            logger.info("发送 POST 请求出现异常！"+e);
            e.printStackTrace();
        }
        //使用finally块来关闭输出流、输入流
        finally{
            try{
                if(out!=null){
                    out.close();
                }
                if(in!=null){
                    in.close();
                }
            }
            catch(IOException ex){
                ex.printStackTrace();
            }
        }
        return result;
    }  
    
    
      public static String sendGet(String url, String param) {
            String result = "";
            BufferedReader in = null;
            try {
                String urlNameString = url + "?" + param;
                URL realUrl = new URL(urlNameString);
                // 打开和URL之间的连接
                URLConnection connection = realUrl.openConnection();
                // 设置通用的请求属性
                connection.setRequestProperty("accept", "*/*");
                connection.setRequestProperty("connection", "Keep-Alive");
                connection.setRequestProperty("user-agent",
                        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
                connection.setRequestProperty("Cookie","PHPSESSID=27roc4d0ccd2cg4jbht80k8km2");
                // 建立实际的连接
                connection.connect();
                // 获取所有响应头字段
                Map<String, List<String>> map = connection.getHeaderFields();
                // 遍历所有的响应头字段
                for (String key : map.keySet()) {
                    System.out.println(key + "--->" + map.get(key));
                }
                // 定义 BufferedReader输入流来读取URL的响应
                in = new BufferedReader(new InputStreamReader(
                        connection.getInputStream(),"utf-8"));
                String line;
                while ((line = in.readLine()) != null) {
                    result += line;
                }
            } catch (Exception e) {
                System.out.println("发送GET请求出现异常！" + e);
                e.printStackTrace();
            }
            // 使用finally块来关闭输入流
            finally {
                try {
                    if (in != null) {
                        in.close();
                    }
                } catch (Exception e2) {
                    e2.printStackTrace();
                }
            }
            return result;
       }       
}

get メソッドまたは post メソッドに動的に渡される Cookie について話し、ハードコーディングされた Cookie を置き換えます。これはテストであるため、Cookie は動的に書き込むことができます

その後、それを削除する必要があります。ログイン後のページ、ホームページ、またはデータページには Cookie と http リクエストの基本パラメータ情報が含まれている必要があります。そうでない場合は、確実にインターセプトされます。

String data=HttpPosts.sendGet(ログインアドレス(パラメータなし; 文字列型アドレス), パラメータ(例: user_id=6853&export=112)); 今回のアクセス方法は上記と同じで、ページが返されます。反対側にデータインターフェイスが見つかった場合は、そのインターフェイスに直接アクセスでき、データが直接返されます。そうでない場合は、そのページを解析する必要があります。これは非常に面倒です。 Jsoup は通常、ページを解析するために使用されます。

実際、これは別の種類の侵入であり、相手のインターフェイスドキュメントを知る必要はありません。http プロトコルを使用して相手のサーバーに直接アクセスできます。

以上がJavaクローラーの解析例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

JVMは、さまざまなプラットフォームでガベージコレクションをどのように管理していますか？Apr 28, 2025 am 12:23 AM

jvmmanagesgarbagecollectionacrossplatformseftivivivivitybyusagenerationalaphadadadaptingtosandhardwaredefferences.itemployscollectorslikeserial、parallel、cms、andg1、各sutitedfordifferentscenarios

なぜJavaコードは変更せずに異なるオペレーティングシステムで実行できるのですか？Apr 28, 2025 am 12:14 AM

Javaは、Javaの「Write and Averywherewhere」という哲学がJava Virtual Machine（JVM）によって実装されているため、変更なしで異なるオペレーティングシステムで実行できます。コンパイルされたJavaバイトコードとオペレーティングシステムの間の仲介者として、JVMはバイトコードを特定のマシン命令に変換し、JVMがインストールされた任意のプラットフォームでプログラムが独立して実行できることを確認します。

Javaプログラムをコンパイルして実行するプロセスを説明し、プラットフォームの独立性を強調します。Apr 28, 2025 am 12:08 AM

Javaプログラムの編集と実行は、BytecodeとJVMを通じてプラットフォームの独立性を達成します。 1）Javaソースコードを書き、それをbytecodeにコンパイルします。 2）JVMを使用して、任意のプラットフォームでByteCodeを実行して、コードがプラットフォーム間で実行されるようにします。

基礎となるハードウェアアーキテクチャは、Javaのパフォーマンスにどのように影響しますか？Apr 28, 2025 am 12:05 AM

Javaのパフォーマンスはハードウェアアーキテクチャと密接に関連しており、この関係を理解することでプログラミング機能を大幅に改善できます。 1）JVMは、CPUアーキテクチャの影響を受けるJITコンピレーションを介して、Java Bytecodeを機械命令に変換します。 2）メモリ管理とゴミ収集は、RAMとメモリバスの速度の影響を受けます。 3）キャッシュとブランチ予測Javaコードの実行を最適化します。 4）マルチスレッドと並列処理がマルチコアシステムのパフォーマンスを改善します。

ネイティブライブラリがJavaのプラットフォームの独立性を破ることができる理由を説明してください。Apr 28, 2025 am 12:02 AM

ネイティブライブラリを使用すると、これらのライブラリはオペレーティングシステムごとに個別にコンパイルする必要があるため、Javaのプラットフォームの独立性が破壊されます。 1）ネイティブライブラリはJNIを介してJavaと対話し、Javaが直接実装できない機能を提供します。 2）ネイティブライブラリを使用すると、プロジェクトの複雑さが増し、さまざまなプラットフォームのライブラリファイルの管理が必要です。 3）ネイティブライブラリはパフォーマンスを改善できますが、それらは注意して使用し、クロスプラットフォームテストを実施する必要があります。

JVMはオペレーティングシステムAPIの違いをどのように処理しますか？Apr 27, 2025 am 12:18 AM

JVMは、JavanativeInterface（JNI）およびJava Standard Libraryを介してオペレーティングシステムのAPIの違いを処理します。1。JNIでは、Javaコードがローカルコードを呼び出し、オペレーティングシステムAPIと直接対話できます。 2. Java Standard Libraryは統一されたAPIを提供します。これは、異なるオペレーティングシステムAPIに内部的にマッピングされ、コードがプラットフォーム間で実行されるようにします。

Java 9で導入されたモジュール性は、プラットフォームの独立性にどのように影響しますか？Apr 27, 2025 am 12:15 AM

modularitydoesnotdirectlyectlyectjava'splatformindepensence.java'splatformendepenceismaindainededainededainededaindainedaindained bythejvm、butmodularityinfluencesApplucationStructure andmanagement、間接的なインパクチャプラット形成依存性.1）

ByteCodeとは何ですか？また、Javaのプラットフォームの独立性とどのように関係していますか？Apr 27, 2025 am 12:06 AM

bytecodeinjavaisthe intermediaterepresentationthateNablesplatformindepence.1）javacodeis compiledintobytecodestoredin.classfiles.2）thejvminterpretsorcompilesthisbytecodeintomachinecodeatime、

See all articles