Heim  >  Artikel  >  Java  >  Beispielanalyse eines Java-Crawlers

Beispielanalyse eines Java-Crawlers

黄舟
黄舟Original
2017-09-16 10:48:591786Durchsuche

Zuallererst ist die Lektüre dieses Artikels keine Garantie dafür, dass Sie ein Meister werden, aber er kann Ihnen helfen zu verstehen, was ein Crawler ist, wie man einen Crawler verwendet und wie man das http-Protokoll verwendet, um in andere einzudringen Natürlich sind es nur ein paar einfache Tutorials.

Beginnen wir mit dem Code und erklären ihn Schritt für Schritt:

Sie Sie müssen nicht im Detail suchen. Sie können überall im Internet Tool-Klassen finden. Es gibt nur wenige Pakete. ----------------------------------- Trennlinie

package com.df.util;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLConnection;
import java.util.List;
import java.util.Map;
import org.apache.log4j.Logger;
import org.jsoup.Connection;
import org.jsoup.Connection.Method;
import org.jsoup.Connection.Response;
import org.jsoup.Jsoup;
import com.df.controller.DFContorller;
public class HttpPosts {
    private final static Logger logger = Logger.getLogger(DFContorller.class);
    public static String sendPost(String url, String param) {
        PrintWriter out = null;
        BufferedReader in = null;
        String result = "";
        try {
            URL realUrl = new URL(url);
            // 打开和URL之间的连接
            URLConnection conn = realUrl.openConnection();
            // 设置通用的请求属性
            conn.setRequestProperty("accept", "*/*");
            conn.setRequestProperty("connection", "Keep-Alive");
            conn.setRequestProperty("user-agent",
                    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
            // 发送POST请求必须设置如下两行
            conn.setDoOutput(true);
            conn.setDoInput(true);
            // 获取URLConnection对象对应的输出流
            out = new PrintWriter(conn.getOutputStream());
            // 发送请求参数
            out.print(param);
            // flush输出流的缓冲
            out.flush();
            // 定义BufferedReader输入流来读取URL的响应
            in = new BufferedReader(
                    new InputStreamReader(conn.getInputStream(),"utf-8"));
            String line;
            while ((line = in.readLine()) != null) {
                result += line;
            }
        } catch (Exception e) {
            logger.info("发送 POST 请求出现异常!"+e);
            e.printStackTrace();
        }
        //使用finally块来关闭输出流、输入流
        finally{
            try{
                if(out!=null){
                    out.close();
                }
                if(in!=null){
                    in.close();
                }
            }
            catch(IOException ex){
                ex.printStackTrace();
            }
        }
        return result;
    }  
    
    
      public static String sendGet(String url, String param) {
            String result = "";
            BufferedReader in = null;
            try {
                String urlNameString = url + "?" + param;
                URL realUrl = new URL(urlNameString);
                // 打开和URL之间的连接
                URLConnection connection = realUrl.openConnection();
                // 设置通用的请求属性
                connection.setRequestProperty("accept", "*/*");
                connection.setRequestProperty("connection", "Keep-Alive");
                connection.setRequestProperty("user-agent",
                        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
                connection.setRequestProperty("Cookie","PHPSESSID=27roc4d0ccd2cg4jbht80k8km2");
                // 建立实际的连接
                connection.connect();
                // 获取所有响应头字段
                Map<String, List<String>> map = connection.getHeaderFields();
                // 遍历所有的响应头字段
                for (String key : map.keySet()) {
                    System.out.println(key + "--->" + map.get(key));
                }
                // 定义 BufferedReader输入流来读取URL的响应
                in = new BufferedReader(new InputStreamReader(
                        connection.getInputStream(),"utf-8"));
                String line;
                while ((line = in.readLine()) != null) {
                    result += line;
                }
            } catch (Exception e) {
                System.out.println("发送GET请求出现异常!" + e);
                e.printStackTrace();
            }
            // 使用finally块来关闭输入流
            finally {
                try {
                    if (in != null) {
                        in.close();
                    }
                } catch (Exception e2) {
                    e2.printStackTrace();
                }
            }
            return result;
       }       
}

Lasst uns Geben Sie das Thema ein: Zuerst müssen Sie eingeben, die Anmeldeseite der Website crawlen, den Quellcode der Seite anzeigen und den Methodennamen zum Senden der Anmeldeanforderung im Allgemeinen finden. Kleine Websites werden direkt in die Quelle geschrieben Oberflächenaktionen, die nicht so einfach zu finden sind. Es kann sein, dass sie in js gefunden werden. Es wird empfohlen, die Paketerfassung zu verwenden Gehen Sie einmal zum Tool und sehen Sie sich die erfassten Anforderungsinformationen an. Ich habe das mit dem Browser gelieferte f12 verwendet. Es verschwindet blitzschnell . Schließlich habe ich über viele Tricks nachgedacht. Nachdem ich die Anmeldeschnittstellenadresse erhalten habe, lade ich sie hoch Adresse), Parameter (wie zum Beispiel: user_id =6853&export=112)); (Der zurückgegebene Anmeldestatus ist normalerweise im JSON-Format. Es wird gezählt, ob Sie sich erfolgreich angemeldet haben. Einige sind wahr und andere sind 1, abhängig von der Situation) Wählen Sie Get oder Post, um die Anfrage der Anmeldeseite zu imitieren.

Stellen Sie dann eine weitere Anfrage, um das Cookie zu erhalten.

Lassen Sie uns darüber sprechen, dass das Cookie dynamisch an die Get- oder Post-Methode übergeben wird und Ersetzen des hartcodierten Cookies; da es sich um einen Test handelt, ist das Cookie hartcodiert und kann dynamisch geschrieben werden ;

Danach, wenn Sie die Seite nach der Anmeldung besuchen möchten, die Startseite oder die Auf der Datenseite muss sie Cookies und grundlegende Parameterinformationen der http-Anfrage enthalten, andernfalls wird sie definitiv abgefangen.

Connection conn = Jsoup.connect("登录后页面的地址");  
          conn.method(Method.GET);  
          conn.followRedirects(false);  
          Response response = conn.execute();  
          System.out.println(response.cookies());
String data=HttpPosts.sendGet(Anmeldeadresse (ohne Parameter; String-Typ-Adresse), Parameter (z. B.: user_id=6853&export=112)); Die Zugriffsmethode ist die gleiche wie oben; Sie sind dieses Mal ihre Seite. Wenn Sie auf der gegenüberliegenden Seite eine Datenschnittstelle finden, können Sie direkt darauf zugreifen und die Daten werden direkt zurückgegeben. Andernfalls müssen Sie die Seite analysieren, was sehr mühsam ist. Jsoup wird im Allgemeinen zum Parsen von Seiten verwendet.

Tatsächlich handelt es sich hierbei um eine andere Art des Eindringens. Sie müssen das Schnittstellendokument der anderen Partei nicht kennen. Sie können ein Programm verwenden, um über das http-Protokoll direkt auf den Server der anderen Partei zuzugreifen

Das obige ist der detaillierte Inhalt vonBeispielanalyse eines Java-Crawlers. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn