찾다
Javajava지도 시간Java 크롤러 분석 예

Java 크롤러 분석 예

Sep 16, 2017 am 10:48 AM
java사례분석비열한

우선, 이 글을 읽고 나면 마스터가 될 것이라는 보장은 없지만 크롤러가 무엇인지, 크롤러를 어떻게 사용하는지, http 프로토콜을 사용하여 다른 사람의 시스템에 침입하는 방법을 이해할 수 있습니다. 물론 이것은 단지 몇 가지 간단한 튜토리얼일 뿐이며 간단한 데이터를 얻을 수 있습니다.

코드부터 시작하여 단계별로 설명하겠습니다.

이것은 도구 클래스입니다. 자세한 내용은 인터넷 어디에서나 http 요청을 보내는 도구 클래스를 찾을 수 있습니다.

package com.df.util;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLConnection;
import java.util.List;
import java.util.Map;
import org.apache.log4j.Logger;
import org.jsoup.Connection;
import org.jsoup.Connection.Method;
import org.jsoup.Connection.Response;
import org.jsoup.Jsoup;
import com.df.controller.DFContorller;
public class HttpPosts {
    private final static Logger logger = Logger.getLogger(DFContorller.class);
    public static String sendPost(String url, String param) {
        PrintWriter out = null;
        BufferedReader in = null;
        String result = "";
        try {
            URL realUrl = new URL(url);
            // 打开和URL之间的连接
            URLConnection conn = realUrl.openConnection();
            // 设置通用的请求属性
            conn.setRequestProperty("accept", "*/*");
            conn.setRequestProperty("connection", "Keep-Alive");
            conn.setRequestProperty("user-agent",
                    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
            // 发送POST请求必须设置如下两行
            conn.setDoOutput(true);
            conn.setDoInput(true);
            // 获取URLConnection对象对应的输出流
            out = new PrintWriter(conn.getOutputStream());
            // 发送请求参数
            out.print(param);
            // flush输出流的缓冲
            out.flush();
            // 定义BufferedReader输入流来读取URL的响应
            in = new BufferedReader(
                    new InputStreamReader(conn.getInputStream(),"utf-8"));
            String line;
            while ((line = in.readLine()) != null) {
                result += line;
            }
        } catch (Exception e) {
            logger.info("发送 POST 请求出现异常!"+e);
            e.printStackTrace();
        }
        //使用finally块来关闭输出流、输入流
        finally{
            try{
                if(out!=null){
                    out.close();
                }
                if(in!=null){
                    in.close();
                }
            }
            catch(IOException ex){
                ex.printStackTrace();
            }
        }
        return result;
    }  
    
    
      public static String sendGet(String url, String param) {
            String result = "";
            BufferedReader in = null;
            try {
                String urlNameString = url + "?" + param;
                URL realUrl = new URL(urlNameString);
                // 打开和URL之间的连接
                URLConnection connection = realUrl.openConnection();
                // 设置通用的请求属性
                connection.setRequestProperty("accept", "*/*");
                connection.setRequestProperty("connection", "Keep-Alive");
                connection.setRequestProperty("user-agent",
                        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
                connection.setRequestProperty("Cookie","PHPSESSID=27roc4d0ccd2cg4jbht80k8km2");
                // 建立实际的连接
                connection.connect();
                // 获取所有响应头字段
                Map<String, List<String>> map = connection.getHeaderFields();
                // 遍历所有的响应头字段
                for (String key : map.keySet()) {
                    System.out.println(key + "--->" + map.get(key));
                }
                // 定义 BufferedReader输入流来读取URL的响应
                in = new BufferedReader(new InputStreamReader(
                        connection.getInputStream(),"utf-8"));
                String line;
                while ((line = in.readLine()) != null) {
                    result += line;
                }
            } catch (Exception e) {
                System.out.println("发送GET请求出现异常!" + e);
                e.printStackTrace();
            }
            // 使用finally块来关闭输入流
            finally {
                try {
                    if (in != null) {
                        in.close();
                    }
                } catch (Exception e2) {
                    e2.printStackTrace();
                }
            }
            return result;
       }       
}

------ -------- -------------줄 구분

주제를 입력해 보겠습니다. 먼저 입력해야 하고, 웹사이트의 로그인 페이지를 크롤링하여 페이지 소스 코드를 확인하고, 로그인 요청을 보내기 위한 메소드 이름, 일반적으로 소규모 웹사이트는 from 표면 작업에 직접 작성하므로 찾기 쉽지만 중간 규모 웹사이트에서는 작성하지 않습니다. 매우 간단하지만 찾는 데 약간의 노력이 필요합니다. js에 있을 수도 있고, 이 페이지에 없을 수도 있습니다. 일단 로그인해서 캡처된 요청 정보를 보려면 패킷 캡처 도구를 사용하는 것이 좋습니다. 브라우저와 함께 제공되는 f12에서 로그인 정보를 얻을 수 없었습니다. 결국 JD.com의 로그인 인터페이스를 얻기 위해 많은 트릭을 시도했습니다. 인터페이스 주소; 코드를 업로드했습니다.

String data =HttpPosts.sendGet(로그인 주소(매개변수 없음, 문자열 유형 주소), 매개변수(예: user_id=6853&export=112))(반환된 로그인 상태는 일반적으로 json 형식입니다. . 성공적으로 로그인했는지 여부가 계산됩니다. 상황에 따라 일부는 true이고 일부는 1입니다. 가져오기 또는 게시를 선택하고 로그인 페이지의 요청을 모방하세요

그런 다음 쿠키를 가져오기 위해 또 다른 요청을 하세요

Connection conn = Jsoup.connect("登录后页面的地址");  
          conn.method(Method.GET);  
          conn.followRedirects(false);  
          Response response = conn.execute();  
          System.out.println(response.cookies());

get 또는 post 메소드에 동적으로 전달된 쿠키에 대해 이야기하고 하드 코딩된 쿠키를 교체하십시오. 왜냐하면 쿠키가 하드 작성되어 동적으로 작성될 수 있기 때문입니다.

그런 다음 삭제해야 합니다. 로그인 후 페이지, 홈페이지 또는 데이터 페이지에는 쿠키와 http 요청의 기본 매개변수 정보가 포함되어야 합니다. 그렇지 않으면 반드시 차단됩니다.

String data=HttpPosts.sendGet(로그인 주소(매개변수 없음, 문자열 유형 주소), 매개변수(예: user_id=6853&export=112)) 액세스 방법은 위와 동일하며 해당 페이지가 반환됩니다. 반대편에서 특정 데이터 인터페이스를 찾으면 해당 인터페이스에 직접 액세스할 수 있으며 반환된 데이터는 직접 데이터가 됩니다. 그렇지 않으면 해당 페이지를 구문 분석해야 하는데 이는 매우 번거로운 작업입니다. Jsoup은 일반적으로 페이지를 구문 분석하는 데 사용됩니다.

사실 이것은 다른 종류의 침입입니다. 상대방의 인터페이스 문서를 알 필요는 없지만 http 프로토콜을 사용하여 상대방의 서버에 직접 액세스할 수 있습니다.

위 내용은 Java 크롤러 분석 예의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
JVM이 Java 코드와 기본 운영 체제 사이의 중개자 역할을하는 방법을 설명하십시오.JVM이 Java 코드와 기본 운영 체제 사이의 중개자 역할을하는 방법을 설명하십시오.Apr 29, 2025 am 12:23 AM

JVM은 Java 코드를 기계 코드로 변환하고 리소스를 관리하여 작동합니다. 1) 클래스로드 : .class 파일을 메모리에로드하십시오. 2) 런타임 데이터 영역 : 메모리 영역 관리. 3) 실행 엔진 : 해석 또는 컴파일 바이트 코드. 4) 로컬 메소드 인터페이스 : JNI를 통해 운영 체제와 상호 작용합니다.

Java의 플랫폼 독립성에서 JVM (Java Virtual Machine)의 역할을 설명하십시오.Java의 플랫폼 독립성에서 JVM (Java Virtual Machine)의 역할을 설명하십시오.Apr 29, 2025 am 12:21 AM

JVM을 통해 Java는 플랫폼을 가로 질러 실행할 수 있습니다. 1) JVM 하중, 검증 및 바이트 코드를 실행합니다. 2) JVM의 작업에는 클래스 로딩, 바이트 코드 검증, 해석 실행 및 메모리 관리가 포함됩니다. 3) JVM은 동적 클래스 로딩 및 반사와 같은 고급 기능을 지원합니다.

Java 응용 프로그램이 다른 운영 체제에서 올바르게 실행되도록하는 데 어떤 조치를 취 하시겠습니까?Java 응용 프로그램이 다른 운영 체제에서 올바르게 실행되도록하는 데 어떤 조치를 취 하시겠습니까?Apr 29, 2025 am 12:11 AM

Java 응용 프로그램은 다음 단계를 통해 다른 운영 체제에서 실행할 수 있습니다. 1) 파일 또는 경로 클래스를 사용하여 파일 경로를 처리합니다. 2) system.getenv ()를 통해 환경 변수를 설정하고 얻습니다. 3) Maven 또는 Gradle을 사용하여 종속성 및 테스트를 관리하십시오. Java의 크로스 플랫폼 기능은 JVM의 추상화 계층에 의존하지만 여전히 특정 운영 체제 별 기능의 수동 처리가 필요합니다.

Java가 플랫폼 별 구성 또는 튜닝이 필요한 영역이 있습니까?Java가 플랫폼 별 구성 또는 튜닝이 필요한 영역이 있습니까?Apr 29, 2025 am 12:11 AM

Java는 다른 플랫폼에서 특정 구성 및 튜닝이 필요합니다. 1) 힙 크기를 설정하기 위해 -xms 및 -xmx와 같은 JVM 매개 변수를 조정하십시오. 2) 병렬 GC 또는 G1GC와 같은 적절한 쓰레기 수집 전략을 선택하십시오. 3) 다른 플랫폼에 적응하도록 기본 라이브러리를 구성하십시오. 이러한 측정을 통해 Java 응용 프로그램은 다양한 환경에서 가장 잘 수행 할 수 있습니다.

Java 개발에서 플랫폼 별 문제를 해결하는 데 도움이되는 몇 가지 도구 또는 라이브러리는 무엇입니까?Java 개발에서 플랫폼 별 문제를 해결하는 데 도움이되는 몇 가지 도구 또는 라이브러리는 무엇입니까?Apr 29, 2025 am 12:01 AM

OSGI, APACHECMONSLANG, JNA, andJVMOPTIONSAREEFFICEPIPERINGLINGPLATFORM-SPECIFICCHALLENGENJAVA.1) OSGIMANAGESDENCENTENCENDISONDISOLATESCOMPONENTS.2) APACHECOMMONSLANGPROVIDEUTIOMITIONFUCTIONS.3) JNAALLOWSCALLINGNATIVECODE.4) JNAALLOWSCALTINGBEHAV

JVM은 다른 플랫폼에서 쓰레기 수집을 어떻게 관리합니까?JVM은 다른 플랫폼에서 쓰레기 수집을 어떻게 관리합니까?Apr 28, 2025 am 12:23 AM

jvmmanagesgarbageCollectionAcrossplatformSefficialthegendercationalStrationallySticallySticallySuciationalStrationalSproachandAptingToosandHardwaredifferences.ITEMPLOYSVARIOUSCOLLECTORSLIKESERIAL, PARALING, CMS, 및 G1, 각각의 소지 firedFferentscenarios.performanceCanbetwithflags-xex : xa

Java 코드가 수정없이 다른 운영 체제에서 실행할 수있는 이유는 무엇입니까?Java 코드가 수정없이 다른 운영 체제에서 실행할 수있는 이유는 무엇입니까?Apr 28, 2025 am 12:14 AM

Java의 "Write Onge, Run Everywhere"철학은 JVM (Java Virtual Machine)에서 구현되므로 Java Code는 수정없이 다른 운영 체제에서 실행할 수 있습니다. 컴파일 된 Java Bytecode와 운영 체제 사이의 중개자로서 JVM은 바이트 코드를 특정 시스템 지침으로 변환하여 프로그램이 JVM이 설치된 모든 플랫폼에서 독립적으로 실행될 수 있도록합니다.

플랫폼 독립성을 강조하는 Java 프로그램을 컴파일하고 실행하는 프로세스를 설명하십시오.플랫폼 독립성을 강조하는 Java 프로그램을 컴파일하고 실행하는 프로세스를 설명하십시오.Apr 28, 2025 am 12:08 AM

Java 프로그램의 편집 및 실행은 Bytecode 및 JVM을 통해 플랫폼 독립성을 달성합니다. 1) Java 소스 코드를 작성하여 바이트 코드로 컴파일하십시오. 2) JVM을 사용하여 모든 플랫폼에서 바이트 코드를 실행하여 코드가 플랫폼에서 실행되도록합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구