노드 크롤러 고급 - 로그인-JS 튜토리얼-php.cn

집

웹 프론트엔드

JS 튜토리얼

노드 크롤러 고급 - 로그인

PHPz

Apr 04, 2017 am 10:19 AM

node

이전 기사 노드 진입 시나리오 - 크롤러에서는 가장 간단한 노드 크롤러 구현을 소개했습니다. 이 기사에서는 원래 기반으로 더 나아가 로그인을 우회하고 로그인 영역에서 데이터를 크롤링하는 방법에 대해 설명합니다. 🎜>

이론적 근거

로그인 상태 유지 방법
브라우저는 어떻게 작동하나요? >://www.php.cn/php/php-TVOS-denglu.html" target="_blank">로그인
인터페이스

인증코드

1. 로그인 상태를 유지하는 방법
가 없는 A 프로토콜로 http는 클라이언트와 서버 간의 긴 연결을 유지하지 않습니다. 서버는 어떤 인터페이스가 동일한 클라이언트에서 나오는지 어떻게 식별합니까? 독립적인 요청과 응답은 다음과 같은 메커니즘으로 쉽게 생각할 수 있습니다.

Id.png

핵심 이 메커니즘의 세션 ID(sessionId)는 다음과 같습니다.

클라이언트가 서버에 요청하면 서버는 클라이언트가 sessionId를 전달하지 않았다고 판단합니다. 좋습니다. 이 사람은 새로운 사람입니다. 생성합니다. 메모리에 저장된 sessionId이며 이 sessionId를 클라이언트에 반환합니다.

노드 크롤러 고급 - 로그인 클라이언트는 서버에서 sessionId를 가져와 로컬에 저장하고 다음 요청 시 이 sessionId를 가져옵니다. , 서버는 메모리를 확인합니다. 이 sessionId가 존재합니까? (
이전 단계에서 사용자가 로그인 인터페이스에 액세스한 경우 현재 seesionId가

key

로 메모리에 저장되어 있습니다. 사용자 데이터는 값으로 메모리에 저장되었으며, 서버는 sessionId

의 고유 식별자를 기반으로 클라이언트에 해당하는 데이터를 반환할 수 있습니다. 서버가 sessionId를 잃으면 이전 단계가 반복됩니다. 더 이상 아는 사람이 없습니다.

브라우저에서는 어떻게 수행하나요? 실제로 브라우저는 위의 내용을 따르나요? 메커니즘 디자인은 어떻습니까? 사실이에요!

bs-sid.png

브라우저가 수행하는 작업:
1. , 요청 주소의 도메인 이름에 해당하는 쿠키가 http 요청 헤더에 추가됩니다(사용자가 쿠키를 비활성화하지 않은 경우). 위 그림에서 서버에 대한 첫 번째 요청에도 요청에 쿠키가 포함되어 있습니다. 헤더가 있지만 쿠키에는 아직 sessionId가 없습니다

2. 브라우저는 서버 응답 헤더의

Set

-Cookie를 기반으로 쿠키를 설정합니다. 이를 위해 서버는 생성된 sessionId를 입력합니다. into Set-cookie

브라우저가 Set-Cookie 명령을 받으면 요청 주소의 도메인 이름을 키로 사용하여 로컬 쿠키를 설정합니다. 일반적으로 서버가 Set-를 반환합니다. 쿠키의 경우 sessionId의 만료 시간은 기본적으로 브라우저가 닫히도록 설정되어 있습니다. 브라우저가 열릴 때 만료됩니다. 따라서 브라우저는 열릴 때부터 닫힐 때까지 세션입니다(일부 웹사이트에서는 로그인 상태를 유지하도록 설정할 수도 있음). 오랫동안 만료되지 않는 쿠키 설정)

노드 크롤러 고급 - 로그인 3. 브라우저가 다시 열릴 때 요청이 백그라운드에서 시작되면 요청 헤더의 쿠키에 이미 sessionId가 포함되어 있습니다. 이전에 로그인 인터페이스를 방문한 경우 세션 ID를 기반으로 사용자 데이터를
쿼리

할 수 있습니다

증거는 없습니다. 예는 다음과 같습니다.

1) 먼저 로그인을 사용하세요.
chr
ome에 의해 열린 페이지에서 http://www.jianshu.com에 있는 모든 파일을 응용 프로그램 쿠키에서 찾으려면 네트워크 항목을 입력하고 로그 보존을 확인하세요(그렇지 않으면 해당 파일을 볼 수 없습니다). 페이지가 리디렉션된 후 이전 로그)

로그인

2) 그런 다음 페이지를 새로 고치고 로그인 인터페이스를 찾으세요. 응답 헤더에 많은 Set-Cookies가 있습니다.

로그인

3) 쿠키를 다시 확인하시면 세션ID가 저장되어 있으니 다음에 요청하시면 됩니다 기타 인터페이스 사용 시(예: 인증 코드 받기, 로그인) 로그인 후 사용자 정보도 세션 ID와 연결됩니다

노드 크롤러 고급 - 로그인

로그인

2. 노드 구현

브라우저의 작동 모드를 시뮬레이션하고 로그인에서 데이터를 크롤링해야 합니다. 해당 웹사이트 영역
인증 없이 발견했습니다. 인증 코드가 있는 경우 인증 코드 식별이 포함됩니다. (로그인은 고려되지 않으며 인증 코드의 복잡성이 인상적입니다.) . 다음 섹션에서는

쿠키를 얻기 위해 로그인 인터페이스에 액세스

    // 浏览器请求报文头部部分信息
    var browserMsg={
        "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36",
        'Content-Type':'application/x-www-form-urlencoded'
    };

    //访问登录接口获取cookie
    function getLoginCookie(userid, pwd) {
        userid = userid.toUpperCase();
        return new Promise(function(resolve, reject) {
            superagent.post(url.login_url).set(browserMsg).send({
                userid: userid,
                pwd: pwd,
                timezoneOffset: '0'
            }).redirects(0).end(function (err, response) {
                //获取cookie
                var cookie = response.headers["set-cookie"];
                resolve(cookie);
            });
        });
    }

요청 헤더 정보를 얻으려면 Chrome에서 요청을 캡처해야 합니다. 서버는 이러한 요청 헤더 정보를 확인할 수 있습니다. 예를 들어, 제가 실험한 웹사이트에서는 처음에 User-Agent를 전달하지 않았습니다. 서버에서 요청이 서버에서 온 것이 아니라는 것을 발견하고 오류 메시지 문자열을 반환했기 때문에 나중에 User-Agent를 설정하고 크롬 브라우저인 척 했어요~~
superagent는 클라이언트측 HTTP 요청 라이브러리로 쉽게 요청을 보내고 쿠키를 처리할 수 있습니다. (http.request를 직접 호출하여 조작해야 합니다. 헤더 필드 데이터는 그다지 편리하지 않습니다. set-cookie를 얻은 후 이를 적절한 형식의 쿠키로 조립해야 합니다.) Redirects(0)는 주로 리디렉션을 설정하지 않습니다

로그인 영역에서 인터페이스를 요청합니다

    function getData(cookie) {
        return new Promise(function(resolve, reject) {
            //传入cookie
            superagent.get(url.target_url).set("Cookie",cookie).set(browserMsg).end(function(err,res) {
                var $ = cheerio.load(res.text);
                resolve({
                    cookie: cookie,
                    doc: $
                });
            });
        });
    }

이전 단계에서 set-cookie를 가져온 후 getData 메소드, 슈퍼에이전트를 통해 요청에 설정한 후(set-cookie는 쿠키로 형식화됨) 일반적으로 로그인 데이터를 가져올 수 있습니다

실제 시나리오에서는 그다지 원활하지 않을 수 있습니다 웹사이트마다 보안 조치가 다릅니다. 예를 들어 일부 웹사이트는 먼저 토큰을 요청해야 하고, 일부 웹사이트는 매개변수를 암호화해야 하며, 일부 웹사이트는 더 높은 보안 및 재생 방지 메커니즘을 갖추고 있습니다. 방향성 크롤러에서는 웹사이트의 처리 메커니즘에 대한 상세한 분석이 필요합니다. 피할 수 없다면 충분합니다~~
하지만 일반 콘텐츠 및 정보 웹사이트를 처리하는 데는 여전히 충분합니다

위의 방법을 통해 요청한 것은 html문자열의 일부일 뿐입니다. 여기서는 이전 방법을 사용하여 문자열을 로드하면 jquery

dom. >Object, jquery처럼 dom을 작동할 수 있습니다. 이것은 정말 양심적으로 만들어진 인공물입니다!

3. 인증번호가 있는 경우 어떻게 해독하나요?

인증번호를 입력하지 않고 로그인할 수 있는 웹사이트는 몇 개인가요? 물론 12306이라는 인증코드를 식별하려고 시도하지는 않을 것입니다. 이렇게 양심적인 인증코드는 기대하지 않습니다. Zhihu처럼 너무 어리고 단순한 인증코드는 여전히 도전받을 수 있습니다

노드 크롤러 고급 - 로그인

Zhihu 로그인

Tesseract는 Google의 오픈 소스 OCR 인식 도구이지만 노드와 관련이 없지만 구체적인 사용 방법은 node.js

간단한 인증코드 인식을 구현합니다그러나 Graphicsmagick을 사용하여

사진

을 전처리하더라도 높은 인식률을 보장할 수는 없습니다. tesseract를 훈련시키려면 다음을 참조하십시오: jTessBoxEditor 도구를 사용하여 Tesseract3.02.02 샘플을 훈련하여 인증 코드 인식률을 향상시키세요 높은 인식률을 달성할 수 있는지 여부는 캐릭터에 따라 다릅니다~~~

4. 확장

로그인 상태를 우회하는 더 간단한 방법이 있는데, 바로 PhantomJS를 사용하는 것입니다. Phantomjs는 웹킷

api

기반의 오픈 소스 서버 js입니다. 브라우저로 간주되지만 js 스크립트를 통해 제어할 수 있습니다. 브라우저의

동작

을 완전히 시뮬레이션하므로 set-cookie 및 쿠키에 전혀 신경 쓸 필요가 없습니다. 사용자의 클릭 동작만 시뮬레이션하면 됩니다(물론, 인증 코드가 있으므로 식별해야 합니다.)

이 방법에는 단점이 있습니다. 즉, 요청을 놓치지 않고 정적 자료의 경우 대상 페이지에 도달하려면 여러 페이지를 클릭해야 하는데 이는 대상 URL에 직접 액세스하는 것보다 효율성이 떨어집니다

관심 있는 경우 검색
phontomJS

5. 요약

노드 크롤러의 로그인에 대해 이야기하고 있지만, 그 목적은 이전에 많은 원칙에 대해 이야기했습니다. 다시 말씀드리지만, 같은 문장 : 원리를 이해하는 것이 중요합니다

도움이 되셨다면 댓글 남겨주세요. 좋아요~~

위 내용은 노드 크롤러 고급 - 로그인의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Python vs. JavaScript : 개발 환경 및 도구Apr 26, 2025 am 12:09 AM

개발 환경에서 Python과 JavaScript의 선택이 모두 중요합니다. 1) Python의 개발 환경에는 Pycharm, Jupyternotebook 및 Anaconda가 포함되어 있으며 데이터 과학 및 빠른 프로토 타이핑에 적합합니다. 2) JavaScript의 개발 환경에는 Node.js, VScode 및 Webpack이 포함되어 있으며 프론트 엔드 및 백엔드 개발에 적합합니다. 프로젝트 요구에 따라 올바른 도구를 선택하면 개발 효율성과 프로젝트 성공률이 향상 될 수 있습니다.

JavaScript가 C로 작성 되었습니까? 증거를 검토합니다Apr 25, 2025 am 12:15 AM

예, JavaScript의 엔진 코어는 C로 작성되었습니다. 1) C 언어는 효율적인 성능과 기본 제어를 제공하며, 이는 JavaScript 엔진 개발에 적합합니다. 2) V8 엔진을 예를 들어, 핵심은 C로 작성되며 C의 효율성 및 객체 지향적 특성을 결합하여 C로 작성됩니다.

JavaScript의 역할 : 웹 대화식 및 역동적 인 웹Apr 24, 2025 am 12:12 AM

JavaScript는 웹 페이지의 상호 작용과 역학을 향상시키기 때문에 현대 웹 사이트의 핵심입니다. 1) 페이지를 새로 고치지 않고 콘텐츠를 변경할 수 있습니다. 2) Domapi를 통해 웹 페이지 조작, 3) 애니메이션 및 드래그 앤 드롭과 같은 복잡한 대화식 효과를 지원합니다. 4) 성능 및 모범 사례를 최적화하여 사용자 경험을 향상시킵니다.

C 및 JavaScript : 연결이 설명되었습니다Apr 23, 2025 am 12:07 AM

C 및 JavaScript는 WebAssembly를 통한 상호 운용성을 달성합니다. 1) C 코드는 WebAssembly 모듈로 컴파일되어 컴퓨팅 전력을 향상시키기 위해 JavaScript 환경에 도입됩니다. 2) 게임 개발에서 C는 물리 엔진 및 그래픽 렌더링을 처리하며 JavaScript는 게임 로직 및 사용자 인터페이스를 담당합니다.

웹 사이트에서 앱으로 : 다양한 JavaScript 애플리케이션Apr 22, 2025 am 12:02 AM

JavaScript는 웹 사이트, 모바일 응용 프로그램, 데스크탑 응용 프로그램 및 서버 측 프로그래밍에서 널리 사용됩니다. 1) 웹 사이트 개발에서 JavaScript는 HTML 및 CSS와 함께 DOM을 운영하여 동적 효과를 달성하고 jQuery 및 React와 같은 프레임 워크를 지원합니다. 2) 반응 및 이온 성을 통해 JavaScript는 크로스 플랫폼 모바일 애플리케이션을 개발하는 데 사용됩니다. 3) 전자 프레임 워크를 사용하면 JavaScript가 데스크탑 애플리케이션을 구축 할 수 있습니다. 4) node.js는 JavaScript가 서버 측에서 실행되도록하고 동시 요청이 높은 높은 요청을 지원합니다.

Python vs. JavaScript : 사용 사례 및 응용 프로그램 비교Apr 21, 2025 am 12:01 AM

Python은 데이터 과학 및 자동화에 더 적합한 반면 JavaScript는 프론트 엔드 및 풀 스택 개발에 더 적합합니다. 1. Python은 데이터 처리 및 모델링을 위해 Numpy 및 Pandas와 같은 라이브러리를 사용하여 데이터 과학 및 기계 학습에서 잘 수행됩니다. 2. 파이썬은 간결하고 자동화 및 스크립팅이 효율적입니다. 3. JavaScript는 프론트 엔드 개발에 없어서는 안될 것이며 동적 웹 페이지 및 단일 페이지 응용 프로그램을 구축하는 데 사용됩니다. 4. JavaScript는 Node.js를 통해 백엔드 개발에 역할을하며 전체 스택 개발을 지원합니다.

JavaScript 통역사 및 컴파일러에서 C/C의 역할Apr 20, 2025 am 12:01 AM

C와 C는 주로 통역사와 JIT 컴파일러를 구현하는 데 사용되는 JavaScript 엔진에서 중요한 역할을합니다. 1) C는 JavaScript 소스 코드를 구문 분석하고 추상 구문 트리를 생성하는 데 사용됩니다. 2) C는 바이트 코드 생성 및 실행을 담당합니다. 3) C는 JIT 컴파일러를 구현하고 런타임에 핫스팟 코드를 최적화하고 컴파일하며 JavaScript의 실행 효율을 크게 향상시킵니다.

자바 스크립트 행동 : 실제 예제 및 프로젝트Apr 19, 2025 am 12:13 AM

실제 세계에서 JavaScript의 응용 프로그램에는 프론트 엔드 및 백엔드 개발이 포함됩니다. 1) DOM 운영 및 이벤트 처리와 관련된 TODO 목록 응용 프로그램을 구축하여 프론트 엔드 애플리케이션을 표시합니다. 2) Node.js를 통해 RESTFULAPI를 구축하고 Express를 통해 백엔드 응용 프로그램을 시연하십시오.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.