>  기사  >  웹 프론트엔드  >  노드가 웹 페이지에서 이미지를 크롤링하는 방법(코드 첨부)

노드가 웹 페이지에서 이미지를 크롤링하는 방법(코드 첨부)

不言
不言원래의
2018-08-17 15:45:202682검색

이 기사의 내용은 노드가 웹 페이지에서 이미지를 크롤링하는 방법(코드 포함)에 대한 것입니다. 이는 특정 참조 값을 가지고 있으므로 도움이 필요할 수 있습니다.

Directory

  • 노드 설치 및 종속성 다운로드

  • 서비스 빌드

  • 크롤링하려는 페이지를 요청하고 json을 반환합니다

노드 설치

노드 설치를 시작하면 이동할 수 있습니다. to node 공식 홈페이지 https://nodejs.org/zh-cn/에서 다운로드하세요. 다운로드가 완료된 후 node를 실행하여 사용하세요.

node -v

설치가 성공적으로 완료되면 설치한 버전 번호가 나타납니다.

다음으로 노드를 사용하여 hello world를 인쇄하고 index.js라는 새 파일을 만들고

console.log('hello world')

Run this file

node index.js

을 입력하면 hello world가 제어판에 출력됩니다

서버 구축

Create 새 이름은 노드의 폴더입니다.

먼저 Express 종속성을 다운로드해야 합니다

npm install express

그런 다음 아래와 같은 디렉터리 구조를 사용하여 Demo.js라는 새 파일을 만듭니다.

demo.js에서 다운로드한 Express를 소개합니다

const express = require('express');
const app = express();
app.get('/index', function(req, res) {
res.end('111')
})
var server = app.listen(8081, function() {
    var host = server.address().address
    var port = server.address().port
    console.log("应用实例,访问地址为 http://%s:%s", host, port)

})

노드 데모를 실행합니다. js 간단한 서비스는 그림과 같이 설정되어 있습니다.

크롤링할 페이지 요청

크롤링할 페이지 요청

npm install superagent
npm install superagent-charset
npm install cheerio

Superagent는 요청을 시작하는 데 사용됩니다. 가볍고 진보적인 Ajax API입니다. . 좋은 가독성, 낮은 학습 곡선, nodejs 환경에 적합한 내부 의존도. http를 사용하여 요청

superagent-charset을 사용하여 크롤링된 데이터가 왜곡되는 것을 방지하고 문자 형식을 변경할 수도 있습니다

Cherio는 서버를 위해 특별히 맞춤화되고 빠르고 유연하며 구현된 jQuery 코어 구현입니다. 종속성을 설치한 후 도입할 수 있습니다.

var superagent = require('superagent');
var charset = require('superagent-charset');
charset(superagent);
const cheerio = require('cheerio');

도입한 후 그림과 같이 주소 https://www.qqtn.com/tx/weixintx_1.html을 요청합니다.

주소 변수 선언 :

const baseUrl = 'https://www.qqtn.com/'

설정 후 요청을 보내세요. 다음으로 전체 코드를 확인하세요. 노드 크롤러가 완료되었습니다.

관련 권장 사항:

노드 크롤러 gbk 웹 페이지 중국어로 왜곡된 솔루션_html/css_WEB-ITnose

노드 아래 http 소형 크롤러의 샘플 코드 공유

위 내용은 노드가 웹 페이지에서 이미지를 크롤링하는 방법(코드 첨부)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.