>  기사  >  웹 프론트엔드  >  Nodejs는 HTML 페이지 콘텐츠를 크롤링합니다.

Nodejs는 HTML 페이지 콘텐츠를 크롤링합니다.

高洛峰
高洛峰원래의
2017-02-04 10:58:191881검색

더 이상 고민하지 않고 html 페이지의 내용을 캡처하기 위해 node.js의 핵심 코드를 직접 게시하겠습니다.

구체적인 코드는 다음과 같습니다.

var http = require("http");
var iconv = require('iconv-lite');
var option = {
hostname: "stockdata.stock.hexun.com",
path: "/gszl/s601398.shtml"
};
var req = http.request(option, function(res) {
res.on("data", function(chunk) {
console.log(iconv.decode(chunk, "gbk"));
});
}).on("error", function(e) {
console.log(e.message);
});
req.end();

웹 콘텐츠를 캡처하기 위해 다음 nodejs를 살펴보겠습니다.

function loadPage(url) {
var http = require('http');
var pm = new Promise(function (resolve, reject) {
http.get(url, function (res) {
var html = '';
res.on('data', function (d) {
html += d.toString()
});
res.on('end', function () {
resolve(html);
});
}).on('error', function (e) {
reject(e)
});
});
return pm;
}
loadPage('http://www.baidu.com').then(function (d) {
console.log(d);
});

더 보기 여러 Nodejs 크롤링 HTML 페이지 콘텐츠와 관련된 기사를 보려면 PHP 중국어 웹사이트에 주목하세요!


성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.