이 글에서는 Node.js를 이용하여 정보 크롤러를 개발하는 과정을 주로 소개합니다. 크롤러 과정은 대상 웹사이트의 HTML을 로컬에 다운로드한 후 데이터를 추출하는 것으로 요약할 수 있습니다. 구체적인 내용은 이 글을 참고해주세요
최근 프로젝트는 Node.js로 작성되었기 때문에 약간의 정보가 필요하므로 Node.js를 사용하여 크롤러를 작성하는 것이 당연합니다
프로젝트 주소: github.com/ mrtanweijie… , 이 프로젝트는 Readhub, Open Source China, Developer Toutiao 및 36Kr의 정보 콘텐츠를 크롤링합니다. 크롤러가 하루에 한 번 실행되기 때문에 당분간은 여러 페이지를 처리하지 않습니다. 크롤러 프로세스는 대상 웹사이트의 HTML을 로컬에 다운로드한 후 데이터를 추출하는 것으로 요약할 수 있습니다.
1. 다운로드 페이지 Node.js에는 많은 http 요청 라이브러리가 있으며 여기서 request가 사용되며 주요 코드는 다음과 같습니다.
requestDownloadHTML () { const options = { url: this.url, headers: { 'User-Agent': this.randomUserAgent() } } return new Promise((resolve, reject) => { request(options, (err, response, body) => { if (!err && response.statusCode === 200) { return resolve(body) } else { return reject(err) } }) }) }
패키징에는 Promise를 사용하여 async/await를 사용할 수 있도록 합니다. 나중에. 많은 웹사이트가 클라이언트에서 렌더링되기 때문에 다운로드한 페이지에 원하는 HTML 콘텐츠가 반드시 포함되지 않을 수도 있습니다. Google의 인형극을 사용하여 클라이언트에서 렌더링된 웹사이트 페이지를 다운로드할 수 있습니다. 우리 모두 알고 있듯이 npm i를 사용할 때 puppeteer는 Chrome 커널을 다운로드해야 하기 때문에 설치에 실패할 수 있습니다. 몇 번만 더 시도해 보세요. :)
puppeteerDownloadHTML () { return new Promise(async (resolve, reject) => { try { const browser = await puppeteer.launch({ headless: true }) const page = await browser.newPage() await page.goto(this.url) const bodyHandle = await page.$('body') const bodyHTML = await page.evaluate(body => body.innerHTML, bodyHandle) return resolve(bodyHTML) } catch (err) { console.log(err) return reject(err) } }) }
물론 클라이언트에 대한 인터페이스 요청 방법을 직접 사용하는 것이 가장 좋습니다. -렌더링된 페이지이므로 후속 HTML 구문 분석이 필요하지 않습니다. 간단한 캡슐화만 수행하면 다음과 같이 사용할 수 있습니다. #Funny:)
await new Downloader('http://36kr.com/newsflashes', DOWNLOADER.puppeteer).downloadHTML()
2. HTML 콘텐츠 추출물론, Cherio는 HTML 콘텐츠를 추출하는 데 사용되며, Cherio는 jQuery와 동일한 인터페이스를 제공하며 사용이 매우 간단합니다. 브라우저에서 F12 페이지를 열어 추출된 페이지 요소 노드를 확인한 후 필요에 따라 콘텐츠를 추출합니다.
readHubExtract () { let nodeList = this.$('#itemList').find('.enableVisited') nodeList.each((i, e) => { let a = this.$(e).find('a') this.extractData.push( this.extractDataFactory( a.attr('href'), a.text(), '', SOURCECODE.Readhub ) ) }) return this.extractData }
3. 예약된 작업 cron 每天跑一跑
function job () {
let cronJob = new cron.CronJob({
cronTime: cronConfig.cronTime,
onTick: () => {
spider()
},
start: false
})
cronJob.start()
}
4. 데이터 지속성 이론적 데이터 지속성 크롤러의 관심 범위 내에 있어서는 안 됩니다. 몽구스를 사용하여 모델 만들기
import mongoose from 'mongoose' const Schema = mongoose.Schema const NewsSchema = new Schema( { title: { type: 'String', required: true }, url: { type: 'String', required: true }, summary: String, recommend: { type: Boolean, default: false }, source: { type: Number, required: true, default: 0 }, status: { type: Number, required: true, default: 0 }, createdTime: { type: Date, default: Date.now } }, { collection: 'news' } ) export default mongoose.model('news', NewsSchema)
기본 작업
import { OBJ_STATUS } from '../../Constants' class BaseService { constructor (ObjModel) { this.ObjModel = ObjModel } saveObject (objData) { return new Promise((resolve, reject) => { this.ObjModel(objData).save((err, result) => { if (err) { return reject(err) } return resolve(result) }) }) } } export default BaseService
정보
import BaseService from './BaseService' import News from '../models/News' class NewsService extends BaseService {} export default new NewsService(News)
행복하게 데이터를 저장하세요
await newsService.batchSave(newsListTem)
자세한 내용을 보려면 Github로 이동하여 프로젝트를 복제하세요. 그것을 참조하십시오.
요약
위 내용은 모든 사람을 위해 정리한 내용입니다. 앞으로 모든 사람에게 도움이 되기를 바랍니다.
관련 기사:
react를 사용하여 d3 force-directed 그래프를 작성하는 방법(자세한 튜토리얼) nodejs를 사용하여 인스턴트 메시징을 구현하는 방법axios에서 Vue.use에 대한 질문위 내용은 Node.js를 사용하여 정보 크롤러를 구현하는 방법(상세 튜토리얼)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!