Node.js를 사용하여 정보 크롤러를 구현하는 방법(상세 튜토리얼)-JS 튜토리얼-php.cn

집

웹 프론트엔드

JS 튜토리얼

Node.js를 사용하여 정보 크롤러를 구현하는 방법(상세 튜토리얼)

亚连

Jun 13, 2018 pm 02:15 PM

이 글에서는 Node.js를 이용하여 정보 크롤러를 개발하는 과정을 주로 소개합니다. 크롤러 과정은 대상 웹사이트의 HTML을 로컬에 다운로드한 후 데이터를 추출하는 것으로 요약할 수 있습니다. 구체적인 내용은 이 글을 참고해주세요

최근 프로젝트는 Node.js로 작성되었기 때문에 약간의 정보가 필요하므로 Node.js를 사용하여 크롤러를 작성하는 것이 당연합니다

프로젝트 주소: github.com/ mrtanweijie… , 이 프로젝트는 Readhub, Open Source China, Developer Toutiao 및 36Kr의 정보 콘텐츠를 크롤링합니다. 크롤러가 하루에 한 번 실행되기 때문에 당분간은 여러 페이지를 처리하지 않습니다. 크롤러 프로세스는 대상 웹사이트의 HTML을 로컬에 다운로드한 후 데이터를 추출하는 것으로 요약할 수 있습니다.

1. 다운로드 페이지 Node.js에는 많은 http 요청 라이브러리가 있으며 여기서 request가 사용되며 주요 코드는 다음과 같습니다.

requestDownloadHTML () {
 const options = {
  url: this.url,
  headers: {
  &#39;User-Agent&#39;: this.randomUserAgent()
  }
 }
 return new Promise((resolve, reject) => {
  request(options, (err, response, body) => {
  if (!err && response.statusCode === 200) {
   return resolve(body)
  } else {
   return reject(err)
  }
  })
 })
 }

패키징에는 Promise를 사용하여 async/await를 사용할 수 있도록 합니다. 나중에. 많은 웹사이트가 클라이언트에서 렌더링되기 때문에 다운로드한 페이지에 원하는 HTML 콘텐츠가 반드시 포함되지 않을 수도 있습니다. Google의 인형극을 사용하여 클라이언트에서 렌더링된 웹사이트 페이지를 다운로드할 수 있습니다. 우리 모두 알고 있듯이 npm i를 사용할 때 puppeteer는 Chrome 커널을 다운로드해야 하기 때문에 설치에 실패할 수 있습니다. 몇 번만 더 시도해 보세요. :)

puppeteerDownloadHTML () {
 return new Promise(async (resolve, reject) => {
  try {
  const browser = await puppeteer.launch({ headless: true })
  const page = await browser.newPage()
  await page.goto(this.url)
  const bodyHandle = await page.$(&#39;body&#39;)
  const bodyHTML = await page.evaluate(body => body.innerHTML, bodyHandle)
  return resolve(bodyHTML)
  } catch (err) {
  console.log(err)
  return reject(err)
  }
 })
 }

물론 클라이언트에 대한 인터페이스 요청 방법을 직접 사용하는 것이 가장 좋습니다. -렌더링된 페이지이므로 후속 HTML 구문 분석이 필요하지 않습니다. 간단한 캡슐화만 수행하면 다음과 같이 사용할 수 있습니다. #Funny:)

await new Downloader(&#39;http://36kr.com/newsflashes&#39;, DOWNLOADER.puppeteer).downloadHTML()

2. HTML 콘텐츠 추출물론, Cherio는 HTML 콘텐츠를 추출하는 데 사용되며, Cherio는 jQuery와 동일한 인터페이스를 제공하며 사용이 매우 간단합니다. 브라우저에서 F12 페이지를 열어 추출된 페이지 요소 노드를 확인한 후 필요에 따라 콘텐츠를 추출합니다.

readHubExtract () {
 let nodeList = this.$(&#39;#itemList&#39;).find(&#39;.enableVisited&#39;)
 nodeList.each((i, e) => {
  let a = this.$(e).find(&#39;a&#39;)
  this.extractData.push(
  this.extractDataFactory(
   a.attr(&#39;href&#39;),
   a.text(),
   &#39;&#39;,
   SOURCECODE.Readhub
  )
  )
 })
 return this.extractData
 }

3. 예약된 작업

cron 每天跑一跑 
function job () {
 let cronJob = new cron.CronJob({
 cronTime: cronConfig.cronTime,
 onTick: () => {
  spider()
 },
 start: false
 })
 cronJob.start()
}

4. 데이터 지속성 이론적 데이터 지속성 크롤러의 관심 범위 내에 있어서는 안 됩니다. 몽구스를 사용하여 모델 만들기

import mongoose from &#39;mongoose&#39;
const Schema = mongoose.Schema
const NewsSchema = new Schema(
 {
 title: { type: &#39;String&#39;, required: true },
 url: { type: &#39;String&#39;, required: true },
 summary: String,
 recommend: { type: Boolean, default: false },
 source: { type: Number, required: true, default: 0 },
 status: { type: Number, required: true, default: 0 },
 createdTime: { type: Date, default: Date.now }
 },
 {
 collection: &#39;news&#39;
 }
)
export default mongoose.model(&#39;news&#39;, NewsSchema)

기본 작업

import { OBJ_STATUS } from &#39;../../Constants&#39;
class BaseService {
 constructor (ObjModel) {
 this.ObjModel = ObjModel
 }

 saveObject (objData) {
 return new Promise((resolve, reject) => {
  this.ObjModel(objData).save((err, result) => {
  if (err) {
   return reject(err)
  }
  return resolve(result)
  })
 })
 }
}
export default BaseService

정보

import BaseService from &#39;./BaseService&#39;
import News from &#39;../models/News&#39;
class NewsService extends BaseService {}
export default new NewsService(News)

행복하게 데이터를 저장하세요

await newsService.batchSave(newsListTem)

자세한 내용을 보려면 Github로 이동하여 프로젝트를 복제하세요. 그것을 참조하십시오.

요약

위 내용은 모든 사람을 위해 정리한 내용입니다. 앞으로 모든 사람에게 도움이 되기를 바랍니다.

관련 기사

JavaScript가 C로 작성 되었습니까? 증거를 검토합니다Apr 25, 2025 am 12:15 AM

예, JavaScript의 엔진 코어는 C로 작성되었습니다. 1) C 언어는 효율적인 성능과 기본 제어를 제공하며, 이는 JavaScript 엔진 개발에 적합합니다. 2) V8 엔진을 예를 들어, 핵심은 C로 작성되며 C의 효율성 및 객체 지향적 특성을 결합하여 C로 작성됩니다.

JavaScript의 역할 : 웹 대화식 및 역동적 인 웹Apr 24, 2025 am 12:12 AM

JavaScript는 웹 페이지의 상호 작용과 역학을 향상시키기 때문에 현대 웹 사이트의 핵심입니다. 1) 페이지를 새로 고치지 않고 콘텐츠를 변경할 수 있습니다. 2) Domapi를 통해 웹 페이지 조작, 3) 애니메이션 및 드래그 앤 드롭과 같은 복잡한 대화식 효과를 지원합니다. 4) 성능 및 모범 사례를 최적화하여 사용자 경험을 향상시킵니다.

C 및 JavaScript : 연결이 설명되었습니다Apr 23, 2025 am 12:07 AM

C 및 JavaScript는 WebAssembly를 통한 상호 운용성을 달성합니다. 1) C 코드는 WebAssembly 모듈로 컴파일되어 컴퓨팅 전력을 향상시키기 위해 JavaScript 환경에 도입됩니다. 2) 게임 개발에서 C는 물리 엔진 및 그래픽 렌더링을 처리하며 JavaScript는 게임 로직 및 사용자 인터페이스를 담당합니다.

웹 사이트에서 앱으로 : 다양한 JavaScript 애플리케이션Apr 22, 2025 am 12:02 AM

JavaScript는 웹 사이트, 모바일 응용 프로그램, 데스크탑 응용 프로그램 및 서버 측 프로그래밍에서 널리 사용됩니다. 1) 웹 사이트 개발에서 JavaScript는 HTML 및 CSS와 함께 DOM을 운영하여 동적 효과를 달성하고 jQuery 및 React와 같은 프레임 워크를 지원합니다. 2) 반응 및 이온 성을 통해 JavaScript는 크로스 플랫폼 모바일 애플리케이션을 개발하는 데 사용됩니다. 3) 전자 프레임 워크를 사용하면 JavaScript가 데스크탑 애플리케이션을 구축 할 수 있습니다. 4) node.js는 JavaScript가 서버 측에서 실행되도록하고 동시 요청이 높은 높은 요청을 지원합니다.

Python vs. JavaScript : 사용 사례 및 응용 프로그램 비교Apr 21, 2025 am 12:01 AM

Python은 데이터 과학 및 자동화에 더 적합한 반면 JavaScript는 프론트 엔드 및 풀 스택 개발에 더 적합합니다. 1. Python은 데이터 처리 및 모델링을 위해 Numpy 및 Pandas와 같은 라이브러리를 사용하여 데이터 과학 및 기계 학습에서 잘 수행됩니다. 2. 파이썬은 간결하고 자동화 및 스크립팅이 효율적입니다. 3. JavaScript는 프론트 엔드 개발에 없어서는 안될 것이며 동적 웹 페이지 및 단일 페이지 응용 프로그램을 구축하는 데 사용됩니다. 4. JavaScript는 Node.js를 통해 백엔드 개발에 역할을하며 전체 스택 개발을 지원합니다.

JavaScript 통역사 및 컴파일러에서 C/C의 역할Apr 20, 2025 am 12:01 AM

C와 C는 주로 통역사와 JIT 컴파일러를 구현하는 데 사용되는 JavaScript 엔진에서 중요한 역할을합니다. 1) C는 JavaScript 소스 코드를 구문 분석하고 추상 구문 트리를 생성하는 데 사용됩니다. 2) C는 바이트 코드 생성 및 실행을 담당합니다. 3) C는 JIT 컴파일러를 구현하고 런타임에 핫스팟 코드를 최적화하고 컴파일하며 JavaScript의 실행 효율을 크게 향상시킵니다.

자바 스크립트 행동 : 실제 예제 및 프로젝트Apr 19, 2025 am 12:13 AM

실제 세계에서 JavaScript의 응용 프로그램에는 프론트 엔드 및 백엔드 개발이 포함됩니다. 1) DOM 운영 및 이벤트 처리와 관련된 TODO 목록 응용 프로그램을 구축하여 프론트 엔드 애플리케이션을 표시합니다. 2) Node.js를 통해 RESTFULAPI를 구축하고 Express를 통해 백엔드 응용 프로그램을 시연하십시오.

JavaScript 및 웹 : 핵심 기능 및 사용 사례Apr 18, 2025 am 12:19 AM

웹 개발에서 JavaScript의 주요 용도에는 클라이언트 상호 작용, 양식 검증 및 비동기 통신이 포함됩니다. 1) DOM 운영을 통한 동적 컨텐츠 업데이트 및 사용자 상호 작용; 2) 사용자가 사용자 경험을 향상시키기 위해 데이터를 제출하기 전에 클라이언트 확인이 수행됩니다. 3) 서버와의 진실한 통신은 Ajax 기술을 통해 달성됩니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.