실용적인 공유: nodejs를 사용하여 10,000개 이상의 이미지를 크롤링하고 다운로드합니다.-JS 튜토리얼-php.cn

집

웹 프론트엔드

JS 튜토리얼

실용적인 공유: nodejs를 사용하여 10,000개 이상의 이미지를 크롤링하고 다운로드합니다.

青灯夜游

Mar 24, 2022 pm 07:49 PM

nodejs

이 기사는 저자가 nodejs를 사용하여 10,000개 이상의 여동생 배경화면을 크롤링하는 방법을 볼 수 있는 node실제 경험을 공유할 것입니다. 모든 사람에게 도움이 되기를 바랍니다.

실용적인 공유: nodejs를 사용하여 10,000개 이상의 이미지를 크롤링하고 다운로드합니다.

안녕하세요 여러분 저는 Xiaoma입니다. 왜 이렇게 많은 사진을 다운로드해야 하나요? 며칠 전 uni-app + uniCloud를 사용하여 배경화면 애플릿을 무료로 배포했습니다. 그런 다음 애플릿의 콘텐츠를 채우려면 몇 가지 리소스가 필요합니다.

이미지 크롤링

먼저 프로젝트를 초기화하고 axios를 설치하면 cheerioaxios 和 cheerio

npm init -y && npm i axios cheerio

axios 用于爬取网页内容，cheerio 是服务端的 jquery api, 我们用它来获取 dom 中的图片地址；

const axios = require(&#39;axios&#39;)
const cheerio = require(&#39;cheerio&#39;)

function getImageUrl(target_url, containerEelment) {
  let result_list = []
  const res = await axios.get(target_url)
  const html = res.data
  const $ = cheerio.load(html)
  const result_list = []
  $(containerEelment).each((element) => {
    result_list.push($(element).find(&#39;img&#39;).attr(&#39;src&#39;))
  })
  return result_list
}

这样就可以获取到页面中的图片 url 了。接下来需要根据 url 下载图片。

如何使用 nodejs 下载文件

方式一：使用内置模块 ‘https’ 和 ‘fs’

使用 nodejs 下载文件可以使用内置包或第三方库完成。

GET 方法用于 HTTPS 来获取要下载的文件。 createWriteStream() 是一个用于创建可写流的方法，它只接收一个参数，即文件保存的位置。Pipe()是从可读流中读取数据并将其写入可写流的方法。

const fs = require(&#39;fs&#39;)
const https = require(&#39;https&#39;)

// URL of the image
const url = &#39;GFG.jpeg&#39;

https.get(url, (res) => {
  // Image will be stored at this path
  const path = `${__dirname}/files/img.jpeg`
  const filePath = fs.createWriteStream(path)
  res.pipe(filePath)
  filePath.on(&#39;finish&#39;, () => {
    filePath.close()
    console.log(&#39;Download Completed&#39;)
  })
})

方式二：DownloadHelper

npm install node-downloader-helper

下面是从网站下载图片的代码。一个对象 dl 是由类 DownloadHelper 创建的，它接收两个参数:

将要下载的图像。
下载后必须保存图像的路径。

File 变量包含将要下载的图像的 URL，filePath 变量包含将要保存文件的路径。

const { DownloaderHelper } = require(&#39;node-downloader-helper&#39;)

// URL of the image
const file = &#39;GFG.jpeg&#39;
// Path at which image will be downloaded
const filePath = `${__dirname}/files`

const dl = new DownloaderHelper(file, filePath)

dl.on(&#39;end&#39;, () => console.log(&#39;Download Completed&#39;))
dl.start()

方法三：使用 download

是 npm 大神 sindresorhus 写的，非常好用

npm install download

下面是从网站下载图片的代码。下载函数接收文件和文件路径。

const download = require(&#39;download&#39;)

// Url of the image
const file = &#39;GFG.jpeg&#39;
// Path at which image will get downloaded
const filePath = `${__dirname}/files`

download(file, filePath).then(() => {
  console.log(&#39;Download Completed&#39;)
})

最终代码

本来想去爬百度壁纸，但是清晰度不太够，而且还有水印等，后来，群里有个小伙伴找到了一个 api，估计是某个手机 APP 上的高清壁纸，可以直接获得下载的 url，我就直接用了。

下面是完整代码

const download = require(&#39;download&#39;)
const axios = require(&#39;axios&#39;)

let headers = {
  &#39;User-Agent&#39;:
    &#39;Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36&#39;,
}

function sleep(time) {
  return new Promise((reslove) => setTimeout(reslove, time))
}

async function load(skip = 0) {
  const data = await axios
    .get(
      &#39;http://service.picasso.adesk.com/v1/vertical/category/4e4d610cdf714d2966000000/vertical&#39;,
      {
        headers,
        params: {
          limit: 30, // 每页固定返回30条
          skip: skip,
          first: 0,
          order: &#39;hot&#39;,
        },
      }
    )
    .then((res) => {
      return res.data.res.vertical
    })
    .catch((err) => {
      console.log(err)
    })
  await downloadFile(data)
  await sleep(3000)
  if (skip < 1000) {
    load(skip + 30)
  } else {
    console.log(&#39;下载完成&#39;)
  }
}

async function downloadFile(data) {
  for (let index = 0; index < data.length; index++) {
    const item = data[index]

    // Path at which image will get downloaded
    const filePath = `${__dirname}/美女`

    await download(item.wp, filePath, {
      filename: item.id + &#39;.jpeg&#39;,
      headers,
    }).then(() => {
      console.log(`Download ${item.id} Completed`)
      return
    })
  }
}

load()

上面代码中先要设置 User-Agent 并且设置 3s 延迟，这样可以防止服务端阻止爬虫，直接返回 403。

直接 node index.jsrrreee

axios가 웹 콘텐츠를 크롤링하는 데 사용됩니다. Cherio는 서버 측의 jquery API입니다. 이를 사용하여 DOM에서 이미지 주소를 가져옵니다.

rrreee 실용적인 공유: nodejs를 사용하여 10,000개 이상의 이미지를 크롤링하고 다운로드합니다. 이 방법으로 페이지에서 이미지 URL을 가져올 수 있습니다. 다음으로 URL에 따라 이미지를 다운로드해야 합니다.

nodejs를 사용하여 파일을 다운로드하는 방법

방법 1: 내장 모듈 'https' 및 ' fs'

nodejs
사용 내장 패키지나 타사 라이브러리를 사용하여 파일을 다운로드할 수 있습니다.
GET 메서드는 HTTPS를 통해 다운로드할 파일을 가져오는 데 사용됩니다. createWriteStream()은 쓰기 가능한 스트림을 생성하는 데 사용되는 메서드입니다. 이 메서드는 파일이 저장되는 위치인 하나의 매개변수만 받습니다. Pipe()는 읽기 가능한 스트림에서 데이터를 읽고 쓰기 가능한 스트림에 쓰는 메서드입니다.

rrreee

방법 2: DownloadHelper

rrreee🎜다음은 웹사이트에서 이미지를 다운로드하는 코드입니다. 객체 dl은 두 개의 매개변수를 받는 DownloadHelper 클래스에 의해 생성됩니다: 🎜

다운로드할 이미지.
다운로드 후 이미지를 저장해야 하는 경로입니다.

🎜File 변수에는 다운로드할 이미지의 URL이 포함되고, filePath 변수에는 저장될 파일의 경로가 포함됩니다. 🎜rrreee🎜🎜방법 3: 다운로드 사용🎜🎜🎜은 npm의 달인입니다sindresorhus🎜작성되었으며 사용하기 매우 쉽습니다🎜rrreee🎜다음은 웹사이트에서 사진을 다운로드하는 코드입니다. 다운로드 기능은 파일과 파일 경로를 받습니다. 🎜rrreee

최종 코드🎜🎜원래 바이두 배경화면 크롤링하려고 했는데 해상도가 부족하고 워터마크 등이 있어서 나중에 그룹에 있던 친구가 API를 발견했어요 , 모바일 APP에서 고화질 배경화면으로 추정되며, 다운로드 URL을 직접 얻을 수 있어 직접 이용하였습니다. 🎜🎜다음은 전체 코드입니다🎜rrreee🎜위 코드에서 먼저 `User-Agent`를 설정하고 3초 지연을 설정해야 합니다. 이렇게 하면 서버가 크롤러를 차단하고 403을 직접 반환하는 것을 방지할 수 있습니다. 🎜🎜직접 `node index.js`하면 이미지가 자동으로 다운로드됩니다. 🎜🎜🎜, 🎜🎜🎜experience🎜🎜🎜WeChat 애플릿 검색 "🎜Watermelon Gallery🎜" 경험. 🎜🎜https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/c5301b8b97094e92bfae240d7eb1ec5e~tplv-k3u1fbpfcp-zoom-1.awebp?🎜🎜🎜노드 관련 지식을 더 보려면 다음을 방문하세요: 🎜nodej 초 튜토리얼🎜 ! 🎜

위 내용은 실용적인 공유: nodejs를 사용하여 10,000개 이상의 이미지를 크롤링하고 다운로드합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 掘金社区에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Python vs. JavaScript : 학습 곡선 및 사용 편의성Apr 16, 2025 am 12:12 AM

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

Python vs. JavaScript : 커뮤니티, 라이브러리 및 리소스Apr 15, 2025 am 12:16 AM

Python과 JavaScript는 커뮤니티, 라이브러리 및 리소스 측면에서 고유 한 장점과 단점이 있습니다. 1) Python 커뮤니티는 친절하고 초보자에게 적합하지만 프론트 엔드 개발 리소스는 JavaScript만큼 풍부하지 않습니다. 2) Python은 데이터 과학 및 기계 학습 라이브러리에서 강력하며 JavaScript는 프론트 엔드 개발 라이브러리 및 프레임 워크에서 더 좋습니다. 3) 둘 다 풍부한 학습 리소스를 가지고 있지만 Python은 공식 문서로 시작하는 데 적합하지만 JavaScript는 MDNWebDocs에서 더 좋습니다. 선택은 프로젝트 요구와 개인적인 이익을 기반으로해야합니다.

C/C에서 JavaScript까지 : 모든 것이 어떻게 작동하는지Apr 14, 2025 am 12:05 AM

C/C에서 JavaScript로 전환하려면 동적 타이핑, 쓰레기 수집 및 비동기 프로그래밍으로 적응해야합니다. 1) C/C는 수동 메모리 관리가 필요한 정적으로 입력 한 언어이며 JavaScript는 동적으로 입력하고 쓰레기 수집이 자동으로 처리됩니다. 2) C/C를 기계 코드로 컴파일 해야하는 반면 JavaScript는 해석 된 언어입니다. 3) JavaScript는 폐쇄, 프로토 타입 체인 및 약속과 같은 개념을 소개하여 유연성과 비동기 프로그래밍 기능을 향상시킵니다.

JavaScript 엔진 : 구현 비교Apr 13, 2025 am 12:05 AM

각각의 엔진의 구현 원리 및 최적화 전략이 다르기 때문에 JavaScript 엔진은 JavaScript 코드를 구문 분석하고 실행할 때 다른 영향을 미칩니다. 1. 어휘 분석 : 소스 코드를 어휘 단위로 변환합니다. 2. 문법 분석 : 추상 구문 트리를 생성합니다. 3. 최적화 및 컴파일 : JIT 컴파일러를 통해 기계 코드를 생성합니다. 4. 실행 : 기계 코드를 실행하십시오. V8 엔진은 즉각적인 컴파일 및 숨겨진 클래스를 통해 최적화하여 Spidermonkey는 유형 추론 시스템을 사용하여 동일한 코드에서 성능이 다른 성능을 제공합니다.

브라우저 너머 : 실제 세계의 JavaScriptApr 12, 2025 am 12:06 AM

실제 세계에서 JavaScript의 응용 프로그램에는 서버 측 프로그래밍, 모바일 애플리케이션 개발 및 사물 인터넷 제어가 포함됩니다. 1. 서버 측 프로그래밍은 Node.js를 통해 실현되며 동시 요청 처리에 적합합니다. 2. 모바일 애플리케이션 개발은 재교육을 통해 수행되며 크로스 플랫폼 배포를 지원합니다. 3. Johnny-Five 라이브러리를 통한 IoT 장치 제어에 사용되며 하드웨어 상호 작용에 적합합니다.

Next.js (백엔드 통합)로 멀티 테넌트 SAAS 애플리케이션 구축Apr 11, 2025 am 08:23 AM

일상적인 기술 도구를 사용하여 기능적 다중 테넌트 SaaS 응용 프로그램 (Edtech 앱)을 구축했으며 동일한 작업을 수행 할 수 있습니다. 먼저, 다중 테넌트 SaaS 응용 프로그램은 무엇입니까? 멀티 테넌트 SAAS 응용 프로그램은 노래에서 여러 고객에게 서비스를 제공 할 수 있습니다.

Next.js (Frontend Integration)를 사용하여 멀티 테넌트 SaaS 응용 프로그램을 구축하는 방법Apr 11, 2025 am 08:22 AM

이 기사에서는 Contrim에 의해 확보 된 백엔드와의 프론트 엔드 통합을 보여 주며 Next.js를 사용하여 기능적인 Edtech SaaS 응용 프로그램을 구축합니다. Frontend는 UI 가시성을 제어하기 위해 사용자 권한을 가져오고 API가 역할 기반을 준수하도록합니다.

JavaScript : 웹 언어의 다양성 탐색Apr 11, 2025 am 12:01 AM

JavaScript는 현대 웹 개발의 핵심 언어이며 다양성과 유연성에 널리 사용됩니다. 1) 프론트 엔드 개발 : DOM 운영 및 최신 프레임 워크 (예 : React, Vue.js, Angular)를 통해 동적 웹 페이지 및 단일 페이지 응용 프로그램을 구축합니다. 2) 서버 측 개발 : Node.js는 비 차단 I/O 모델을 사용하여 높은 동시성 및 실시간 응용 프로그램을 처리합니다. 3) 모바일 및 데스크탑 애플리케이션 개발 : 크로스 플랫폼 개발은 개발 효율을 향상시키기 위해 반응 및 전자를 통해 실현됩니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

Dreamweaver Mac版

시각적 웹 개발 도구

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.