実用的な共有: Nodejs を使用して 10,000 を超える画像をクロールしてダウンロードする-jsチュートリアル-php.cn

ホームページ

ウェブフロントエンド

jsチュートリアル

実用的な共有: Nodejs を使用して 10,000 を超える画像をクロールしてダウンロードする

青灯夜游

Mar 24, 2022 pm 07:49 PM

nodejs

この記事では、著者が nodejs を使用して 10,000 枚以上の妹の壁紙をクロールした方法を確認するための node の実践的な経験を共有します。

実用的な共有: Nodejs を使用して 10,000 を超える画像をクロールしてダウンロードする

皆さん、こんにちは。私は Xiaoma です。なぜそんなにたくさんの写真をダウンロードする必要があるのですか? 数日前、uni-app uniCloud を使用して壁紙アプレットを無料でデプロイしましたが、アプレットにコンテンツを埋め込むためのリソースが必要になりました。

画像をクロールする

最初にプロジェクトを初期化し、axios と cheerio

npm init -y && npm i axios cheerio

axios をインストールします。 Web コンテンツをクロールする場合、cheerio はサーバー側の jquery API であり、これを使用して dom 内の画像アドレスを取得します;

const axios = require(&#39;axios&#39;)
const cheerio = require(&#39;cheerio&#39;)

function getImageUrl(target_url, containerEelment) {
  let result_list = []
  const res = await axios.get(target_url)
  const html = res.data
  const $ = cheerio.load(html)
  const result_list = []
  $(containerEelment).each((element) => {
    result_list.push($(element).find(&#39;img&#39;).attr(&#39;src&#39;))
  })
  return result_list
}

このようにして、画像の URL を取得できますページ内で。次に、URLに従って画像をダウンロードする必要があります。

nodejs を使用してファイルをダウンロードする方法

方法 1: 組み込みモジュール「https」と「fs」を使用する

使用nodejs ファイルのダウンロードは、組み込みパッケージまたはサードパーティのライブラリを使用して実行できます。

GET メソッドは、ダウンロードするファイルを取得するために HTTPS で使用されます。 createWriteStream() は、書き込み可能なストリームを作成するために使用されるメソッドで、ファイルの保存場所であるパラメーターを 1 つだけ受け取ります。 Pipe() は、読み取り可能なストリームからデータを読み取り、書き込み可能なストリームにデータを書き込むメソッドです。

const fs = require(&#39;fs&#39;)
const https = require(&#39;https&#39;)

// URL of the image
const url = &#39;GFG.jpeg&#39;

https.get(url, (res) => {
  // Image will be stored at this path
  const path = `${__dirname}/files/img.jpeg`
  const filePath = fs.createWriteStream(path)
  res.pipe(filePath)
  filePath.on(&#39;finish&#39;, () => {
    filePath.close()
    console.log(&#39;Download Completed&#39;)
  })
})

方法 2: DownloadHelper

npm install node-downloader-helper

次は、Web サイトから画像をダウンロードするコードです。オブジェクト dl はクラス DownloadHelper によって作成され、次の 2 つのパラメータを受け取ります:

ダウンロードされるイメージ。
ダウンロード後に画像を保存する必要があるパス。

File 変数にはダウンロードされる画像の URL が含まれ、filePath 変数には保存されるファイルへのパスが含まれます。

const { DownloaderHelper } = require(&#39;node-downloader-helper&#39;)

// URL of the image
const file = &#39;GFG.jpeg&#39;
// Path at which image will be downloaded
const filePath = `${__dirname}/files`

const dl = new DownloaderHelper(file, filePath)

dl.on(&#39;end&#39;, () => console.log(&#39;Download Completed&#39;))
dl.start()

方法 3: ダウンロードを使用する

は npm マスター sindresorhus によって作成されており、非常に使いやすいです

npm install download

以下は、Web サイトから画像をダウンロードするコードです。ダウンロード関数は、ファイルとファイルパスを受け取ります。

const download = require(&#39;download&#39;)

// Url of the image
const file = &#39;GFG.jpeg&#39;
// Path at which image will get downloaded
const filePath = `${__dirname}/files`

download(file, filePath).then(() => {
  console.log(&#39;Download Completed&#39;)
})

最終コード

当初は Baidu の壁紙をクロールしたかったのですが、解像度が十分ではなく、透かしなどが入っていました。その後、グループの友人が API を見つけました。某モバイルアプリの高画質壁紙は、ダウンロードURLを直接取得できるので、直接利用させていただきました。

次は完全なコードです

const download = require(&#39;download&#39;)
const axios = require(&#39;axios&#39;)

let headers = {
  &#39;User-Agent&#39;:
    &#39;Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36&#39;,
}

function sleep(time) {
  return new Promise((reslove) => setTimeout(reslove, time))
}

async function load(skip = 0) {
  const data = await axios
    .get(
      &#39;http://service.picasso.adesk.com/v1/vertical/category/4e4d610cdf714d2966000000/vertical&#39;,
      {
        headers,
        params: {
          limit: 30, // 每页固定返回30条
          skip: skip,
          first: 0,
          order: &#39;hot&#39;,
        },
      }
    )
    .then((res) => {
      return res.data.res.vertical
    })
    .catch((err) => {
      console.log(err)
    })
  await downloadFile(data)
  await sleep(3000)
  if (skip < 1000) {
    load(skip + 30)
  } else {
    console.log(&#39;下载完成&#39;)
  }
}

async function downloadFile(data) {
  for (let index = 0; index < data.length; index++) {
    const item = data[index]

    // Path at which image will get downloaded
    const filePath = `${__dirname}/美女`

    await download(item.wp, filePath, {
      filename: item.id + &#39;.jpeg&#39;,
      headers,
    }).then(() => {
      console.log(`Download ${item.id} Completed`)
      return
    })
  }
}

load()

上記のコードでは、最初に User-Agent を設定し、3 秒の遅延を設定する必要があります。これにより、サーバーがブロックされるのを防ぐことができますクローラーに直接アクセスして 403 を返します。

直接 nodeindex.js を実行すると、イメージが自動的にダウンロードされます。

実用的な共有: Nodejs を使用して 10,000 を超える画像をクロールしてダウンロードする、

体験

WeChat アプレット検索「水瓜图」体験。

https://p6-juejin.byreimg.com/tos-cn-i-k3u1fbpfcp/c5301b8b97094e92bfae240d7eb1ec5e~tplv-k3u1fbpfcp-zoom-1.awebp?

その他のノード関連知識については、nodejs チュートリアルをご覧ください。

以上が実用的な共有: Nodejs を使用して 10,000 を超える画像をクロールしてダウンロードするの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は掘金社区で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

C/CからJavaScriptへ：すべてがどのように機能するかApr 14, 2025 am 12:05 AM

C/CからJavaScriptへのシフトには、動的なタイピング、ゴミ収集、非同期プログラミングへの適応が必要です。 1）C/Cは、手動メモリ管理を必要とする静的に型付けられた言語であり、JavaScriptは動的に型付けされ、ごみ収集が自動的に処理されます。 2）C/Cはマシンコードにコンパイルする必要がありますが、JavaScriptは解釈言語です。 3）JavaScriptは、閉鎖、プロトタイプチェーン、約束などの概念を導入します。これにより、柔軟性と非同期プログラミング機能が向上します。

JavaScriptエンジン：実装の比較Apr 13, 2025 am 12:05 AM

さまざまなJavaScriptエンジンは、各エンジンの実装原則と最適化戦略が異なるため、JavaScriptコードを解析および実行するときに異なる効果をもたらします。 1。語彙分析：ソースコードを語彙ユニットに変換します。 2。文法分析：抽象的な構文ツリーを生成します。 3。最適化とコンパイル：JITコンパイラを介してマシンコードを生成します。 4。実行：マシンコードを実行します。 V8エンジンはインスタントコンピレーションと非表示クラスを通じて最適化され、Spidermonkeyはタイプ推論システムを使用して、同じコードで異なるパフォーマンスパフォーマンスをもたらします。

ブラウザを超えて：現実世界のJavaScriptApr 12, 2025 am 12:06 AM

現実世界におけるJavaScriptのアプリケーションには、サーバー側のプログラミング、モバイルアプリケーション開発、モノのインターネット制御が含まれます。 2。モバイルアプリケーションの開発は、ReactNativeを通じて実行され、クロスプラットフォームの展開をサポートします。 3.ハードウェアの相互作用に適したJohnny-Fiveライブラリを介したIoTデバイス制御に使用されます。

next.jsを使用してマルチテナントSaaSアプリケーションを構築する（バックエンド統合）Apr 11, 2025 am 08:23 AM

私はあなたの日常的な技術ツールを使用して機能的なマルチテナントSaaSアプリケーション（EDTECHアプリ）を作成しましたが、あなたは同じことをすることができます。まず、マルチテナントSaaSアプリケーションとは何ですか？マルチテナントSaaSアプリケーションを使用すると、Singの複数の顧客にサービスを提供できます

next.jsを使用してマルチテナントSaaSアプリケーションを構築する方法（フロントエンド統合）Apr 11, 2025 am 08:22 AM

この記事では、許可によって保護されたバックエンドとのフロントエンド統合を示し、next.jsを使用して機能的なedtech SaaSアプリケーションを構築します。 FrontEndはユーザーのアクセス許可を取得してUIの可視性を制御し、APIリクエストがロールベースに付着することを保証します

JavaScript：Web言語の汎用性の調査Apr 11, 2025 am 12:01 AM

JavaScriptは、現代のWeb開発のコア言語であり、その多様性と柔軟性に広く使用されています。 1）フロントエンド開発：DOM操作と最新のフレームワーク（React、Vue.JS、Angularなど）を通じて、動的なWebページとシングルページアプリケーションを構築します。 2）サーバー側の開発：node.jsは、非ブロッキングI/Oモデルを使用して、高い並行性とリアルタイムアプリケーションを処理します。 3）モバイルおよびデスクトップアプリケーション開発：クロスプラットフォーム開発は、反応および電子を通じて実現され、開発効率を向上させます。

JavaScriptの進化：現在の傾向と将来の見通しApr 10, 2025 am 09:33 AM

JavaScriptの最新トレンドには、TypeScriptの台頭、最新のフレームワークとライブラリの人気、WebAssemblyの適用が含まれます。将来の見通しは、より強力なタイプシステム、サーバー側のJavaScriptの開発、人工知能と機械学習の拡大、およびIoTおよびEDGEコンピューティングの可能性をカバーしています。

javascriptの分解：それが何をするのか、なぜそれが重要なのかApr 09, 2025 am 12:07 AM

JavaScriptは現代のWeb開発の基礎であり、その主な機能には、イベント駆動型のプログラミング、動的コンテンツ生成、非同期プログラミングが含まれます。 1）イベント駆動型プログラミングにより、Webページはユーザー操作に応じて動的に変更できます。 2）動的コンテンツ生成により、条件に応じてページコンテンツを調整できます。 3）非同期プログラミングにより、ユーザーインターフェイスがブロックされないようにします。 JavaScriptは、Webインタラクション、シングルページアプリケーション、サーバー側の開発で広く使用されており、ユーザーエクスペリエンスとクロスプラットフォーム開発の柔軟性を大幅に改善しています。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。