Rampage コミックの GIF 画像をキャプチャするための Python クローラーを記述するサンプルコードを説明する-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Rampage コミックの GIF 画像をキャプチャするための Python クローラーを記述するサンプルコードを説明する

高洛峰

Mar 10, 2017 pm 01:53 PM

この記事では、Rampage Comic で GIF 画像をキャプチャするための Python クローラーのサンプルコードを記述する方法を説明します。サンプルコードは Python3 であり、urllib モジュール、リクエストモジュール、および BeautifulSoup モジュールを使用します。必要な友達はそれを参照できます。この記事で紹介するのは、オフラインで表示するために Rampage Comic から興味深い GIF を取得することです。クローラーは python3.3 を使用して開発され、主に urllib、request、および BeautifulSoup モジュールを使用しました。

urllib モジュールは、World Wide Web からデータを取得するための高レベルのインターフェイスを提供します。urlopen() を使用して URL を開くことは、Python の組み込みの open() を使用してファイルを開くことと同じです。しかし、違いは、前者は URL をパラメータとして受け取り、開いているファイルストリームに対してシーク操作を実行する方法がないことです (低レベルの観点から見ると、実際にはソケットを操作しているため、はシーク操作を実行する方法ではありません)、後者では受信されるのはローカルファイル名です。

Python の BeautifulSoup モジュールは、HTML と XML の解析に役立ちます

まず、通常、Web クローラーを作成します。つまり、HTML ソースコードと Web ページのその他のコンテンツをクロールし、対応するコンテンツを分析して抽出します。

このような HTML コンテンツの分析作業は、通常の正規表現 re モジュールを使用して少しずつ一致させるだけであれば、単純なコンテンツの Web ページを分析するのに基本的に十分です。
しかし、重いワークロードと複雑なコンテンツを含む HTML を解析する必要がある場合、re モジュールを使用して実装するのは不可能または困難であることがわかります。
beautifulsoup モジュールを使用して HTML ソースコードを分析すると、作業が非常に簡単になり、HTML ソースコードの分析効率が大幅に向上することがわかります。
注: BeautifulSoup はサードパーティのライブラリであり、私は bs4 を使用しています。 urllib2 は python3 の urllib.request に割り当てられます。ドキュメント内の原文は次のとおりです。
注: urllib2 モジュールは、Python 3 の urllib.request および urllib.error という名前の複数のモジュールに分割されています。
クローラーのソースコードは次のとおりです

# -*- coding: utf-8 -*-

import urllib.request
import bs4,os

page_sum = 1 #设置下载页数

path = os.getcwd()
path = os.path.join(path,&#39;暴走GIF&#39;)
if not os.path.exists(path):
  os.mkdir(path)                 #创建文件夹

url = "http://baozoumanhua.com/gif/year"   #url地址
headers = {                     #伪装浏览器
  &#39;User-Agent&#39;:&#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)&#39;
         &#39; Chrome/32.0.1700.76 Safari/537.36&#39;
}

for count in range(page_sum):
  req = urllib.request.Request(
    url = url+str(count+1),
    headers = headers
  )
  print(req.full_url)
  content = urllib.request.urlopen(req).read()

  soup = bs4.BeautifulSoup(content)          # BeautifulSoup
  img_content = soup.findAll(&#39;img&#39;,attrs={&#39;style&#39;:&#39;width:460px&#39;})

  url_list = [img[&#39;src&#39;] for img in img_content]   #列表推导 url
  title_list = [img[&#39;alt&#39;] for img in img_content]  #图片名称

  for i in range(url_list.__len__()) :
    imgurl = url_list[i]
    filename = path + os.sep +title_list[i] + ".gif"
    print(filename+":"+imgurl)             #打印下载信息
    urllib.request.urlretrieve(imgurl,filename)    #下载图片

15 行目で、ダウンロードされる数を変更できますpython baozougif.py コマンドを実行すると、同じディレクトリに「Rampage GIF」のフォルダーが生成され、すべての画像がこのディレクトリに自動的にダウンロードされます。

以上がRampage コミックの GIF 画像をキャプチャするための Python クローラーを記述するサンプルコードを説明するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonを使用した科学コンピューティングでアレイはどのように使用されていますか？Apr 25, 2025 am 12:28 AM

Arraysinpython、特にvianumpy、arecrucialinscientificComputing fortheirefficienty andversitility.1）彼らは、fornumericaloperations、data analysis、andmachinelearning.2）numpy'simplementation incensuresfasteroperationsthanpasteroperations.3）arayableminablecickick

同じシステムで異なるPythonバージョンをどのように処理しますか？Apr 25, 2025 am 12:24 AM

Pyenv、Venv、およびAnacondaを使用して、さまざまなPythonバージョンを管理できます。 1）Pyenvを使用して、複数のPythonバージョンを管理します。Pyenvをインストールし、グローバルバージョンとローカルバージョンを設定します。 2）VENVを使用して仮想環境を作成して、プロジェクトの依存関係を分離します。 3）Anacondaを使用して、データサイエンスプロジェクトでPythonバージョンを管理します。 4）システムレベルのタスク用にシステムPythonを保持します。これらのツールと戦略を通じて、Pythonのさまざまなバージョンを効果的に管理して、プロジェクトのスムーズな実行を確保できます。

標準のPythonアレイでnumpyアレイを使用することの利点は何ですか？Apr 25, 2025 am 12:21 AM

numpyarrayshaveveraladvantages-averstandardpythonarrays：1）thealmuchfasterduetocベースのインプレンテーション、2）アレモレメモリ効率、特にlargedatasets、および3）それらは、拡散化された、構造化された形成術科療法、

アレイの均質な性質はパフォーマンスにどのように影響しますか？Apr 25, 2025 am 12:13 AM

パフォーマンスに対する配列の均一性の影響は二重です。1）均一性により、コンパイラはメモリアクセスを最適化し、パフォーマンスを改善できます。 2）しかし、タイプの多様性を制限し、それが非効率につながる可能性があります。要するに、適切なデータ構造を選択することが重要です。

実行可能なPythonスクリプトを作成するためのベストプラクティスは何ですか？Apr 25, 2025 am 12:11 AM

craftexecutablepythonscripts、次のようになります

numpyアレイは、アレイモジュールを使用して作成された配列とどのように異なりますか？Apr 24, 2025 pm 03:53 PM

numpyarraysarasarebetterfornumeroperations andmulti-dimensionaldata、whilethearraymoduleissuitable forbasic、1）numpyexcelsinperformance and forlargedatasentassandcomplexoperations.2）thearraymuremememory-effictientivearientfa

Numpyアレイの使用は、Pythonで配列モジュール配列の使用と比較してどのように比較されますか？Apr 24, 2025 pm 03:49 PM

NumPyArraySareBetterforHeavyNumericalComputing、whilethearrayarayismoreSuitableformemory-constrainedprojectswithsimpledatatypes.1）numpyarraysofferarays andatiledance andpeperancedatasandatassandcomplexoperations.2）thearraymoduleisuleiseightweightandmemememe-ef

CTypesモジュールは、Pythonの配列にどのように関連していますか？Apr 24, 2025 pm 03:45 PM

ctypesallowsinging andmanipulatingc-stylearraysinpython.1）usectypestointerfacewithclibrariesforperformance.2）createc-stylearraysfornumericalcomputations.3）passarraystocfunctions foreffientientoperations.how、how、becuutiousmorymanagemation、performanceo

See all articles