単純な Web ページ画像キャプチャの Python 実装の詳細な例-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

単純な Web ページ画像キャプチャの Python 実装の詳細な例

小云云

Dec 18, 2017 am 10:52 AM

python成し遂げる単純

この記事では主に、Python での単純な Web ページの画像取得の完全なコード例を紹介します。これには一定の参考値があり、必要な友人はそれを参照できます。

Python を使用してネットワークイメージをキャプチャする手順は次のとおりです:
1. 指定された URL に従って Web ページのソースコードを取得します
2. 正規表現を使用してソースコード内の画像アドレスをフィルターします
3. に従ってダウンロードします。フィルタリングされた画像アドレスネットワーク画像

以下は、特定の Baidu Tieba Web ページから画像を取得する比較的単純な実装です:

# -*- coding: utf-8 -*- 
# feimengjuan 
import re 
import urllib 
import urllib2 
#抓取网页图片  
#根据给定的网址来获取网页详细信息，得到的html就是网页的源代码 
def getHtml(url): 
  page = urllib.urlopen(url) 
  html = page.read() 
  return html 
 def getImg(html): 
  #利用正则表达式把源代码中的图片地址过滤出来 
  reg = r&#39;src="(.+?\.jpg)" pic_ext&#39; 
  imgre = re.compile(reg) 
  imglist = imgre.findall(html) #表示在整个网页中过滤出所有图片的地址，放在imglist中 
  x = 0 
  for imgurl in imglist: 
    urllib.urlretrieve(imgurl,&#39;%s.jpg&#39; %x) #打开imglist中保存的图片网址，并下载图片保存在本地 
    x = x + 1 
 html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息，得到的html就是网页的源代码 
getImg(html)#从网页源代码中分析并下载保存图片

さらにコードを整理し、画像を保存するためにローカルに「画像」フォルダーを作成しました

# -*- coding: utf-8 -*- 
# feimengjuan 
import re 
import urllib 
import urllib2 
import os 
#抓取网页图片  
#根据给定的网址来获取网页详细信息，得到的html就是网页的源代码 
def getHtml(url): 
  page = urllib.urlopen(url) 
  html = page.read() 
  return html 
 
#创建保存图片的文件夹 
def mkdir(path): 
  path = path.strip() 
  # 判断路径是否存在 
  # 存在  True 
  # 不存在 Flase 
  isExists = os.path.exists(path) 
  if not isExists: 
    print u&#39;新建了名字叫做&#39;,path,u&#39;的文件夹&#39; 
    # 创建目录操作函数 
    os.makedirs(path) 
    return True 
  else: 
    # 如果目录存在则不创建，并提示目录已经存在 
    print u&#39;名为&#39;,path,u&#39;的文件夹已经创建成功&#39; 
    return False 
# 输入文件名，保存多张图片 
def saveImages(imglist,name): 
  number = 1 
  for imageURL in imglist: 
    splitPath = imageURL.split(&#39;.&#39;) 
    fTail = splitPath.pop() 
    if len(fTail) > 3: 
      fTail = &#39;jpg&#39; 
    fileName = name + "/" + str(number) + "." + fTail 
    # 对于每张图片地址，进行保存 
    try: 
      u = urllib2.urlopen(imageURL) 
      data = u.read() 
      f = open(fileName,&#39;wb+&#39;) 
      f.write(data) 
      print u&#39;正在保存的一张图片为&#39;,fileName 
      f.close() 
    except urllib2.URLError as e: 
      print (e.reason) 
    number += 1  
#获取网页中所有图片的地址 
def getAllImg(html): 
  #利用正则表达式把源代码中的图片地址过滤出来 
  reg = r&#39;src="(.+?\.jpg)" pic_ext&#39; 
  imgre = re.compile(reg) 
  imglist = imgre.findall(html) #表示在整个网页中过滤出所有图片的地址，放在imglist中 
  return imglist   
#创建本地保存文件夹，并下载保存图片 
if __name__ == &#39;__main__&#39;: 
  html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息，得到的html就是网页的源代码 
  path = u&#39;图片&#39; 
  mkdir(path) #创建本地文件夹 
  imglist = getAllImg(html) #获取图片的地址列表 
  saveImages(imglist,path) # 保存图片

その結果、スクリーンショットなどの数十枚の写真が「ピクチャ」フォルダーに保存されます:

関連する推奨事項:

PHP の簡単な Web ページの画像取得クラス

写真の配置方法ここからローカルにフェッチ

PHP+Ajaxリモートイメージグラバーのダウンロード例

以上が単純な Web ページ画像キャプチャの Python 実装の詳細な例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonアレイをどのようにスライスしますか？May 01, 2025 am 12:18 AM

Pythonリストスライスの基本的な構文はリストです[start：stop：step]。 1.STARTは最初の要素インデックス、2。ストップは除外された最初の要素インデックスであり、3.ステップは要素間のステップサイズを決定します。スライスは、データを抽出するためだけでなく、リストを変更および反転させるためにも使用されます。

どのような状況で、リストは配列よりもパフォーマンスが向上しますか？May 01, 2025 am 12:06 AM

ListSoutPerformArraysIn：1）ダイナミシジョンアンドフレーケンティオン/削除、2）ストーリングヘテロゼンダタ、および3）メモリ効率の装飾、ButmayhaveslightPerformancostsinceNASOPERATIONS。

PythonアレイをPythonリストに変換するにはどうすればよいですか？May 01, 2025 am 12:05 AM

toconvertapythonarraytoalist、usetheList（）constructororageneratorexpression.1）importhearraymoduleandcreateanarray.2）useList（arr）または[xforxinarr] toconvertoalistは、largedatatessを変えることを伴うものです。

Pythonにリストが存在する場合、配列を使用する目的は何ですか？May 01, 2025 am 12:04 AM

choosearraysoverlistsinperbetterperformance andmemoryeficiencyspecificscenarios.1）largeNumericaldatasets：Araysreducememoryusage.2）パフォーマンス - クリティカル操作：ArraysOfferSpeedBoostsfortsfortsclikeappendedoring.3）タイプリー：Arrayesenforc

リストの要素と配列を繰り返す方法を説明します。May 01, 2025 am 12:01 AM

Pythonでは、ループに使用し、列挙し、包括的なリストを通過することができます。 Javaでは、従来のループを使用し、ループを強化してアレイを通過することができます。 1。Pythonリストトラバーサル方法は、ループ、列挙、およびリスト理解のためのものです。 2。Javaアレイトラバーサル法には、従来のループとループ用の強化が含まれます。

Python Switchステートメントとは何ですか？Apr 30, 2025 pm 02:08 PM

この記事では、バージョン3.10で導入されたPythonの新しい「マッチ」ステートメントについて説明します。これは、他の言語のスイッチステートメントに相当するものです。コードの読みやすさを向上させ、従来のif-elif-elよりもパフォーマンスの利点を提供します

Pythonの例外グループとは何ですか？Apr 30, 2025 pm 02:07 PM

Python 3.11の例外グループは、複数の例外を同時に処理することで、同時シナリオと複雑な操作でエラー管理を改善します。

Pythonの関数注釈とは何ですか？Apr 30, 2025 pm 02:06 PM

Pythonの関数注釈は、タイプチェック、ドキュメント、およびIDEサポートの関数にメタデータを追加します。それらはコードの読みやすさ、メンテナンスを強化し、API開発、データサイエンス、ライブラリの作成において重要です。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SublimeText3 中国語版

中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。