デジタル時代ではデータは貴重な資産であり、Web スクレイピングは Web サイトから情報を抽出するための不可欠なツールとなっています。この記事では、Web スクレイピング用の 2 つの人気のある Python ライブラリ、Beautiful Soup と Scrapy について説明します。これらの機能を詳しく掘り下げ、実際に動作するコード例を提供し、責任ある Web スクレイピングのベスト プラクティスについて説明します。
Webスクレイピングの概要
Web スクレイピングは、Web サイトからデータを抽出する自動プロセスです。データ分析、機械学習、競合分析など、さまざまな分野で広く利用されています。ただし、Web スクレイピングは、Web サイトの利用規約と法的境界を尊重するために、責任を持って実行する必要があります。
美しいスープ: 初心者に優しいライブラリ
Beautiful Soup は、Web スクレイピング タスクを迅速かつ簡単に実行できるように設計された Python ライブラリです。これは、HTML および XML ドキュメントを解析し、そこからデータを抽出する場合に特に役立ちます。 Beautiful Soup は、解析ツリーを反復、検索、変更するための Python のイディオムを提供します。
主な特長
- 使いやすさ: Beautiful Soup は初心者に優しく、簡単に習得できます。
- 柔軟な解析: 不正なマークアップを含む HTML および XML ドキュメントを解析できます。
- 統合: Web ページを取得するリクエストなど、他の Python ライブラリとうまく連携します。
インストール中
Beautiful Soup を使い始めるには、リクエスト ライブラリと一緒にインストールする必要があります。
pip install beautifulsoup4 requests
基本的な例
サンプルのブログ ページから記事のタイトルを抽出してみましょう:
import requests from bs4 import BeautifulSoup # Fetch the web page url = 'https://example-blog.com' response = requests.get(url) # Check if the request was successful if response.status_code == 200: # Parse the HTML content soup = BeautifulSoup(response.text, 'html.parser') # Extract article titles titles = soup.find_all('h1', class_='entry-title') # Check if titles were found if titles: for title in titles: # Extract and print the text of each title print(title.get_text(strip=True)) else: print("No titles found. Please check the HTML structure and update the selector.") else: print(f"Failed to retrieve the page. Status code: {response.status_code}")
利点
- シンプルさ: 小規模から中規模のプロジェクトに最適です。
- 堅牢性: 不適切にフォーマットされた HTML を適切に処理します。
Scrapy: 強力な Web スクレイピング フレームワーク
Scrapy は、大規模なデータ抽出のためのツールを提供する包括的な Web スクレイピング フレームワークです。パフォーマンスと柔軟性を考慮して設計されているため、複雑なプロジェクトに適しています。
主な特長
- 速度と効率: 非同期リクエストの組み込みサポート。
- 拡張性: ミドルウェアとパイプラインで高度にカスタマイズ可能。
- 組み込みのデータ エクスポート: JSON、CSV、XML などのさまざまな形式でのデータのエクスポートをサポートします。
インストール中
pip を使用して Scrapy をインストールします:
pip install scrapy
基本的な例
Scrapy をデモンストレーションするために、Web サイトから引用を取得するスパイダーを作成します。
- Scrapy プロジェクトを作成する:
pip install beautifulsoup4 requests
- スパイダーを定義: Spiders ディレクトリにファイル quotes_spider.py を作成します。
import requests from bs4 import BeautifulSoup # Fetch the web page url = 'https://example-blog.com' response = requests.get(url) # Check if the request was successful if response.status_code == 200: # Parse the HTML content soup = BeautifulSoup(response.text, 'html.parser') # Extract article titles titles = soup.find_all('h1', class_='entry-title') # Check if titles were found if titles: for title in titles: # Extract and print the text of each title print(title.get_text(strip=True)) else: print("No titles found. Please check the HTML structure and update the selector.") else: print(f"Failed to retrieve the page. Status code: {response.status_code}")
- スパイダーを実行: スパイダーを実行してデータを収集します。
pip install scrapy
利点
- スケーラビリティ: 大規模なスクレイピング プロジェクトを効率的に処理します。
- 組み込み機能: リクエストのスケジューリングやデータ パイプラインなどの堅牢な機能を提供します。
責任ある Web スクレイピングのベスト プラクティス
Web スクレイピングは強力なツールですが、責任を持って使用することが重要です。
- Robots.txt を尊重する: ウェブサイトの robots.txt ファイルを常にチェックして、どのページがスクレイピングできるかを理解してください。
- レート制限: サーバーに負荷がかかるのを避けるために、リクエスト間の遅延を実装します。
- ユーザー エージェントのローテーション: 異なるユーザー エージェント文字列を使用して、実際のユーザーの動作を模倣します。
- 法的遵守: 法的要件とウェブサイトの利用規約を確実に遵守します。
結論
Beautiful Soup と Scrapy は、Web スクレイピングのための強力なツールであり、それぞれに長所があります。 Beautiful Soup は初心者や小規模なプロジェクトに最適ですが、Scrapy は大規模で複雑なスクレイピング タスクに適しています。ベスト プラクティスに従うことで、効率的かつ責任を持ってデータを抽出し、貴重な洞察を得ることができます
注: AI 支援コンテンツ
以上が美しいスープとスクレイピーを使用した Web スクレイピング: 効率的かつ責任を持ってデータを抽出するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

AlaySaregenerallymorememory-effictient forstring forstring inumericaldataduetotheirfixed-sizenature anddirectmoryaccess.1)AraysstoreElementsinaCourowlock、Reducingoverheadfrompointertersormetadata.2)リスト

ToconvertaPythonlisttoanarray,usethearraymodule:1)Importthearraymodule,2)Createalist,3)Usearray(typecode,list)toconvertit,specifyingthetypecodelike'i'forintegers.Thisconversionoptimizesmemoryusageforhomogeneousdata,enhancingperformanceinnumericalcomp

Pythonリストは、さまざまな種類のデータを保存できます。サンプルリストには、整数、文字列、フローティングポイント番号、ブール膜、ネストされたリスト、辞書が含まれています。リストの柔軟性は、データ処理とプロトタイピングにおいて価値がありますが、コードの読みやすさと保守性を確保するためには注意して使用する必要があります。

Pythondoesnothavebuiltinarays; usethearmoduleformemory-efficienthogeneousdatastorage、while-lelistSareversatileformixeddatypes.Arraysareeffientive for forlardatedateSetsetype、wheneasofferistofibuliestibuliestuseduseerieartusedoersorerdatatess。

sostCommonlylysedModule forcreatinginpythonisnumpy.1)numProvidesefficientToolsForArrayoperations、理想的なfornumericaldata.2)arrayscanbecreatedusingnp.array()for1dand2dstructures.3)

toAppendElementStoapyThonList、usetheappend()methodforsingleelements、extend()formultipleElements、andinsert()forspecificopsitions.1)useappend()foraddingoneElementatheend.2)useextend()toaddmultipleelementseffictience.3)

To CreateapythonList、usesquareBrackets []およびSeparateItemswithcommas.1)listsaredynamicandcanholdmixdatatypes.2)useappend()、remaid()、andslicingformanipulation.3)listcompreheNsionsionsionsionsionsionsionsionsionsionsionsionsionsionsionsionsionsientionforcreating.4)

金融、科学研究、医療、およびAIの分野では、数値データを効率的に保存および処理することが重要です。 1)財務では、メモリマッピングされたファイルとnumpyライブラリを使用すると、データ処理速度が大幅に向上する可能性があります。 2)科学研究の分野では、HDF5ファイルはデータストレージと取得用に最適化されています。 3)医療では、インデックス作成やパーティション化などのデータベース最適化テクノロジーがデータのパフォーマンスを向上させます。 4)AIでは、データシャーディングと分散トレーニングがモデルトレーニングを加速します。システムのパフォーマンスとスケーラビリティは、適切なツールとテクノロジーを選択し、ストレージと処理速度の間のトレードオフを検討することにより、大幅に改善できます。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

WebStorm Mac版
便利なJavaScript開発ツール
