Selenium と Python を使用した堅牢な Web オートメーションの構築-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Selenium と Python を使用した堅牢な Web オートメーションの構築

DDD

Jan 07, 2025 am 12:04 AM

Web の自動化は、現代のソフトウェア開発とテストにおいて不可欠なツールとなっています。この包括的な Selenium Python チュートリアルでは、現実世界のシナリオを処理できる堅牢な Web オートメーションフレームワークを構築する方法を学びます。 Python での自動テストの実装や、複雑な Web スクレイピング自動化ソリューションの作成に興味がある場合は、このガイドで業界でテスト済みのアプローチと Selenium のベストプラクティスを説明します。

Web オートメーションの基礎を理解する

Web 自動化は、最新のソフトウェア開発、テスト、データ収集において不可欠です。そのアプリケーションは、Web アプリケーションのエンドツーエンドのテストから、フォームの送信や Web スクレイピングなどの反復的なワークフローの簡素化まで多岐にわたります。 Selenium WebDriver Python の統合は強力な機能を提供しますが、堅牢な Web 自動化は、単にユーザー操作を模倣するスクリプトを作成するだけではありません。それは、ターゲット Web アプリケーションへの変更に対する保守性、適応性、回復力を備えたワークフローとフレームワークを設計することです。

以下は、このチュートリアル全体で説明する重要な側面です:

適切なロケーター (XPath、CSS など) の選択
動的要素と状態読み込み
再試行メカニズムの実装
ブラウザセッションを適切に管理する
コードの保守性構造

Selenium のベストプラクティスを遵守しながら、これらの概念を実証するデモサイトとして Books to Scrape を使用して、電子商取引 Web サイトの価格トラッカーのための Web スクレイピング自動化プロジェクトを構築します。

前提条件

このチュートリアルを進めるには、次のものが必要です:

Python 3.x がマシンにインストールされています。
Python プログラミングの基礎知識
Selenium を使用した Web スクレイピングの基礎知識

このチュートリアルのコードは github リポジトリで入手できます。自由にクローンを作成して手順に従ってください。

開発環境のセットアップ

適切な開発環境をセットアップし、必要な Python パッケージをインストールしましょう。まず、以下のコマンドを実行して、プロジェクトフォルダーと新しい仮想環境を作成します。

mkdir price_tracker_automation && cd price_tracker_automation
python3 -m venv env
source env/bin/activate

次に、次の Python パッケージを作成して、requirements.txt ファイルに追加します。

selenium==4.16.0
webdriver-manager==4.0.1
python-dotenv==1.0.0
requests==2.31.0

上記のコードでは、コアの依存関係を定義しました。 Selenium パッケージは Web 自動化フレームワークの基盤を提供し、webdriver-manager はブラウザードライバーの管理を自動的に処理します。 python-dotenv パッケージは環境設定用であり、requests パッケージは HTTP リクエストの処理用です。

次に、以下のコマンドを実行して、requirements.txt ファイルにすべての Python パッケージをインストールします。

pip install -r requirements.txt

最後に、プロジェクト用に次のフォルダー構造を作成します。

mkdir price_tracker_automation && cd price_tracker_automation
python3 -m venv env
source env/bin/activate

ここでは、ソフトウェアエンジニアリングのベストプラクティスに従って、モジュール型のプロジェクト構造を確立します。 core ディレクトリには主要な自動化コンポーネントが含まれており、database はデータの永続性を処理します。

価格追跡ツールの構築

プロジェクト環境、依存関係、フォルダー構造が作成されたので、Selenium と Python を使用して価格トラッカー自動化ツールの構築に進みましょう。

ブラウザ管理システムの実装

ブラウザ管理システムを実装しましょう。これは、安定した Selenium WebDriver Python 統合のための重要なコンポーネントです。以下のコードスニペットを core/browser.py ファイルに追加します:

selenium==4.16.0
webdriver-manager==4.0.1
python-dotenv==1.0.0
requests==2.31.0

上記のコードは、WebDriver の初期化と構成を処理する BrowserManager クラスを作成します。このクラスは、安定性とパフォーマンスのために Chrome オプションを構成することにより、Selenium のベストプラクティスを実装します。 headless パラメータを使用すると、ブラウザウィンドウを表示せずにテストを実行できます。これは CI/CD パイプラインにとって重要です。

次に、次のメソッドを BrowserManager クラスに追加して、コアのブラウザ管理機能を実装します。

pip install -r requirements.txt

上記のコードでは、start_browser メソッドは webdriver-manager を利用してドライバーのインストールと更新を自動的に処理し、close_browser は適切なリソースのクリーンアップを保証します。この実装には、動的ページの読み込みを適切に処理するための暗黙的な待機構成が含まれています。

要素ハンドラーの作成

次に、要素対話システムの実装に進みましょう。これは、Selenium のベストプラクティスに従いながら、信頼性の高い方法で要素を検出して対話できるため、Web オートメーションフレームワークにおいて重要です。コードスニペットを core/element_handler.py
に追加します。

price_tracker_automation/
├── core/
│   ├── browser.py
|   ├── scraper.py
│   └── element_handler.py
├── database/
│   └── db_manager.py
├── notifications/
|   └── price_alert.py
├── requirements.txt
├── run.py
└── main.py

上記のコードでは、Selenium WebDriver Python インタラクションパターンをカプセル化する ElementHandler クラスを作成しました。このクラスは、WebDriver インスタンスと構成可能なタイムアウトパラメーターを受け入れます。

ElementHandler クラスを更新して、コア要素の対話メソッドを追加します。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support import expected_conditions as EC
import logging

class BrowserManager:
    def __init__(self, headless=False):
        self.options = webdriver.ChromeOptions()
        if headless:
            self.options.add_argument('--headless')

        # Add additional stability options
        self.options.add_argument('--no-sandbox')
        self.options.add_argument('--disable-dev-shm-usage')
        self.options.add_argument('--disable-gpu')

        self.driver = None
        self.logger = logging.getLogger(__name__)

上記のメソッドは、Selenium の WebDriverWait と Expected_conditions を使用して要素を検出するため、要素が非同期で読み込まれる可能性のある動的 Web ページも処理できます。

テキスト抽出ロジックを実装する別のメソッドを追加します:

    def start_browser(self):
        """Initialize and return a ChromeDriver instance"""
        try:
 service = webdriver.ChromeService()
            self.driver = webdriver.Chrome(service=service, options=self.options)
            self.driver.implicitly_wait(10)
            return self.driver
        except Exception as e:
            self.logger.error(f"Failed to start browser: {str(e)}")
            raise

    def close_browser(self):
        """Safely close the browser"""
        if self.driver:
            self.driver.quit()
            self.driver = None

このメソッドには、Web オートメーションにおける一般的な課題である StaleElementReferenceException を処理するための再試行ロジックが含まれています。

価格トラッカーコアの実装

次に、自動テスト Python の概念と堅牢なエラー処理を組み込んだ、メインのスクレイピング機能を構築しましょう。以下のコードスニペットを core/scraper.py ファイルに追加します:

mkdir price_tracker_automation && cd price_tracker_automation
python3 -m venv env
source env/bin/activate

上記のコードでは、ブラウザと要素処理コンポーネントを統合する BookScraper クラスを作成しました。このクラスは、要素ロケーターを一元化し、スクレイピング操作用のクリーンな API を提供することにより、Web オートメーションフレームワーク設計の重要な概念であるページオブジェクトモデルパターンに従います。

次に、BookScraper クラスを更新して、コア製品データ抽出メソッドを追加します。

selenium==4.16.0
webdriver-manager==4.0.1
python-dotenv==1.0.0
requests==2.31.0

上記の方法では、構造化されたアプローチを使用して製品情報を収集し、デバッグと監視のための詳細なログを維持します。

データベース管理のセットアップ

スクレイピングしたデータの永続ストレージを処理する、Web オートメーションフレームワークのデータベース層を実装しましょう。このコンポーネントにより、時間の経過に伴う価格の変化を追跡できるようになります。以下のコードスニペットをデータベース/db_manager.py に追加します:

pip install -r requirements.txt

上記のコードでは、すべてのデータベース操作を処理する DatabaseManager クラスを定義しました。データベースのセットアップと構成を避けるために、シンプルさと移植性のために SQLite を使用しました。SQLite は大量のデータを保存しないため、Web スクレイピング自動化プロジェクトにも最適です。

次に、database/db_manager.py を更新してデータベース初期化メソッドを追加します。

price_tracker_automation/
├── core/
│   ├── browser.py
|   ├── scraper.py
│   └── element_handler.py
├── database/
│   └── db_manager.py
├── notifications/
|   └── price_alert.py
├── requirements.txt
├── run.py
└── main.py

ここでは、SQL DDL ステートメントを使用してデータベーススキーマを確立し、価格を追跡し、保存するデータの履歴分析を実行できるようにする適切な関係と制約を備えた、製品と価格履歴用の別個のテーブルを作成します。

次に、データをデータベースに保存する別のメソッドを追加しましょう:

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support import expected_conditions as EC
import logging

class BrowserManager:
    def __init__(self, headless=False):
        self.options = webdriver.ChromeOptions()
        if headless:
            self.options.add_argument('--headless')

        # Add additional stability options
        self.options.add_argument('--no-sandbox')
        self.options.add_argument('--disable-dev-shm-usage')
        self.options.add_argument('--disable-gpu')

        self.driver = None
        self.logger = logging.getLogger(__name__)

上記のコードでは、SQL インジェクションを防ぐためにパラメーター化されたクエリを使用してデータ永続化ロジックを実装しました。このメソッドは、SQLite の ON CONFLICT 句を使用して、挿入操作と更新操作の両方を処理します。

メインアプリケーションの統合

Selenium WebDriver Python 実装のすべての要素を組み込んで、すべてをメインアプリケーションクラスと結び付けましょう。以下のコードスニペットを main.py ファイルに追加します:

    def start_browser(self):
        """Initialize and return a ChromeDriver instance"""
        try:
 service = webdriver.ChromeService()
            self.driver = webdriver.Chrome(service=service, options=self.options)
            self.driver.implicitly_wait(10)
            return self.driver
        except Exception as e:
            self.logger.error(f"Failed to start browser: {str(e)}")
            raise

    def close_browser(self):
        """Safely close the browser"""
        if self.driver:
            self.driver.quit()
            self.driver = None

上記のコードでは、Web スクレイピング自動化ソリューションのすべてのコンポーネントを調整するメインの PriceTracker クラスを作成します。 PriceTracker クラスは、モジュール性とテスト容易性を維持するために依存関係注入パターンに従います。

次に、PriceTracker クラスを更新して、コア追跡メソッドを追加します。

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, StaleElementReferenceException

class ElementHandler:
    def __init__(self, driver, timeout=10):
        self.driver = driver
        self.timeout = timeout

ここでは、Web スクレイピングを処理し、スクレイピングされたデータを保存する主要な製品追跡ロジックを実装しました。

アプリケーションの実行

自動化スクリプトを実行するための実行スクリプトを作成しましょう。次のコードスニペットを run.py ファイルに追加します:

   def wait_for_element(self, locator, timeout=None):
        """Wait for element with retry mechanism"""
 timeout = timeout or self.timeout
        try:
 element = WebDriverWait(self.driver, timeout).until(
 EC.presence_of_element_located(locator)
 )
            return element
        except TimeoutException:
            raise TimeoutException(f"Element {locator} not found after {timeout} seconds")

    def get_text_safely(self, locator, timeout=None):
        """Safely get text from element with retry mechanism"""
 max_retries = 3
        for attempt in range(max_retries):
            try:
 element = self.wait_for_element(locator, timeout)
                return element.text.strip()
            except StaleElementReferenceException:
                if attempt == max_retries - 1:
                    raise
                continue

次に、ターミナルで次のコマンドを実行してスクリプトを実行します。

mkdir price_tracker_automation && cd price_tracker_automation
python3 -m venv env
source env/bin/activate

上記のコマンドの出力は、以下のスクリーンショットに表示されます。

Building Robust Web Automation with Selenium and Python

上記のスクリプトから、自動化スクリプトが指定されたすべての URL の価格を追跡していることがわかります。

価格変更を追跡する

現在の実装では、製品価格を追跡および保存するだけです。価格を追跡したら、価格トラッカーを強化して、価格の変更をユーザーに通知します。次のコードスニペットを notification/price_alert.py ファイルに追加します:

selenium==4.16.0
webdriver-manager==4.0.1
python-dotenv==1.0.0
requests==2.31.0

上記のコードスニペットでは、重要な依存関係を持つ PriceAlertManager クラスを作成しました。マネージャーはデータベースマネージャーインスタンスをパラメーターとして受け取り、アラート操作を追跡するためのログを設定します。このクラスは複雑な結合を使用して、現在と以前の価格を比較します。次に、動的な価格変化率の計算を実装し、価格変化情報の構造化辞書を作成しました。

次に、PriceAlertManager クラスを更新して電子メール通知機能を追加します。

pip install -r requirements.txt

ここでは、Python の電子メールと SMTP ライブラリを使用して電子メール通知を作成しました。この実装では、MIMEText クラスを使用して、適切にフォーマットされた電子メールメッセージを作成します。電子メールの本文は、f-strings を使用して動的に生成され、詳細な価格変更情報と正確な通貨形式が組み込まれます。

次に、価格アラートを含めるように実行スクリプトを変更しましょう:

price_tracker_automation/
├── core/
│   ├── browser.py
|   ├── scraper.py
│   └── element_handler.py
├── database/
│   └── db_manager.py
├── notifications/
|   └── price_alert.py
├── requirements.txt
├── run.py
└── main.py

ここでスクリプトを再度実行すると、製品の価格が追跡され、以下のスクリーンショットのように価格が変更された製品について警告が表示されます。

Building Robust Web Automation with Selenium and Python

このスクリプトを cron ジョブで実行すると、毎回手動で実行しなくても、製品の価格を追跡し、価格の変更をリアルタイムで通知できます。
例えば。 0 */6 * * * python run.py --urls
"http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html"
"http://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html"
"http://books.toscrape.com/catalogue/soumission_998/index.html"

結論

このチュートリアルを通じて、Selenium と Python を使用して堅牢な Web 自動化ツールを構築する方法を学習しました。まず Web オートメーションの基礎を理解してから、このチュートリアルのデモンストレーション用に構築した Price Traker ツールの開発環境をセットアップしました。次に、製品の価格を追跡し、価格の変更をユーザーに通知する価格トラッカーアプリケーションの構築にさらに進みました。この知識が得られたので、次はどのようなツールを構築しますか。コメント欄でお知らせください。コーディングを楽しんでください!

以上がSelenium と Python を使用した堅牢な Web オートメーションの構築の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonの融合リスト：適切な方法を選択しますMay 14, 2025 am 12:11 AM

Tomergelistsinpython、あなたはオペレーター、extendmethod、listcomfulting、olitertools.chain、それぞれの特異的advantages：1）operatorissimplebutlessforlargelist;

Python 3の2つのリストを連結する方法は？May 14, 2025 am 12:09 AM

Python 3では、2つのリストをさまざまな方法で接続できます。1）小さなリストに適したオペレーターを使用しますが、大きなリストには非効率的です。 2）メモリ効率が高い大規模なリストに適した拡張方法を使用しますが、元のリストは変更されます。 3）元のリストを変更せずに、複数のリストをマージするのに適した *オペレーターを使用します。 4）Itertools.chainを使用します。これは、メモリ効率が高い大きなデータセットに適しています。

Python Concatenateリスト文字列May 14, 2025 am 12:08 AM

Join（）メソッドを使用することは、Pythonのリストから文字列を接続する最も効率的な方法です。 1）join（）メソッドを使用して、効率的で読みやすくなります。 2）サイクルは、大きなリストに演算子を非効率的に使用します。 3）リスト理解とJoin（）の組み合わせは、変換が必要なシナリオに適しています。 4）redoce（）メソッドは、他のタイプの削減に適していますが、文字列の連結には非効率的です。完全な文は終了します。

Pythonの実行、それは何ですか？May 14, 2025 am 12:06 AM

pythonexexecutionistheprocessoftransforningpythoncodeintoexecutabletructions.1）interpreterreadSthecode、変換intobytecode、thepythonvirtualmachine（pvm）executes.2）theglobalinterpreeterlock（gil）管理委員会、

Python：重要な機能は何ですかMay 14, 2025 am 12:02 AM

Pythonの主な機能には次のものがあります。1。構文は簡潔で理解しやすく、初心者に適しています。 2。動的タイプシステム、開発速度の向上。 3。複数のタスクをサポートするリッチ標準ライブラリ。 4.強力なコミュニティとエコシステム、広範なサポートを提供する。 5。スクリプトと迅速なプロトタイピングに適した解釈。 6.さまざまなプログラミングスタイルに適したマルチパラダイムサポート。

Python：コンパイラまたはインタープリター？May 13, 2025 am 12:10 AM

Pythonは解釈された言語ですが、コンパイルプロセスも含まれています。 1）Pythonコードは最初にBytecodeにコンパイルされます。 2）ByteCodeは、Python Virtual Machineによって解釈および実行されます。 3）このハイブリッドメカニズムにより、Pythonは柔軟で効率的になりますが、完全にコンパイルされた言語ほど高速ではありません。

ループvs whileループ用のpython：いつ使用するか？May 13, 2025 am 12:07 AM

useaforloopwhenteratingoverasequenceor foraspificnumberoftimes; useawhileloopwhentinuninguntinuntilaConditionismet.forloopsareidealforknownownownownownownoptinuptinuptinuptinuptinutionsituations whileoopsuitsituations withinterminedationations。

Pythonループ：最も一般的なエラーMay 13, 2025 am 12:07 AM

pythonloopscanleadtoErrorslikeinfiniteloops、ModifiningListsDuringiteration、Off-Oneerrors、Zero-dexingissues、およびNestededLoopinefficiencies.toavoidhese：1）use'i

See all articles