検索
ホームページバックエンド開発Python チュートリアルSelenium を使用してメンバーのログインが必要な Web ページを読み取る

Web ページのコンテンツを読み取るためのクローラーを作成するために Selenium を使用するのは非常に一般的な要件です。ただし、制限されたコンテンツをアップロードするためにブログなどの Web ページが表示される場合があります。本はこの例です。次のチャット ウィンドウが表示されます:

使用 selenium 讀取需要登入會員的網頁

Cookie はアカウントにログインした後のログイン情報の記録に使用されるため、そのような Web ページを読むには、最初に手動でログインしてから、Cookie をファイルにエクスポートすることができます。その後、Selenium を使用して Web ページをクロールするときに、エクスポートされた Cookie を再度追加し、Web ページを再編成すると、Web コンテンツを正常に読み取ることができます。

Cookieをエクスポートする

まず、Selenium を使用して読みたい Web ページを開いてください。例としてブログを示します。

>>> from selenium import webdriver
>>> driver = webdriver.Edge()
>>> driver.get('https://www.books.com.tw')

この時点では、通常の手順に従ってメンバーとしてログインし、cookie_editor プラグインをインストールしてください:

使用 selenium 讀取需要登入會員的網頁

必ずブログのホームページに戻り、プラグインを使用してすべての Cookie を JSON 形式でエクスポートしてください:

使用 selenium 讀取需要登入會員的網頁

Cookie の内容がクリップボードにコピーされます。テキスト エディターに貼り付けて、ご自身でアーカイブしてください。

Cookieを再追加します

次に、Selenium を閉じて、再度開きます。

>>> from selenium import webdriver
>>> driver = webdriver.Edge()
>>> driver.get('https://www.books.com.tw')

Cookie を追加するには、Cookie と同じドメインの Web ページにアクセスしている必要があります。そのため、Web ページにアクセスするには、最初にブログを開いてください。次に、Cookie を保存するファイルを開いて Python 辞書にロードできます:

>>> import json
>>> with open('cookies.json') as f:
...     cookies = json.load(f)

Cookie を 1 つずつ追加して戻します:

>>> for cookie in cookies:
...     driver.add_cookie(cookie)

この時点で、次のエラーが表示されるはずです:

Traceback (most recent call last):
  File "<stdin>", line 3, in <module>
  File "C:\Users\meebo\code\python\poetry_env\py310\.venv\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 670, in add_cookie
    assert cookie_dict["sameSite"] in ["Strict", "Lax", "None"]
AssertionError
</module></stdin>

これは、Cookie エディターによってエクスポートされたデータでは、sameSite 属性が「no_restriction」を表すために null を使用しているためです。これは、制限がなく、同じ Web サイトである必要があることを意味しますが、Selenium は「Strict」、「Lax」のみを認識します。 "、"None" したがって、これら 3 つの制限はエラーとして診断されます。JSON ファイルを手動で変更し、すべての SameSite 属性値を "None" に変更する必要があります (文字列であることに注意してください)。また、ドメインが「.books.com」ではありません。 Cookie の削除:

[
    {
        "domain": ".books.com.tw",
        "expirationDate": 1767941747.633402,
        "hostOnly": false,
        "httpOnly": false,
        "name": "_ga_TR763QQ559",
        "path": "/",
        "sameSite": null,
        "secure": false,
        "session": false,
        "storeId": null,
        "value": "GS1.1.1733381542.1.1.1733381747.0.0.0"
    },
    ...
    {
        "domain": ".books.com.tw",
        "expirationDate": 1748933733,
        "hostOnly": false,
        "httpOnly": false,
        "name": "__eoi",
        "path": "/",
        "sameSite": "no_restriction",
        "secure": true,
        "session": false,
        "storeId": null,
        "value": "ID=7f42c4647467b5fb:T=1733381733:RT=1733381733:S=AA-AfjbpJCe1kw2klEX0xW55n9CY"
    },
    ...
]

変更後、リロードして Cookie を追加すると、エラーは発生しなくなります。

Web ページを更新して Cookie を有効にします

Cookie を追加した後も、表示される画面はまだログインしていない画面です:

使用 selenium 讀取需要登入會員的網頁

Cookie を有効にするには、ページを更新する必要があります:

>>> driver.refresh()

表示されるのは、メンバーとしてログインするためのページです:

使用 selenium 讀取需要登入會員的網頁

このようにして、Selenium を使用して、メンバーのログインが必要なページを読み取ることができます。

最後に思い出していただきたいのは、Cookie は有効であるということです。一定期間が経過しても以前に保存された Cookie を使用してログインできない場合は、上記の手順に従って Cookie を再度取得してください。

以上がSelenium を使用してメンバーのログインが必要な Web ページを読み取るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
違いを理解する:ループ用とPythonのループ中違いを理解する:ループ用とPythonのループ中May 16, 2025 am 12:17 AM

ThedifferencebetweenaforloopandawhileloopinPythonisthataforloopisusedwhenthenumberofiterationsisknowninadvance,whileawhileloopisusedwhenaconditionneedstobecheckedrepeatedlywithoutknowingthenumberofiterations.1)Forloopsareidealforiteratingoversequence

Pythonループコントロール:VSの場合 - 比較Pythonループコントロール:VSの場合 - 比較May 16, 2025 am 12:16 AM

Pythonでは、ループの場合は、反復の数がわかっている場合に適していますが、ループは反復の数が不明で、より多くの制御が必要な場合に適しています。 1)ループの場合は、簡潔なコードとPythonicコードを使用して、リスト、文字列などのトラバーシーケンスに適しています。 2)条件に応じてループを制御する必要がある場合やユーザーの入力を待つ必要がある場合、ループがより適切ですが、無限のループを避けるために注意を払う必要があります。 3)パフォーマンスに関しては、FORループはわずかに高速ですが、通常、違いは大きくありません。適切なループタイプを選択すると、コードの効率と読みやすさが向上します。

Pythonの2つのリストを組み合わせる方法:5つの簡単な方法Pythonの2つのリストを組み合わせる方法:5つの簡単な方法May 16, 2025 am 12:16 AM

Pythonでは、リストを5つの方法でマージできます。1)シンプルで直感的なオペレーターを使用して、小さなリストに適しています。 2)extend()メソッドを使用して、頻繁に更新する必要があるリストに適した元のリストを直接変更します。 3)要素上でリストの分析式、簡潔、動作を使用する。 4)itertools.chain()関数を使用して効率的なメモリになり、大規模なデータセットに適しています。 5)要素をペアにする必要があるシーンに適しているように、 *演算子とzip()関数を使用します。各方法には特定の用途と利点と短所があり、選択する際にはプロジェクトの要件とパフォーマンスを考慮する必要があります。

ループvs while loop:python構文、ユースケースと例ループvs while loop:python構文、ユースケースと例May 16, 2025 am 12:14 AM

forlopseused whenthentheNumberofiterationsiskが、whileloopsareuseduntiLaconditionismet.1)forloopsareideal for sequenceslikelists、usingsintaxlike'forfruitinfruits:print(fruit) '.2)

Python ConcatenateリストのリストPython ConcatenateリストのリストMay 16, 2025 am 12:08 AM

toconcatenatealistoflistsinpython、useextend、listcomprehensions、itertools.chain、またはrecursivefunctions.1)extendistraighttraightrawardbutverbose.2)listcomprehesionsionsionsionsionsionsionsionsionsionsionsionsionsionsionsised effective forlargerdatasets.3)itertools.chainmerymery-emery-efforience-forforladatas

Pythonの融合リスト:適切な方法を選択しますPythonの融合リスト:適切な方法を選択しますMay 14, 2025 am 12:11 AM

Tomergelistsinpython、あなたはオペレーター、extendmethod、listcomfulting、olitertools.chain、それぞれの特異的advantages:1)operatorissimplebutlessforlargelist;

Python 3の2つのリストを連結する方法は?Python 3の2つのリストを連結する方法は?May 14, 2025 am 12:09 AM

Python 3では、2つのリストをさまざまな方法で接続できます。1)小さなリストに適したオペレーターを使用しますが、大きなリストには非効率的です。 2)メモリ効率が高い大規模なリストに適した拡張方法を使用しますが、元のリストは変更されます。 3)元のリストを変更せずに、複数のリストをマージするのに適した *オペレーターを使用します。 4)Itertools.chainを使用します。これは、メモリ効率が高い大きなデータセットに適しています。

Python Concatenateリスト文字列Python Concatenateリスト文字列May 14, 2025 am 12:08 AM

Join()メソッドを使用することは、Pythonのリストから文字列を接続する最も効率的な方法です。 1)join()メソッドを使用して、効率的で読みやすくなります。 2)サイクルは、大きなリストに演算子を非効率的に使用します。 3)リスト理解とJoin()の組み合わせは、変換が必要なシナリオに適しています。 4)redoce()メソッドは、他のタイプの削減に適していますが、文字列の連結には非効率的です。完全な文は終了します。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)