Python クローラーを識別する方法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python クローラーを識別する方法

silencement

May 22, 2019 pm 06:03 PM

Python クローラーを識別する方法

1. 検証コードの入力

この種の検証コードは主に次の方法で渡されます。ユーザー画像内の文字、数字、漢字などを入力して確認します。以下に示すように

Python クローラーを識別する方法

##解決策のアイデア: これは、次のことを特定する限り、最も単純な方法です。入力ボックス内の内容を入力します。この認識技術は OCR と呼ばれますが、ここでは Python のサードパーティライブラリである tesserocr を使用することをお勧めします。図 2 に示すように、バックグラウンドの影響を受けない検証コードの場合は、このライブラリを通じて直接識別できます。ただし、ノイズの多い背景を持つ検証コードの場合、直接認識率は非常に低くなります。このような状況に遭遇した場合、最初に画像を処理し、最初に画像をグレースケール化し、次にそれを 2 値化してから認識する必要があります。認識率が大幅に向上します。

2. スライド検証コード

Python クローラーを識別する方法

##解決策: この種の確認コードは少し複雑ですが、対応するメソッドがあります。私たちが直接考えているのは、人間が検証コードをドラッグし、ボタンをクリックしてギャップの位置を確認し、最後にパズルをギャップの位置にドラッグして検証を完了するという動作をシミュレートすることです。

ステップ 1: ボタンをクリックします。すると、ボタンをクリックしないと隙間やパズルが表示されず、ボタンをクリックすると表示されることがわかり、隙間の位置を見つけるヒントになりました。

ステップ 2: ギャップ位置までドラッグします。パズルを隙間までドラッグする必要があることはわかっていますが、この距離を数値で表すとどうでしょうか。最初のステップで観察した現象により、ギャップの位置がわかります。ここでは 2 つの写真のピクセルを比較し、ベンチマーク値を設定できます。特定の位置での差がベンチマーク値を超えていれば、2 つの写真の異なる位置が見つかりました。もちろん、右側から開始します。パズルです。横から開始して左から右に移動し、最初の異なる位置を見つけたら終了します。この位置はギャップの左側である必要があるため、セレンを使用してこの位置までドラッグできます。ここでのもう 1 つの質問は、これら 2 つの写真を自動的に保存する方法です。ここでは、まずラベルを検索し、次にその位置とサイズを取得します。次に、上、下、左、右 = location['y'], location['y'] size['height'] location['x'] size ['width'] 、次にスクリーンショットを撮り、最後に画像を切り取ってこれらの 4 つの位置を塗りつぶします。具体的な使用方法については、Selenium のドキュメントを参照してください。ボタンをクリックする前に画像を切り出し、ボタンをクリックした後に画像を切り出します。最後にドラッグするときは、最初に加速し、次に減速するという人間の動作をシミュレートする必要があります。この種の検証コードには動作特性検出機能があるため、人間が一定の速度を維持することは不可能であり、そうでない場合は機械の引きずりであると判断され、検証に合格しません。

関連する学習に関する推奨事項: Python チュートリアル

以上がPython クローラーを識別する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonと時間：勉強時間を最大限に活用するApr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C：比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画：現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python：主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。

2時間でどのくらいのPythonを学ぶことができますか？Apr 09, 2025 pm 04:33 PM

2時間以内にPythonの基本を学ぶことができます。 1。変数とデータ型を学習します。2。ステートメントやループの場合などのマスター制御構造、3。関数の定義と使用を理解します。これらは、簡単なPythonプログラムの作成を開始するのに役立ちます。

プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は？Apr 02, 2025 am 07:18 AM

10時間以内にコンピューター初心者プログラミングの基本を教える方法は？コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

中間の読書にどこでもfiddlerを使用するときにブラウザによって検出されないようにするにはどうすればよいですか？Apr 02, 2025 am 07:15 AM

fiddlereveryversings for the-middleの測定値を使用するときに検出されないようにする方法

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。