Python は 2 つの簡単な手順で気象クローラーコレクターを実装します-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python は 2 つの簡単な手順で気象クローラーコレクターを実装します

高洛峰

Oct 18, 2016 pm 02:01 PM

python成し遂げる爬虫類コレクション

クローラーはとても神秘的だと感じるかもしれませんが、実際には私たちが想像するほど魔法のようなものではありません (もちろん、Google や Baidu のクローラーは複雑で強力です。その力はクローラー自体の強さではなく、背景にあります)データ処理とデータマイニングのアルゴリズムは非常に強力です)、今日はその謎を明らかにします。笑、Web 天気クローラープログラムは 2 つの簡単な手順で実装できます。。。

簡単に言えば、クローラーは 2 つの部分で構成されます: 1. Web ページのテキスト情報を取得します。 2. 必要なデータを取得するためのデータ分析。

1. Web ページのテキスト情報を取得します。

Python は HTML を取得するのに非常に便利で、urllib ライブラリを利用することで、必要な機能を実現するために必要なコードは数行だけです。

#引入urllib库
import urllib
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
page.close()
return html

ここで返されるのはWebページのソースコード、つまりHTMLコードです。

それでは、そこから必要な情報をどのように取得するのでしょうか?次に、Web 分析で最も一般的に使用されるツールである正規表現を使用する必要があります。

2. 正規表現などに基づいて必要な内容を取得します。

正規表現を使用する場合は、Web ページ情報の構造を注意深く観察し、正しい正規表現を記述する必要があります。

Python 正規表現の使用も非常に簡単です:

#引入正则表达式库
import re
def getWeather(html):
reg = &#39;<a title=.*?>(.*?)</a>.*?<span>(.*?)</span>.*?<b>(.*?)</b>&#39;
weatherList = re.compile(reg).findall(html)
return weatherList

手順:

ここで、reg は正規表現、html は最初のステップで取得したテキストです。 findall の機能は、通常の一致に一致する HTML 内のすべての文字列を検索し、それらを WeatherList に保存することです。次に、weathereList に出力されたデータを列挙します。

ここでの正規表現 reg については、注意すべき点が 2 つあります。

1つは「(.*?)」です。 () 内の内容が取得する内容である限り、複数の括弧がある場合、findall の各結果にはこれらの括弧内の内容が含まれます。上には都市、最低気温、最高気温に対応する 3 つの括弧があります。

もう一つは「.*?」です。 Python の通常のマッチングはデフォルトで貪欲です。つまり、デフォルトで可能な限り多くの文字列と一致します。最後に疑問符を追加すると、非貪欲モード、つまり可能な限り少数の文字列と一致することを意味します。ここでは、照合する必要がある都市が複数あるため、非貪欲モードを使用する必要があります。そうしないと、照合結果が 1 つだけ残り、不正確になります。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonと時間：勉強時間を最大限に活用するApr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C：比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画：現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python：主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。