シンプルな Python クローラーの完全なコード ステップ: 1. 必要なライブラリをインポートします。 2. ターゲット Web ページの URL を指定します。 3. ターゲット Web ページにリクエストを送信し、その HTML コンテンツを取得します。ページ; 4. 「BeautifulSoup」を使用して HTML コンテンツを解析します; 5. CSS セレクターまたは XPath を使用して、ターゲット Web ページの構造とニーズに従ってクロールする必要があるデータを見つけます; 6. 取得したデータを処理します; 7.データをファイルまたはデータベースに保存します; 8. 例外処理とログ記録
import requests from bs4 import BeautifulSoup2. ターゲット Web ページの URL を指定します。 :
url = "https://example.com"3. ターゲット Web ページにリクエストを送信し、ページの HTML コンテンツを取得します:
response = requests.get(url) html_content = response.content4. BeautifulSoup を使用して HTML コンテンツを解析します:
soup = BeautifulSoup(html_content, 'html.parser')5. ターゲット Web ページの構造とニーズに応じて、CSS セレクターまたは XPath を使用して、クロールする必要があるデータを見つけます:
data = soup.select('css选择器')6. 取得したデータを処理します:
for item in data: # 进行数据处理或存储等操作7. データをファイルまたはデータベースに保存します:
# 保存数据到文件 with open('data.txt', 'w') as file: for item in data: file.write(item.text + '\n') # 保存数据到数据库 import sqlite3 conn = sqlite3.connect('data.db') cursor = conn.cursor() for item in data: cursor.execute("INSERT INTO table_name (column_name) VALUES (?)", (item.text,)) conn.commit() conn.close()8. 例外処理とロギング:
try: # 执行爬取代码 except Exception as e: # 处理异常 print("出现异常:" + str(e)) # 记录日志 with open('log.txt', 'a') as file: file.write("出现异常:" + str(e) + '\n')上記は、単純な Python クローラーの完全なコード例であり、これを変更したり、変更したりできます。実際のニーズに応じて拡張します。もちろん、これは基本的な枠組みにすぎず、実際にはクローラ対策やマルチスレッド化や非同期処理など、さらに多くの処理が含まれる可能性があります。
以上が単純な Python クローラーの完全なコードを記述する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。