Python は恥ずかしいことを百科事典クローラーにします-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python は恥ずかしいことを百科事典クローラーにします

高洛峰

Feb 24, 2017 pm 04:07 PM

朝、何もすることがなく目が覚めると、どこからともなく「恥ずかしいことの百科事典」のジョークが現れました。それから、あなたが私にそれを送ってくれたので、あなたのウェブサイトをクロールするためのクローラーを書いてみようと思いました。まずは練習用ですので、遊びに来てください。

実際、私は過去 2 日間でデータベースの内容にさらされています。クロールされたデータは将来の使用のためにデータベースに保存できます。さて、早速、プログラムによってクロールされたデータの結果を見てみましょう

Python 制作糗事百科爬虫

プログラムでは、恥ずかしいことの百科事典の 30 ページをクロールしたかったのですが、リンクが間違って表示されたことに注意してください。、ページ数を20ページに減らしたところ、プログラムは正常に実行できました。理由がわかりません。知りたい方は教えていただければ幸いです。

プログラムは非常に簡単で、ソースコードをアップロードするだけです

# coding=utf8

import re
import requests
from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool
import sys

reload(sys)
sys.setdefaultencoding(&#39;utf-8&#39;)


def getnewpage(url, total):
 nowpage = int(re.search(&#39;(\d+)&#39;, url, re.S).group(1))
 urls = []

 for i in range(nowpage, total + 1):
  link = re.sub(&#39;(\d+)&#39;, &#39;%s&#39; % i, url, re.S)
  urls.append(link)

 return urls


def spider(url):
 html = requests.get(url)
 selector = etree.HTML(html.text)

 author = selector.xpath(&#39;//*[@id="content-left"]/p/p[1]/a[2]/@title&#39;)
 content = selector.xpath(&#39;//*[@id="content-left"]/p/p[2]/text()&#39;)
 vote = selector.xpath(&#39;//*[@id="content-left"]/p/p[3]/span/i/text()&#39;)

 length = len(author)
 for i in range(0, length):
  f.writelines(&#39;作者 : &#39; + author[i] + &#39;\n&#39;)
  f.writelines(&#39;内容 ：&#39; + str(content[i]).replace(&#39;\n&#39;,&#39;&#39;) + &#39;\n&#39;)
  f.writelines(&#39;支持 ： &#39; + vote[i] + &#39;\n\n&#39;)


if __name__ == &#39;__main__&#39;:

 f = open(&#39;info.txt&#39;, &#39;a&#39;)
 url = &#39;http://www.qiushibaike.com/text/page/1/&#39;
 urls = getnewpage(url, 20)

 pool = ThreadPool(4)
 pool.map(spider,urls)
 f.close()

わからない部分がある場合は、最初の3つの記事を順番に参照してください。

Python による恥ずかしい百科事典クローラーの作成に関連するその他の記事については、PHP 中国語 Web サイトに注目してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonの学習：2時間の毎日の研究で十分ですか？Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。

Web開発用のPython：主要なアプリケーションApr 18, 2025 am 12:20 AM

Web開発におけるPythonの主要なアプリケーションには、DjangoおよびFlaskフレームワークの使用、API開発、データ分析と視覚化、機械学習とAI、およびパフォーマンスの最適化が含まれます。 1。DjangoandFlask Framework：Djangoは、複雑な用途の迅速な発展に適しており、Flaskは小規模または高度にカスタマイズされたプロジェクトに適しています。 2。API開発：フラスコまたはdjangorestFrameworkを使用して、Restfulapiを構築します。 3。データ分析と視覚化：Pythonを使用してデータを処理し、Webインターフェイスを介して表示します。 4。機械学習とAI：Pythonは、インテリジェントWebアプリケーションを構築するために使用されます。 5。パフォーマンスの最適化：非同期プログラミング、キャッシュ、コードを通じて最適化

Python vs. C：パフォーマンスと効率の探索Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

Python in Action：実世界の例Apr 18, 2025 am 12:18 AM

Pythonの実際のアプリケーションには、データ分析、Web開発、人工知能、自動化が含まれます。 1）データ分析では、PythonはPandasとMatplotlibを使用してデータを処理および視覚化します。 2）Web開発では、DjangoおよびFlask FrameworksがWebアプリケーションの作成を簡素化します。 3）人工知能の分野では、TensorflowとPytorchがモデルの構築と訓練に使用されます。 4）自動化に関しては、ファイルのコピーなどのタスクにPythonスクリプトを使用できます。

Pythonの主な用途：包括的な概要Apr 18, 2025 am 12:18 AM

Pythonは、データサイエンス、Web開発、自動化スクリプトフィールドで広く使用されています。 1）データサイエンスでは、PythonはNumpyやPandasなどのライブラリを介してデータ処理と分析を簡素化します。 2）Web開発では、DjangoおよびFlask Frameworksにより、開発者はアプリケーションを迅速に構築できます。 3）自動化されたスクリプトでは、Pythonのシンプルさと標準ライブラリが理想的になります。

Pythonの主な目的：柔軟性と使いやすさApr 17, 2025 am 12:14 AM

Pythonの柔軟性は、マルチパラダイムサポートと動的タイプシステムに反映されていますが、使いやすさはシンプルな構文とリッチ標準ライブラリに由来しています。 1。柔軟性：オブジェクト指向、機能的および手続き的プログラミングをサポートし、動的タイプシステムは開発効率を向上させます。 2。使いやすさ：文法は自然言語に近く、標準的なライブラリは幅広い機能をカバーし、開発プロセスを簡素化します。

Python：汎用性の高いプログラミングの力Apr 17, 2025 am 12:09 AM

Pythonは、初心者から上級開発者までのすべてのニーズに適した、そのシンプルさとパワーに非常に好まれています。その汎用性は、次のことに反映されています。1）学習と使用が簡単、シンプルな構文。 2）Numpy、Pandasなどの豊富なライブラリとフレームワーク。 3）さまざまなオペレーティングシステムで実行できるクロスプラットフォームサポート。 4）作業効率を向上させるためのスクリプトおよび自動化タスクに適しています。

1日2時間でPythonを学ぶ：実用的なガイドApr 17, 2025 am 12:05 AM

はい、1日2時間でPythonを学びます。 1.合理的な学習計画を作成します。2。適切な学習リソースを選択します。3。実践を通じて学んだ知識を統合します。これらの手順は、短時間でPythonをマスターするのに役立ちます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。