ホームページ  >  記事  >  バックエンド開発  >  java - データ収集と分析用の PHP または Python、より成熟したフレームワークは何ですか?

java - データ収集と分析用の PHP または Python、より成熟したフレームワークは何ですか?

WBOY
WBOYオリジナル
2016-10-22 00:14:101395ブラウズ

Web サイトの記事リストとリスト内の実際のコンテンツからデータを自動的に収集する必要があります。各記事の ID はリストから取得でき、各記事は統一インターフェイスを介して渡されます (パラメーターは記事をもたらします)。対応する json を取得できます) と、収集して分析する必要があるデータがいくつかあります。

私のニーズを満たすことができる比較的成熟したフレームワークまたはホイールはありますか? (コレクション数が膨大なため、マルチスレッドで24時間365日安定して実行できる必要があります)

また、収集したコンテンツ(数百万から数千万)を保存する方法についてお聞きしたいのですが、統計分析が必要なデータがいくつかあります。mysql を使用できますか?それとも、他に使用できる、より成熟したシンプルなホイールはありますか?

返信内容:

Web サイトの記事リストとリスト内の実際のコンテンツからデータを自動的に収集する必要があります。各記事の ID はリストから取得でき、各記事は統一インターフェイスを介して渡されます (パラメーターは記事をもたらします)。対応する json を取得できます) と、収集して分析する必要があるデータがいくつかあります。

私のニーズを満たすことができる比較的成熟したフレームワークまたはホイールはありますか? (コレクション数が膨大なため、マルチスレッドで24時間365日安定して実行できる必要があります)

また、収集したコンテンツ(数百万から数千万)を保存する方法についてお聞きしたいのですが、統計分析が必要なデータがいくつかあります。mysql を使用できますか?それとも、他に使用できる、より成熟したシンプルなホイールはありますか?

データ分析の場合。
map-reduceはログ分析を行います
DparkはPVとUV分析を解決できます
Sparkも優れています。
データ レポートを作成した後、Pandas を使用して分析と表示を行うことができます。 。

データ収集の場合。ツールはたくさんあります。

なぜ検索エンジンを始めようと思ったのですか? 。 。量は比較的多いです。配布物がオススメです。
MYSQL を使用するのは現実的ではありません。 。 。

若者、これが爬虫類に望むことではありませんか?

  1. クローラーフレームワーク:scrapy

  2. データベースの選択: MySQL を使用して自分のレベルでインデックスを作成すれば、間違いなくあと 500 年は持続できます

MongoDB も試すことができます

言語や環境については何も言いませんでした。マルチスレッドには、現在、nodejs と Python が一般的に使用されます。どちらも mysql などを使用してデータを保存できます。何百万も何千万も問題ではありません。

Python Selenium + PhantomJ で遊んだことがありますか?

これはPython言語のscrapy、またはこれです

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。