ホームページ >バックエンド開発 >PHPチュートリアル >java - データ収集と分析用の PHP または Python、より成熟したフレームワークは何ですか?
Web サイトの記事リストとリスト内の実際のコンテンツからデータを自動的に収集する必要があります。各記事の ID はリストから取得でき、各記事は統一インターフェイスを介して渡されます (パラメーターは記事をもたらします)。対応する json を取得できます) と、収集して分析する必要があるデータがいくつかあります。
私のニーズを満たすことができる比較的成熟したフレームワークまたはホイールはありますか? (コレクション数が膨大なため、マルチスレッドで24時間365日安定して実行できる必要があります)
また、収集したコンテンツ(数百万から数千万)を保存する方法についてお聞きしたいのですが、統計分析が必要なデータがいくつかあります。mysql を使用できますか?それとも、他に使用できる、より成熟したシンプルなホイールはありますか?
Web サイトの記事リストとリスト内の実際のコンテンツからデータを自動的に収集する必要があります。各記事の ID はリストから取得でき、各記事は統一インターフェイスを介して渡されます (パラメーターは記事をもたらします)。対応する json を取得できます) と、収集して分析する必要があるデータがいくつかあります。
私のニーズを満たすことができる比較的成熟したフレームワークまたはホイールはありますか? (コレクション数が膨大なため、マルチスレッドで24時間365日安定して実行できる必要があります)
また、収集したコンテンツ(数百万から数千万)を保存する方法についてお聞きしたいのですが、統計分析が必要なデータがいくつかあります。mysql を使用できますか?それとも、他に使用できる、より成熟したシンプルなホイールはありますか?
データ分析の場合。
map-reduceはログ分析を行います
DparkはPVとUV分析を解決できます
Sparkも優れています。
データ レポートを作成した後、Pandas を使用して分析と表示を行うことができます。 。
データ収集の場合。ツールはたくさんあります。
なぜ検索エンジンを始めようと思ったのですか? 。 。量は比較的多いです。配布物がオススメです。
MYSQL を使用するのは現実的ではありません。 。 。
若者、これが爬虫類に望むことではありませんか?
クローラーフレームワーク:scrapy
データベースの選択: MySQL を使用して自分のレベルでインデックスを作成すれば、間違いなくあと 500 年は持続できます
MongoDB も試すことができます
言語や環境については何も言いませんでした。マルチスレッドには、現在、nodejs と Python が一般的に使用されます。どちらも mysql などを使用してデータを保存できます。何百万も何千万も問題ではありません。
Python Selenium + PhantomJ で遊んだことがありますか?
これはPython言語のscrapy、またはこれです