最近多くの友人から、クローラーを独学で学んでいると聞かれますが、仕事を見つけるためにどこまで学べますか?
この記事では、クローラーと仕事について、私自身の経験を参考程度にお話します。
どのレベルの学習か
# ジュニア クローラー エンジニアをターゲットにして、簡単にリストしてみましょう: (必要な部分)言語の選択: Python、Java、Golang のいずれかを一般的に理解しているマルチスレッド プログラミング、ネットワーク プログラミング、および HTTP プロトコル関連に精通している完全なクローラー プロジェクト (できればフルサイト クローラー) を開発したことがある経験、これについては後述します) アンチクロール関連、Cookie、IP プール、検証コードなど 分散型メッセージ キューの使用に習熟している メッセージ キューを理解しているRabbitMQ、Kafka、Redis など。データ マイニング、自然言語処理、情報検索、機械学習の経験があるAPP データ収集、仲介エージェントに精通しているビッグデータ処理 (Hive/MR /Spark/Storm)データベース Mysql、redis、mongdbGit 操作と Linux 環境開発に精通しているjs コードを理解する、これは本当に重要改善方法
#まず、Zhihu のチュートリアルを参照してください。Python に関する限り、リクエストを知るだけではもちろん十分ではありません。また、scrapy と pyspider についても理解する必要があり、フレームワークとscrapy_redis についても原則を理解する必要があります。 分散システムを構築する方法と、メモリと速度の問題を解決する方法。 参考scrapy-redisとscrapyの違いは何ですか?フルサイト クロールとは何ですか?
最も簡単な例は、フックを使用してキーワードを検索することです。ページは 30 あります。すべてをクロールするとは考えないでください。 30 ページもあれば十分です。Web サイトがクロールされる場合は、すべてのデータをクロールダウンする方法を見つける必要があります。 フィルタリングで範囲を絞り込み、時間をかけて行うにはどのような方法がありますか? 同時に、各ポジションには推奨ポジションもあり、推奨事項を収集するクローラーを作成します。以上がPython クローラーは仕事を見つけるためにどの程度学習できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。