簡単に言うと、インターネットからデータを自動的にダウンロード、解析、整理するプログラムを構築することです。
Web を閲覧するときと同じように、興味のあるコンテンツをコピーしてノートブックに貼り付け、次回の閲覧や閲覧を容易にします。Web クローラーは、これらのコンテンツを自動的に完成させるのに役立ちます。
もちろん、コピー&ペーストできない Web サイトに遭遇した場合は、Web クローラーがさらに威力を発揮します
データ分析を行う必要がある場合- そして多くの場合、これらのデータは Web ページに保存されており、手動でのダウンロードには時間がかかりすぎます。現時点では、これらのデータを自動的にクロールできるようにする Web クローラーが必要です (もちろん、Web 上で利用できないデータはフィルターで除外されます)使用するもの)
ネットワーク データへのアクセスと収集には非常に幅広い用途があり、その多くはデータ サイエンスの分野に属します。次の例を見てください:
淘宝網の販売者は、顧客の心をさらに捉え、顧客のショッピング心理を分析するために、大量のレビューから有用な肯定的情報と否定的情報を見つける必要があります。 Twitter と Weibo うつ病や自殺願望を特定するための予測モデルを構築するためのデータセットを構築するための情報 - より多くの困っている人が助けを得ることができるように - もちろん、プライバシー関連の問題も考慮する必要があります - しかし、クールであるだけではありませんそれ?
人工知能エンジニアとして、彼らは Ins からボランティアの好みの写真をクロールして、与えられた画像がボランティアに気に入られるかどうかを予測する深層学習モデルをトレーニングしました。;携帯電話メーカーは、これらのモデルを写真アプリをプッシュして送信します。 ECプラットフォームのデータサイエンティストは、ユーザーが閲覧した商品の情報をクロールし、分析・予測を行うことで、ユーザーが最も知りたい、最も買いたい商品をプッシュします
はい! Web クローラーは、高解像度の壁紙や写真の毎日のバッチ クローリングから、人工知能、深層学習、ビジネス戦略策定のためのデータ ソースに至るまで、幅広く使用されています。
この時代はデータの時代、データは「新しい石油」です
はい、Web クローラーに関して言えば、避けては通れないのは、もちろん、この HTTP については、ネットワーク エンジニアのようにプロトコル定義をすべて詳しく理解する必要はありませんが、入門としてはある程度の理解は必要です。 ## 国際標準化機構 ISO はオープン通信システム相互接続参照モデル OSI を維持しており、このモデルはコンピュータ通信構造を 7 つの層に分割します
##ネットワーク層: IP プロトコルを含む
##オプションのメッセージ本文
GET https://www.baidu.com/?tn=80035161_1_dg HTTP/1.1 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language: zh-Hans-CN,zh-Hans;q=0.8,en-GB;q=0.5,en;q=0.3 Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362 Accept-Encoding: gzip, deflate, br Host: www.baidu.com Connection: Keep-Aliveこれはアクセスです。もちろん、Python のリクエスト パッケージがクロールの完了に役立つため、Baidu のリクエストの多くの詳細を知る必要はありません。
HTTP/1.1 200 OK //这边的状态码为200表示我们的请求成功 Bdpagetype: 2 Cache-Control: private Connection: keep-alive Content-Encoding: gzip Content-Type: text/html;charset=utf-8 Date: Sun, 09 Aug 2020 02:57:00 GMT Expires: Sun, 09 Aug 2020 02:56:59 GMT X-Ua-Compatible: IE=Edge,chrome=1 Transfer-Encoding: chunked3. リクエスト ライブラリ (理論的な知識が苦手な学生はここに直接来てください)
#1. リクエスト ライブラリのインストール
ここで、インストールするリクエストの .whl ファイルを直接見つけることも、pip を使用して直接インストールすることもできます (もちろん、pycharm をお持ちの場合は、内部の環境が読み込みとダウンロードを行っているため、直接インストールできます)
2. 実際の戦闘
コードは次のとおりです:
import requests target = 'https://www.baidu.com/' get_url = requests.get(url=target) print(get_url.status_code) print(get_url.text)
200 //返回状态码200表示请求成功 <!DOCTYPE html>//这里删除了很多内容,实际上输出的网页信息比这要多得多 <!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html; charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge> <meta content=always name=referrer> <link rel=stylesheet type=text/css src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>
上記の 5 行のコードは多くのことを行っています。すでに Web ページのすべての HTML コンテンツをクロールできます。
对象 = requests.get(url=你想要爬取的网站地址)
コードの 4 行目: リクエストのステータス コードを返します。コードの 5 行目: 出力対応するコンテンツ本文
もちろん、その他のコンテンツを印刷することもできます
import requests target = 'https://www.baidu.com/' get_url = requests.get(url=target) # print(get_url.status_code) # print(get_url.text) print(get_url.reason)//返回状态 print(get_url.headers) //返回HTTP响应中包含的服务器头的内容(和上面展示的内容差不多) print(get_url.request) print(get_url.request.headers)//返回请求中头的内容
OK {'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Sun, 09 Aug 2020 04:14:22 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:23:55 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'} <PreparedRequest [GET]> {'User-Agent': 'python-requests/2.22.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
以上がPython Web クローラーリクエストライブラリの使用方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。