作者:Gutierrez地址:http://www.jianshu.com/p/04459ab36b56
私にはIT業界に入ろうとしている彼女がいますが、彼女は大学時代にC言語を勉強したこともあります。彼女が周りのプログラマーとのコミュニケーションに適応できないのではないかと心配しています。
機会あるごとにプログラミングの楽しさやテクノロジーの魅力を伝えようと努めましたが、成果はわずかでした。そこで今回は、娘にクローラーを教え、プログラミングの達成感を味わい、便利なツールを使いこなすためのチュートリアルを根気よく書いていこうと思います。
わかりました、始める前に、この時点で彼女の感情が安定していることを確認する必要があります。これには少し忍耐が必要です。彼女が顔をしかめたら、すぐにノートパソコンをしまって、おいしいものを食べに連れて行ってください。調和が最も重要です。
環境を構成します
まず第一に、コンピューターが必要です。幸いなことに、女の子は Mac を持っているので、多くの手間が省けます。クローラーに最適なプログラミング言語は Python です。Mac にはすでに Python が組み込まれていますが、クローラーに必要なライブラリであるリクエストを追加する必要があります。
电脑是个笨蛋,只能听懂计算机语言,所以我们需要把我们的想法用计算机语言告诉他,让他乖乖的执行。库是大神们已经写好的程序,我们导入库,就可以利用他们的成果了。
ファイルをダウンロードします
https://bootstrap.pypa.io/get-pip.py
ルート ディレクトリに保存し (Finder を開くだけです)、ターミナルを見つけて開き、次のコードを入力する必要はありません。つまり、これが完了したら、必要な環境が設定されました。私は心の中ですべてがうまくいくようにと静かに祈りました。
python get-pip.pypip install requests
準備作業
クロールの前に、クローラーが必要な場所に行く必要があります。彼女も私も Curiosity Daily が好きなので、Curiosity Daily から写真をダウンロードしましょう。
Chrome で目的のクローラーの URL を開き、Web ページの空白部分を右クリックし、ポップアップ メニューで [要素の検査] を選択すると、Web ページのソース コードが表示されます。ポップアップの下部バー、画像 アドレスはこれらの厄介なコードの中に隠されています。ただし、幸いなことに、下部バーの左上隅にある虫眼鏡をクリックして、Web ページ上の画像を選択すると、コード内の画像アドレスをすぐに見つけることができます。
さらにいくつかの写真を選択し、よく見ると、パターンと形式が同じであることがわかります。
img class="pic" alt="可口可乐弧线瓶诞生 100 年了,它是如何改变了我们所处的世界? | 好奇心商业史"
これを見て、クローラーを要約する必要があります。私たちが閲覧する Web ページのほとんどは、一種のエンコーディング (HTML) を使用して、テキスト、画像、ビデオ、その他のコンテンツを一連の複雑なコードにプログラムします。これらのコードは、ブラウザーによって解釈されて、他のページに表示されます。つまり、ブラウザーで見るものはすべて、Web ページのソース コードに含まれています。クローラーは、Web ページのソース コードを分析して情報を取得するプログラムです。ここでは、クローラーを使用して Web ページのソース コード内の画像を検索し、ローカルにダウンロードします。
クローラ プログラム
コードを書く前に、コード エディターを準備する必要があります。ここでは Microsoft の良心傑作 VS コードを推奨し、ダウンロード アドレスを提供します。
https://www.visualstudio.com
VScode を開き、前に説明したルート ディレクトリに保存し、picdownloader.py という名前で保存してから、コードの入力を開始します。
#-*-coding:utf8-*-import reimport requestshtml = requests.get('http://www.qdaily.com/categories/17').textpic_url = re.findall('"pic" src="(.*?)"',html,re.S)i = 0 for each in pic_url: url = 'http://www.qdaily.com' + each print('now downloading:' + url) pic = requests.get(url) fp = open('pic//' + str(i) + '.jpg','wb') fp.write(pic.content) fp.close()i += 1
一つずつお話しましょう。
#-*-coding:utf8-*-的意思上字符编码是utf-8。妹子只需要知道写上这条总没错,不写有可能出错
re インポート リクエストのインポートとは、re ライブラリと request ライブラリをインポートし、次にこれら 2 つのライブラリのプログラムを使用することをコンピュータに指示することを意味します。
次のコードの目的は、Web ページのソース コードを取得して HTML に保存することです。もちろん、別の Web ページに変更することもできます。
html = requests.get('http://www.qdaily.com/categories/17').text
次のコードは、上記のソース コードからすべての画像アドレスを検索し、pic_url に保存するコア コードです。 「"pic" src="(.*?)"」は、コード内で、探している画像アドレスの前に「pic" src="" があり、その後に「」が続くことを意味します。 html は上記で取得したソースコードです。
pic_url = re.findall('"pic" src="(.*?)"',html,re.S)
最後に、取得した画像アドレスに従って、指定したフォルダーに画像をダウンロードするだけです。コードは少し複雑ですが、心配しないでください。クローラーの中心的なタスクは完了したため、次のコードは重要ではなくなりました。以下のコードをコピーしてコードの最後に追加することもできます。コードの意味については説明しますが、ここで理解できなくても問題ありません。
pic_url: のそれぞれについて、for ステートメントは pic_url をループすることを意味します。 pic_url にはすべての画像アドレスが格納されているため、次のコードは複数回実行され、毎回 1 つの画像が処理されます。以下のコード内のそれぞれは、各実行のイメージ アドレスを表します。
url = ' http://www.qdaily.com ' + each 取得したアドレスは不完全なので、Curiosity Daily のホームページとマージする必要があります。Python で 2 つの文字列をマージするには、必要なのは次のとおりです。 +それだけです。
print('nowdownload:' + url) の機能は、括弧内の内容をターミナルに出力し、実行中にターミナル ウィンドウを観察することです。それ。
pic =requests.get(url) の機能は、URL 画像アドレスを pic にダウンロードすることです。
最後に、ダウンロードした写真画像コンテンツをファイルに書き込み、pic フォルダーに保存します。
fp = open('pic//' + str(i) + '.jpg','wb')fp.write(pic.content)fp.close()
完全なコードをダウンロードするにはここをクリックしてください
http://pan.baidu.com/s/1i3LPgTB
プログラムを実行してください
ルート ディレクトリに新しいフォルダーを作成して、ファイルを保存することを忘れないでください。写真、ここにあるもの フォルダーは pic です。ターミナルを開いて次のコードを記述し、Enter
を押します。python picdownloader.py
到这里,我们完成图片爬虫程序,是不是很简单。女王,我已尽力,如果你没懂,看来还得我手把手教,约么?

Web開発におけるHTML、CSS、およびJavaScriptの役割は次のとおりです。HTMLはコンテンツ構造を担当し、CSSはスタイルを担当し、JavaScriptは動的な動作を担当します。 1。HTMLは、セマンティクスを確保するためにタグを使用してWebページの構造とコンテンツを定義します。 2。CSSは、セレクターと属性を介してWebページスタイルを制御して、美しく読みやすくします。 3。JavaScriptは、動的でインタラクティブな関数を実現するために、スクリプトを通じてWebページの動作を制御します。

htmlisnotaprogramminglanguage; itisamarkuplanguage.1)htmlStructuresandformatswebcontentusingtags.2)ItworkswithcsssssssssdjavascriptforInteractivity、強化を促進します。

HTMLは、Webページ構造の構築の基礎です。 1。HTMLは、コンテンツ構造とセマンティクス、および使用などを定義します。タグ。 2. SEO効果を改善するために、などのセマンティックマーカーを提供します。 3.タグを介したユーザーの相互作用を実現するには、フォーム検証に注意してください。 4. JavaScriptと組み合わせて、動的効果を実現するなどの高度な要素を使用します。 5.一般的なエラーには、閉じられていないラベルと引用されていない属性値が含まれ、検証ツールが必要です。 6.最適化戦略には、HTTP要求の削減、HTMLの圧縮、セマンティックタグの使用などが含まれます。

HTMLは、Webページを構築するために使用される言語であり、タグと属性を使用してWebページの構造とコンテンツを定義します。 1)htmlは、などのタグを介してドキュメント構造を整理します。 2)ブラウザはHTMLを分析してDOMを構築し、Webページをレンダリングします。 3)マルチメディア関数を強化するなど、HTML5の新機能。 4)一般的なエラーには、閉じられていないラベルと引用されていない属性値が含まれます。 5)最適化の提案には、セマンティックタグの使用とファイルサイズの削減が含まれます。

webdevelopmentReliesOnhtml、css、andjavascript:1)htmlStructuresContent、2)cssStylesit、および3)Javascriptaddsinteractivity、形成、

HTMLの役割は、タグと属性を使用してWebページの構造とコンテンツを定義することです。 1。HTMLは、読みやすく理解しやすいようなタグを介してコンテンツを整理します。 2。アクセシビリティとSEOを強化するには、セマンティックタグなどを使用します。 3. HTMLコードの最適化により、Webページの読み込み速度とユーザーエクスペリエンスが向上する可能性があります。

HTML、CSS、およびJavaScriptは、Web開発の3つの柱です。 1。HTMLは、Webページ構造を定義し、などなどのタグを使用します。2。CSSは、色、フォントサイズなどのセレクターと属性を使用してWebページスタイルを制御します。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境
