Heim  >  Artikel  >  Backend-Entwicklung  >  Welche Art von Daten kann der Crawler erhalten und welche spezifische Analysemethode gibt es?

Welche Art von Daten kann der Crawler erhalten und welche spezifische Analysemethode gibt es?

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼nach vorne
2019-06-05 11:12:424880Durchsuche

Mit der rasanten Entwicklung des Internets überschwemmen immer mehr Daten dieses Zeitalter. Das Erfassen und Verarbeiten von Daten ist zu einem wesentlichen Bestandteil unseres Lebens geworden, und Crawler sind entstanden, wenn die Zeit es erfordert.

Viele Sprachen können zum Crawlen verwendet werden, aber Crawler, die auf Python basieren, sind prägnanter und bequemer. Crawler ist auch ein wesentlicher Bestandteil der Python-Sprache geworden. Welche Art von Daten können wir also durch Crawler erhalten? Was für eine Analysemethode gibt es?

Im vorherigen Artikel habe ich Ihnen die Einführung von dem grundlegenden Crawler-Prozess Request and Response, In diesem Artikel erfahren Sie, welche Art von Daten der Crawler erhalten kann und welche spezifische Analysemethode er verwendet.

Welche Art von Daten kann der Crawler erhalten und welche spezifische Analysemethode gibt es?


Welche Art von Daten können erfasst werden?

Webseitentext: z. B. HTML-Dokument, von Ajax geladener Text im Json-Format usw.;

Bilder, Videos usw.: Die erhaltenen Binärdateien werden gespeichert als Bilder oder Videos.

Andere können angefordert werden.

Demonstration

import requests
 
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
resp = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif',headers=headers)
print(resp.content) # 二进制文件使用content
# 保存图片
with open('logo.gif','wb') as f:
    f.write(resp.content)
    print('Ok')

Wenn Sie es erfolgreich ausführen, können Sie die Binärdaten des gedruckten Bildes sehen und speichern Das gedruckte OK nach Erfolg, zu diesem Zeitpunkt können wir die heruntergeladenen Bilder sehen, wenn wir den Ordner öffnen. Diese wenigen Codezeilen veranschaulichen lediglich den Prozess des Speicherns von Dateien durch den Crawler.



Welche Analysemethoden gibt es?

Direkte Verarbeitung, z. B. einfache Seitendokumente, entfernen Sie einfach einige Speicherplatzdaten

Json-Analyse und -Verarbeitung Ajax geladene Seite;

regulärer Ausdruck

BeautifulSoup-Bibliothek;

XPath.


Zusammenfassung

Sehen Sie sich das an, Do Sie haben bereits ein klares Verständnis der grundlegenden Arbeitsprinzipien von Crawlern? Natürlich wurde Rom nicht an einem Tag erbaut. Solange Sie genügend Erfahrung sammeln, werden Sie auf jeden Fall ein Reptilienmeister. Ich glaube, dass jeder Erfolg haben wird, nachdem er die relevanten Informationen gelesen hat, die ich geteilt habe.

Das obige ist der detaillierte Inhalt vonWelche Art von Daten kann der Crawler erhalten und welche spezifische Analysemethode gibt es?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:csdn.net. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen