Heim > Artikel > Backend-Entwicklung > Wo werden die Python-Daten gecrawlt und gespeichert?
Nachdem ich gestern Feierabend hatte, kam mir plötzlich die Idee, einen Crawler zu schreiben, um Dinge auf der Webseite zu erfassen. Ich verbrachte eine Stunde damit, kurz die grundlegende Syntax von Python zu lernen und schrieb dann einen Crawler, indem ich mich auf Beispiele im Internet bezog. (Empfohlenes Lernen: Python-Video-Tutorial)
Die Python-Daten werden nach unten gecrawlt und lokal gespeichert, normalerweise in einer Datei oder Datenbank, aber das Dateiformat ist einfacher Machen Sie es selbst Wenn Sie einen Crawler schreiben, können Sie Daten in Dateiform speichern.
#coding=utf-8 import urllib.request import re import os ''' Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据 urlopen 方法用来打开一个url read方法 用于读取Url上的数据 ''' def getHtml(url): page = urllib.request.urlopen(url); html = page.read(); return html; def getImg(html): imglist = re.findall('img src="(http.*?)"',html) return imglist html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8"); imagesUrl = getImg(html); if os.path.exists("D:/imags") == False: os.mkdir("D:/imags"); count = 0; for url in imagesUrl: print(url) if(url.find('.') != -1): name = url[url.find('.',len(url) - 5):]; bytes = urllib.request.urlopen(url); f = open("D:/imags/"+str(count)+name, 'wb'); f.write(bytes.read()); f.flush(); f.close(); count+=1;
Nach dem Testen sind die Grundfunktionen noch erreichbar. Die meiste Zeit verbringe ich mit dem regulären Abgleich, da ich mit regulären Ausdrücken nicht sehr vertraut bin. Es hat also noch einige Zeit gedauert.
Hinweis: Das obige Programm basiert auf Python 3.5. Es gibt einige Unterschiede zwischen Python3 und Python2. Als ich anfing, mich mit grundlegender Grammatik zu beschäftigen, stieß ich auf einige Fallstricke.
Das obige ist der detaillierte Inhalt vonWo werden die Python-Daten gecrawlt und gespeichert?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!