Heim  >  Artikel  >  Backend-Entwicklung  >  Wo werden die Python-Daten gecrawlt und gespeichert?

Wo werden die Python-Daten gecrawlt und gespeichert?

(*-*)浩
(*-*)浩Original
2019-10-30 14:03:304283Durchsuche

Wo werden die Python-Daten gecrawlt und gespeichert?

Nachdem ich gestern Feierabend hatte, kam mir plötzlich die Idee, einen Crawler zu schreiben, um Dinge auf der Webseite zu erfassen. Ich verbrachte eine Stunde damit, kurz die grundlegende Syntax von Python zu lernen und schrieb dann einen Crawler, indem ich mich auf Beispiele im Internet bezog. (Empfohlenes Lernen: Python-Video-Tutorial)

Die Python-Daten werden nach unten gecrawlt und lokal gespeichert, normalerweise in einer Datei oder Datenbank, aber das Dateiformat ist einfacher Machen Sie es selbst Wenn Sie einen Crawler schreiben, können Sie Daten in Dateiform speichern.

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
    page = urllib.request.urlopen(url);
    html = page.read();
    return html;
 
def getImg(html):
    imglist = re.findall('img src="(http.*?)"',html)
    return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
    os.mkdir("D:/imags");
    
count = 0;
for url in imagesUrl:
    print(url)
    if(url.find('.') != -1):
        name = url[url.find('.',len(url) - 5):];
        bytes = urllib.request.urlopen(url);
        f = open("D:/imags/"+str(count)+name, 'wb');
        f.write(bytes.read());
        f.flush();
        f.close();
        count+=1;

Nach dem Testen sind die Grundfunktionen noch erreichbar. Die meiste Zeit verbringe ich mit dem regulären Abgleich, da ich mit regulären Ausdrücken nicht sehr vertraut bin. Es hat also noch einige Zeit gedauert.

Hinweis: Das obige Programm basiert auf Python 3.5. Es gibt einige Unterschiede zwischen Python3 und Python2. Als ich anfing, mich mit grundlegender Grammatik zu beschäftigen, stieß ich auf einige Fallstricke.

Das obige ist der detaillierte Inhalt vonWo werden die Python-Daten gecrawlt und gespeichert?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn