Die Betaversion des Python-Crawlers crawlt eine einzelne Seite von Zhihu-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Die Betaversion des Python-Crawlers crawlt eine einzelne Seite von Zhihu

高洛峰

Dec 02, 2016 pm 04:51 PM

python

Da ich zuvor Python zum Schreiben eines Crawlers verwendet habe und den Betreibern beim Crawlen der Produktmarken und Kategorien von JD.com geholfen habe, habe ich dieses Mal auch Python verwendet, um eine einfache Einzelseitenversion zu erfassen, die ich später hinzufügen werde.

#-*- coding: UTF-8 -*- 
import requests
import sys
from bs4 import BeautifulSoup

#－－－－－－知乎答案收集－－－－－－－－－－

#获取网页body里的内容
def get_content(url , data = None):
    header={
        &#39;Accept&#39;: &#39;text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8&#39;,
        &#39;Accept-Encoding&#39;: &#39;gzip, deflate, sdch&#39;,
        &#39;Accept-Language&#39;: &#39;zh-CN,zh;q=0.8&#39;,
        &#39;Connection&#39;: &#39;keep-alive&#39;,
        &#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235&#39;
    }

    req = requests.get(url, headers=header)
    req.encoding = &#39;utf-8&#39;
    bs = BeautifulSoup(req.text, "html.parser")  # 创建BeautifulSoup对象
    body = bs.body # 获取body部分
    return body

#获取问题标题
def get_title(html_text):
     data = html_text.find(&#39;span&#39;, {&#39;class&#39;: &#39;zm-editable-content&#39;})
     return data.string.encode(&#39;utf-8&#39;)

#获取问题内容
def get_question_content(html_text):
     data = html_text.find(&#39;div&#39;, {&#39;class&#39;: &#39;zm-editable-content&#39;})
     if data.string is None:
         out = &#39;&#39;;
         for datastring in data.strings:
             out = out + datastring.encode(&#39;utf-8&#39;)
         print &#39;内容：\n&#39; + out
     else:
         print &#39;内容：\n&#39; + data.string.encode(&#39;utf-8&#39;)

#获取点赞数
def get_answer_agree(body):
    agree = body.find(&#39;span&#39;,{&#39;class&#39;: &#39;count&#39;})
    print &#39;点赞数：&#39; + agree.string.encode(&#39;utf-8&#39;) + &#39;\n&#39;

#获取答案
def get_response(html_text):
     response = html_text.find_all(&#39;div&#39;, {&#39;class&#39;: &#39;zh-summary summary clearfix&#39;})
     for index in range(len(response)):
         #获取标签
         answerhref = response[index].find(&#39;a&#39;, {&#39;class&#39;: &#39;toggle-expand&#39;})
         if not(answerhref[&#39;href&#39;].startswith(&#39;javascript&#39;)):
             url = &#39;http://www.zhihu.com/&#39; + answerhref[&#39;href&#39;]
             print url
             body = get_content(url)
             get_answer_agree(body)
             answer = body.find(&#39;div&#39;, {&#39;class&#39;: &#39;zm-editable-content clearfix&#39;})
             if answer.string is None:
                 out = &#39;&#39;;
                 for datastring in answer.strings:
                     out = out + &#39;\n&#39; + datastring.encode(&#39;utf-8&#39;)
                 print out
             else:
                 print answer.string.encode(&#39;utf-8&#39;)


html_text = get_content(&#39;https://www.zhihu.com/question/43879769&#39;)
title = get_title(html_text)
print "标题：\n" + title + &#39;\n&#39;
questiondata = get_question_content(html_text)
print &#39;\n&#39;
data = get_response(html_text)

Ausgabeergebnis:

Die Betaversion des Python-Crawlers crawlt eine einzelne Seite von Zhihu

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Wie schneiden Sie eine Python -Liste?May 02, 2025 am 12:14 AM

SlicingPapythonListisDoneUsingthesyntaxlist [Start: Stop: Stufe] .here'Showitworks: 1) StartIndexoFtheFirstelementtoinclude.2) stopiStheIndexoFtheFirstelementtoexclude.3) StepisTheincrementBetweenelesfulFulForForforexcractioningPorporionsporporionsPorporionsporporesporsporsporsporsporsporsporsporsporionsporsPorsPorsPorsPorsporsporsporsporsporsporsAntionsporsporesporesporesporsPorsPorsporsPorsPorsporsporspors,

Was sind einige gängige Operationen, die an Numpy -Arrays ausgeführt werden können?May 02, 2025 am 12:09 AM

Numpyallowsforvariousoperationssonarrays: 1) BasicarithmeticliKeaddition, Subtraktion, Multiplikation und Division; 2) AdvancedoperationssuchasmatrixMultiplication;

Wie werden Arrays in der Datenanalyse mit Python verwendet?May 02, 2025 am 12:09 AM

Arraysinpython, insbesondere ThroughNumpyandpandas, areessentialfordataanalyse, öfterspeedandeffizienz.1) numpyarraysenableAnalysHandlingoflargedatasets und CompompexoperationslikemovingAverages.2) Pandasextendsnumpy'ScapaBilitiesWithDaTataforsForstruc

Wie vergleicht sich der Speicherpflichtiger einer Liste mit dem Speicher Fußabdruck eines Arrays in Python?May 02, 2025 am 12:08 AM

ListsandNumPyarraysinPythonhavedifferentmemoryfootprints:listsaremoreflexiblebutlessmemory-efficient,whileNumPyarraysareoptimizedfornumericaldata.1)Listsstorereferencestoobjects,withoverheadaround64byteson64-bitsystems.2)NumPyarraysstoredatacontiguou

Wie behandeln Sie umgebungsspezifische Konfigurationen, wenn Sie ausführbare Python-Skripte bereitstellen?May 02, 2025 am 12:07 AM

TensurepythonscriptsBehavectelyAcrossdevelopment, Staging und Produktion, UsethesStrategien: 1) Umweltvariablenforsimplesettings, 2) configurationFilesForComplexSetups und 3) dynamikloadingForAdaptability.eachMethodofferiqueNefits und Requiresca

Wie schneiden Sie ein Python -Array?May 01, 2025 am 12:18 AM

Die grundlegende Syntax für die Python -Liste ist die Liste [START: STOP: STEP]. 1.Start ist der erste Elementindex, 2.Stop ist der erste Elementindex, und 3.Step bestimmt die Schrittgröße zwischen den Elementen. Scheiben werden nicht nur zum Extrahieren von Daten verwendet, sondern auch zum Ändern und Umkehrlisten.

Unter welchen Umständen könnte Listen besser abschneiden als Arrays?May 01, 2025 am 12:06 AM

ListSoutPer -CharakterArraysin: 1) Dynamics und Dynamics und 3), 2) StoringHeterogenData und 3) MemoryefficiencyForSparsedata, ButmayHavesLightPerformanceCostIncustonTectorationOperationen.

Wie können Sie ein Python -Array in eine Python -Liste konvertieren?May 01, 2025 am 12:05 AM

Toconvertapythonarraytoalist, Usethelist () constructororageneratorexpression.1) ImportThearrayModuleandCreateanarray.2) Uselist (arr) oder [xForxinarr] Toconvertittoalist in Betracht, überlegt Performance undMoryefficiencyForlargedatasets.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

4 Wochen vorByDDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

3 Wochen vorByDDD

Inzoi: Wie man sich für Schule und Universität bewerbt

1 Monate vorByDDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

3 Wochen vorByDDD

Wo finden Sie den Site Office -Schlüssel in Atomfall

1 Monate vorByDDD

Heiße Werkzeuge

Dreamweaver CS6

Visuelle Webentwicklungstools

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),