Heim  >  Artikel  >  Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

-
-Original
2018-03-07 16:07:583712Durchsuche

Verwenden Sie Python, um den gesamten Prozess eines Taobao-Produkts zu crawlen, die Produktdaten zu durchsuchen und zu analysieren und schließlich Schlussfolgerungen zu ziehen.

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Projektinhalt

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

In diesem Fall wird die Produktkategorie ausgewählt: Sofa.

Menge: 100 Seiten, insgesamt 4400 Artikel.

Filterbedingungen: Klein, Verkaufsvolumen von hoch nach niedrig, Preis über 500 Yuan.

Projektzweck

Durchführung einer Textanalyse von Produkttiteln und Visualisierung von Wortwolken

Statistische Analyse der Verkäufe entsprechend verschiedenen Schlüsselwörtern

Preisverteilung von Produkten Situationsanalyse

Umsatzverteilungsanalyse von Waren

Durchschnittliche Umsatzverteilung von Waren in verschiedenen Preisklassen

Analyse der Auswirkungen von Rohstoffpreisen auf den Umsatz

Ware Preise Analyse der Auswirkungen auf den Umsatz

Verteilung der Produktmenge in verschiedenen Provinzen oder Städten

Durchschnittliche Umsatzverteilung von Produkten in verschiedenen Provinzen

Hinweis: Dieses Projekt verwendet nur die oben genannten Analyse als Basisbeispiel.

Projektschritte

Datenerfassung: Python crawlt Taobao-Produktdaten

Bereinigen und verarbeiten Sie die Daten

Textanalyse: Jieba-Wortsegmentierung, Wordcloud-Visualisierung

Visualisierung des Datenhistogramms: barh

Visualisierung des Datenhistogramms: hist

Visualisierung des Datenstreudiagramms: Scatter

Visualisierung der Datenregressionsanalyse: regplot

Tools & Module

Tools: Anacondas Spyder, in diesem Fall das Codebearbeitungstool.

Module: Anfragen, Wiederholung, MissingNo, Jieba, Matplotlib, Wordcloud, Imread, Seaborn usw.

Crawling-Daten

Da Taobao ein Anti-Crawler ist, obwohl es Multithreading verwendet und die Header-Parameter ändert, kann es dennoch nicht jedes Mal ein 100-prozentiges Crawlen garantieren, also habe ich eine Schleife zum Crawlen hinzugefügt. Crawlen nicht erfolgreicher Seiten jedes Mal in einer Schleife, bis alle Seiten erfolgreich gecrawlt wurden.

Hinweis: Die Taobao-Produktseite liegt im JSON-Format vor und zum Parsen werden hier reguläre Ausdrücke verwendet.

Der Code lautet wie folgt:

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Datenbereinigung und -verarbeitung

Dieser Schritt der Datenbereinigung und -verarbeitung kann auch in Excel durchgeführt werden und dann Daten einlesen.

Der Code lautet wie folgt:

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Hinweis: Gemäß den Anforderungen in diesem Fall nur item_loc, raw_title , view_price werden verwendet. Die vier Datenspalten in view_sales analysieren hauptsächlich Region, Titel, Preis und Verkaufsvolumen.

Der Code lautet wie folgt:

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Data Mining und Analyse

Führen Sie eine Textanalyse für den Spaltentitel raw_title durch

Verwenden Sie die stotternde Wortsegmentierung, um das Modul zu installieren, pip install jieba:

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Filtern Sie die Elemente (str) jeder Liste in title_s (Listen-Listenformat) und entfernen Sie unnötige Wörter . Das heißt, alle Wörter in der Stoppwortliste werden entfernt:

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Da unten aus Gründen der Genauigkeit die Anzahl jedes Wortes gezählt wird, ist hier die gefilterte Liste „Jedes“ aufgeführt Das Element in den Daten title_clean wird dedupliziert, d. h. jeder Titel wird in eindeutige Wörter unterteilt.

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Bei der Beobachtung der Wörter in der Tabelle „word_count“ haben wir festgestellt, dass das Standardwörterbuch von jieba die Anforderungen nicht erfüllen kann.

Einige Wörter (z. B. entfernbar, nicht entfernbar usw.) wurden ausgeschnitten. Hier werden je nach Bedarf neue Wörter zum Wörterbuch hinzugefügt (Sie können auch direkt im Wörterbuch-Diktat hinzufügen oder löschen). txt und laden Sie dann das geänderte Diktat.

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Für die Word-Cloud-Visualisierung muss das Wordcloud-Modul installiert sein.

Es gibt zwei Möglichkeiten, Module zu installieren:

pip install wordcloud

Paketinstallation herunterladen: pip install package name

Hinweis: Bitte laden Sie die Software herunter Das Paket wird im Python-Installationspfad abgelegt.

Der Code lautet wie folgt:

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Analyse-Schlussfolgerung:

Kombiniertes und vollständiges Produktkonto für einen großen Anteil hoch.

Aus Sicht des Sofamaterials: Stoffsofas machen einen hohen Anteil aus, mehr als Ledersofas.

Aus der Perspektive des Sofastils: Der einfache Stil ist am beliebtesten, gefolgt vom nordischen Stil, und die anderen Stile sind in der Reihenfolge amerikanisch, chinesisch, japanisch, französisch usw. geordnet.

Bezogen auf die Wohnungstypen: Kleine Wohnungen machen den höchsten Anteil aus, gefolgt von großen und kleinen Wohnungen, und große Wohnungen machen den geringsten Anteil aus.

Statistische Analyse der Summe der Verkäufe, die verschiedenen Schlüsselwortwörtern entsprechen

Erläuterung: Beispielsweise wird mit dem Wort „einfach“ die Summe der Verkäufe von Produkten ermittelt, die das Wort „einfach“ enthalten Der Produkttitel wird gezählt. Das heißt, es wird die Summe der Verkäufe von Produkten mit einem „einfachen“ Stil ermittelt.

Der Code lautet wie folgt:

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Visualisieren Sie die Daten in den Spalten „word“ und „w_s_sum“ in der Tabelle df_word_sum. (In diesem Beispiel werden die 30 wichtigsten Verkaufswörter zum Zeichnen herangezogen)

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Wie aus der Tabelle ersichtlich:

Kombinierte Produkte Das höchste Verkaufsvolumen.

Aus Sicht der Kategorie: Die Verkäufe von Stoffsofas sind sehr hoch und übertreffen die von Ledersofas bei weitem.

Aus Sicht des Wohnungstyps: Das Verkaufsvolumen von Sofas ist in kleinen Wohnungen am höchsten, gefolgt von großen und kleinen Wohnungen, und die Verkäufe in großen Wohnungen sind am geringsten.

In Bezug auf den Stil: Der einfache Stil hat das höchste Verkaufsvolumen, gefolgt vom nordischen Stil, gefolgt vom chinesischen Stil, amerikanischen Stil, japanischen Stil usw.

Abnehmbare und waschbare Sofas sowie Ecksofas haben ein beträchtliches Verkaufsvolumen und erfreuen sich auch bei Verbrauchern großer Beliebtheit.

Analyse der Preisverteilung von Waren

Die Analyse ergab, dass einige Werte zu groß sind. Um den Visualisierungseffekt intuitiver zu gestalten, kombinieren wir hier die Situation unserer eigenen Produkte und Wählen Sie Waren mit einem Preis von weniger als 20.000 aus.

Der Code lautet wie folgt:

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Wie aus der Tabelle ersichtlich:

Die Warenmenge wird in der Regel mit dem Preis angezeigt. Bei der absteigenden Leiter gilt: Je höher der Preis, desto weniger Waren werden zum Verkauf angeboten.

Es gibt überwiegend preisgünstige Produkte, wobei die meisten Produkte einen Preis zwischen 500 und 1.500 haben, gefolgt von Produkten zwischen 1.500 und 3.000 und weniger Produkte mit einem Preis über 10.000.

Bei Produkten mit einem Preis über 10.000 Yuan gibt es kaum Unterschiede in der Anzahl der angebotenen Produkte.

Verkaufsverteilungsanalyse von Waren

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

In ähnlicher Weise wählen wir hier aus, um die Visualisierung intuitiver zu gestalten Das Verkaufsvolumen soll mehr als Hunderte von Waren betragen.

Der Code lautet wie folgt:

Er ist aus den Diagrammen und Daten ersichtlich:

Nur ​​3,4 % der Produkte haben einen Umsatz von mehr als 100, darunter die Produkte mit Verkäufen von 100–200 sind die meisten, und 200– Die nächstbesten zwischen 300.

Verkäufe zwischen 100 und 500, die Anzahl der Produkte weist mit dem Umsatz einen Abwärtstrend auf, und der Trend ist steil, wobei es sich überwiegend um Produkte mit geringem Umsatz handelt.

Es gibt nur sehr wenige Produkte mit mehr als 500 Verkäufen.

Die durchschnittliche Umsatzverteilung von Waren in verschiedenen Preisklassen

Der Code lautet wie folgt:

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Aus der Tabelle ist ersichtlich, dass:

Das durchschnittliche Verkaufsvolumen von Produkten mit Preisen zwischen 1331 und 1680 Yuan ist am höchsten, gefolgt von Produkten zwischen 951 und 1331 Yuan und Produkten mit Preisen über 9684 Yuan sind die niedrigsten.

Der allgemeine Trend geht dahin, zuerst zu steigen und dann zu sinken, aber der höchste Höhepunkt liegt bei einem relativ niedrigen Preisniveau.

Es zeigt, dass die Nachfrage der Verbraucher nach Sofas eher im Niedrigpreissegment liegt. Je höher der Preis über 1.680 Yuan, desto geringer ist das durchschnittliche Verkaufsvolumen.

Analyse der Auswirkung des Produktpreises auf den Umsatz

Wie oben, um den Visualisierungseffekt intuitiver zu gestalten, kombinieren wir hier unsere eigenen Produktbedingungen und wählen Produkte mit einem Preis von weniger als aus 20.000.

Der Code lautet wie folgt:

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Wie aus der Tabelle ersichtlich:

Der allgemeine Trend: Mit steigenden Warenpreisen sinkt das Verkaufsvolumen, und die Rohstoffpreise haben einen großen Einfluss auf das Verkaufsvolumen.

Das Verkaufsvolumen einiger Produkte mit einem Preis zwischen 500 und 2500 ist sehr hoch. Das Verkaufsvolumen der meisten Produkte mit einem Preis zwischen 2500 und 5000 ist gering, und bei einigen Produkten ist das Verkaufsvolumen relativ hoch Produkte mit einem Preis über 5000 sind sehr niedrig. Es gibt keine Produkte mit herausragenden Verkäufen.

Analyse der Auswirkungen der Rohstoffpreise auf den Umsatz

Der Code lautet wie folgt:

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Wie aus dem Diagramm ersichtlich ist:

Gesamttrend: Aus der Anpassungslinie der linearen Regression ist ersichtlich, dass die Produktverkäufe mit steigendem Preis einen Aufwärtstrend aufweisen.

Die meisten Artikel haben einen niedrigen Preis und die Verkäufe sind gering.

Nur ​​wenige Produkte mit einem Preis zwischen 0 und 20.000 haben einen hohen Umsatz, nur 3 Produkte mit einem Preis zwischen 20.000 und 60.000 haben einen hohen Umsatz und ein Produkt mit einem Preis zwischen 60.000 und 100.000 hat einen hohen Umsatz und ist der größte Wert.

Die Verteilung der Warenmenge in verschiedenen Provinzen

Der Code lautet wie folgt:

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Wie aus der Grafik hervorgeht:

Guangdong hat die meisten Geschäfte, gefolgt von Shanghai und Jiangsu. Insbesondere die Zahl in Guangdong übersteigt die von Jiangsu, Zhejiang, Shanghai und anderen Orten bei weitem, was das auf dem Sofa zeigt In der Unterkategorie dominieren Guangdong-Läden.

Die Zahlen in Jiangsu, Zhejiang und Shanghai unterscheiden sich kaum und sind grundsätzlich gleich.

Die durchschnittliche Verkaufsverteilung von Waren in verschiedenen Provinzen

Der Code lautet wie folgt:

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Wärmekarte

Ich habe mit Python mehr als 4.000 Taobao-Produktdaten gecrawlt und diese Regeln entdeckt! ! !

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn