In den ersten beiden Artikeln wurde analysiert, warum ich Mobikes Schnittstelle und als Ergebnis von Daten genutzt habe Analyse: Dieser Artikel stellt ausführbaren Quellcode zum Lernen bereit.
Wenn Sie nicht die Geduld haben, den Artikel zu lesen, schreiben Sie bitte direkt:Dieser Crawler dient nur zu Lern- und Forschungszwecken Davon sind Sie selbst verantwortlich.
git clone https://github.com/derekhe/mobike-crawler python3 crawler.pyBitte vergessen Sie nicht, ihm einen Stern zu geben wenn es Ihnen gefällt!
Verzeichnisstruktur
- Analyse - Jupiter für Datenanalyse
- Zufluss -importer – in influxdb importieren, aber ich habe es vorher nicht gut gemacht
Modules – Proxy-Modul
- web – grafisches Echtzeit-Anzeigemodul, es war nur zum Lernen
- crawler.py – Crawler-Kerncode
- importToDb.py – Import in die Postgres-Datenbank zur Analyse
- sql.sql – Tabellen-SQL erstellen
- start.sh – Kontinuierlich ausgeführtes Skript
SQLite gespeichert 3-Datenbank und dann in eine CSV-Datei exportiert, um Platz zu sparen.
MobikesAPI gibt Fahrräder in einem quadratischen Bereich zurück, indem ich sie Stück für Stück verschiebe .
links,oben,rechts,unten definiert den Kriechbereich, der sich derzeit innerhalb des Chengdu City Ring Expressway befindet Bereich südlich bis Nanhu. offset definiert das Crawling-Intervall. Es basiert jetzt auf 0.002 und kann innerhalb von 15 Minuten auf dem DigitalOcean 5$-Server gecrawlt werden >
Dann wurden 250 Threads gestartet, die mich fragten, warum ich keine Coroutinen verwendet habe, hmmm~~ Ich habe es damals noch nicht gelernt~~~ Es ist tatsächlich möglich und vielleicht ist es effizienter . Hoch.def start(self): left = 30.7828453209 top = 103.9213455517 right = 30.4781772402 bottom = 104.2178123382 offset = 0.002 if os.path.isfile(self.db_name): os.remove(self.db_name) try: with sqlite3.connect(self.db_name) as c: c.execute('''CREATE TABLE mobike (Time DATETIME, bikeIds VARCHAR(12), bikeType TINYINT,distId INTEGER,distNum TINYINT, type TINYINT, x DOUBLE, y DOUBLE)''') except Exception as ex: pass
Da die Daten dedupliziert werden müssen, um doppelte Teile zwischen kleinen quadratischen Bereichen zu entfernen, ist der API-Code hier. Erstellen Sie einfach einen wenige
Variablenund es ist sehr einfach.
executor = ThreadPoolExecutor(max_workers=250) print("Start") self.total = 0 lat_range = np.arange(left, right, -offset) for lat in lat_range: lon_range = np.arange(top, bottom, offset) for lon in lon_range: self.total += 1 executor.submit(self.get_nearby_bikes, (lat, lon)) executor.shutdown() self.group_data()
Abschließend möchten Sie vielleicht fragen: Werden häufig verwendete IP-Adressen nicht blockiert? Tatsächlich gibt es bei Mobike Beschränkungen für die IP-Zugriffsgeschwindigkeit, aber der Weg, sie zu knacken, ist sehr einfach, nämlich die Verwendung einer großen Anzahl von Proxys. Ich habe einen Agentenpool mit im Grunde mehr als 8.000 Agenten pro Tag. Rufen Sie diesen Proxy-Pool direkt in ProxyProvider ab und stellen Sie eine Auswahlfunktion
bereit, um die 50 besten Proxys zufällig auszuwählen. Bitte beachten Sie, dass mein Proxy-Pool stündlichdef get_nearby_bikes(self, args): try: url = "https://mwx.mobike.com/mobike-api/rent/nearbyBikesInfo.do" payload = "latitude=%s&longitude=%s&errMsg=getMapCenterLocation" % (args[0], args[1]) headers = { 'charset': "utf-8", 'platform': "4", "referer":"https://servicewechat.com/wx40f112341ae33edb/1/", 'content-type': "application/x-www-form-urlencoded", 'user-agent': "MicroMessenger/6.5.4.1000 NetType/WIFI Language/zh_CN", 'host': "mwx.mobike.com", 'connection': "Keep-Alive", 'accept-encoding': "gzip", 'cache-control': "no-cache" } self.request(headers, payload, args, url) except Exception as ex: print(ex)aktualisiert
wird, die im Code bereitgestellte Proxy-Liste von
jsonblob jedoch nur ein Beispiel ist und das meiste davon nach einiger Zeit ungültig sein sollte Zeit. . Hier kommt ein Proxy-Scoring-Mechanismus zum Einsatz. Anstatt Agenten direkt nach dem Zufallsprinzip auszuwählen, habe ich die Agenten nach ihrer Punktzahl sortiert. Bei jeder erfolgreichen Anfrage werden Punkte gutgeschrieben, bei einer fehlerhaften Anfrage werden Punkte abgezogen. Auf diese Weise kann in kurzer Zeit der Agent mit der besten Geschwindigkeit und Qualität ausgewählt werden. Sie können es speichern und bei Bedarf beim nächsten Mal verwenden. Wählen Sie bei der tatsächlichen Verwendung den Proxy über ProxyProvider.pick() aus und verwenden Sie ihn dann. Wenn es Probleme mit dem Proxy gibt, verwenden Sie direkt Proxy.fatal_error(), um die Punktzahl zu senken, sodass dieser Proxy in Zukunft nicht mehr ausgewählt wird.
Okay, das ist im Grunde alles~~~ Studieren Sie die anderen Codes selbst~~~
Das obige ist der detaillierte Inhalt vonAnalyse des Mobike-Crawler-Quellcodes. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Ist es genug, um Python für zwei Stunden am Tag zu lernen? Es hängt von Ihren Zielen und Lernmethoden ab. 1) Entwickeln Sie einen klaren Lernplan, 2) Wählen Sie geeignete Lernressourcen und -methoden aus, 3) praktizieren und prüfen und konsolidieren Sie praktische Praxis und Überprüfung und konsolidieren Sie und Sie können die Grundkenntnisse und die erweiterten Funktionen von Python während dieser Zeit nach und nach beherrschen.

Zu den wichtigsten Anwendungen von Python in der Webentwicklung gehören die Verwendung von Django- und Flask -Frameworks, API -Entwicklung, Datenanalyse und Visualisierung, maschinelles Lernen und KI sowie Leistungsoptimierung. 1. Django und Flask Framework: Django eignet sich für die schnelle Entwicklung komplexer Anwendungen, und Flask eignet sich für kleine oder hochmobile Projekte. 2. API -Entwicklung: Verwenden Sie Flask oder Djangorestframework, um RESTFUFFUPI zu erstellen. 3. Datenanalyse und Visualisierung: Verwenden Sie Python, um Daten zu verarbeiten und über die Webschnittstelle anzuzeigen. 4. Maschinelles Lernen und KI: Python wird verwendet, um intelligente Webanwendungen zu erstellen. 5. Leistungsoptimierung: optimiert durch asynchrones Programmieren, Caching und Code

Python ist in der Entwicklungseffizienz besser als C, aber C ist in der Ausführungsleistung höher. 1. Pythons prägnante Syntax und reiche Bibliotheken verbessern die Entwicklungseffizienz. 2. Die Kompilierungsmerkmale von Compilation und die Hardwarekontrolle verbessern die Ausführungsleistung. Bei einer Auswahl müssen Sie die Entwicklungsgeschwindigkeit und die Ausführungseffizienz basierend auf den Projektanforderungen abwägen.

Zu den realen Anwendungen von Python gehören Datenanalysen, Webentwicklung, künstliche Intelligenz und Automatisierung. 1) In der Datenanalyse verwendet Python Pandas und Matplotlib, um Daten zu verarbeiten und zu visualisieren. 2) In der Webentwicklung vereinfachen Django und Flask Frameworks die Erstellung von Webanwendungen. 3) Auf dem Gebiet der künstlichen Intelligenz werden Tensorflow und Pytorch verwendet, um Modelle zu bauen und zu trainieren. 4) In Bezug auf die Automatisierung können Python -Skripte für Aufgaben wie das Kopieren von Dateien verwendet werden.

Python wird häufig in den Bereichen Data Science, Web Development und Automation Scripting verwendet. 1) In der Datenwissenschaft vereinfacht Python die Datenverarbeitung und -analyse durch Bibliotheken wie Numpy und Pandas. 2) In der Webentwicklung ermöglichen die Django- und Flask -Frameworks Entwicklern, Anwendungen schnell zu erstellen. 3) In automatisierten Skripten machen Pythons Einfachheit und Standardbibliothek es ideal.

Die Flexibilität von Python spiegelt sich in Multi-Paradigm-Unterstützung und dynamischen Typsystemen wider, während eine einfache Syntax und eine reichhaltige Standardbibliothek stammt. 1. Flexibilität: Unterstützt objektorientierte, funktionale und prozedurale Programmierung und dynamische Typsysteme verbessern die Entwicklungseffizienz. 2. Benutzerfreundlichkeit: Die Grammatik liegt nahe an der natürlichen Sprache, die Standardbibliothek deckt eine breite Palette von Funktionen ab und vereinfacht den Entwicklungsprozess.

Python ist für seine Einfachheit und Kraft sehr beliebt, geeignet für alle Anforderungen von Anfängern bis hin zu fortgeschrittenen Entwicklern. Seine Vielseitigkeit spiegelt sich in: 1) leicht zu erlernen und benutzten, einfachen Syntax; 2) Reiche Bibliotheken und Frameworks wie Numpy, Pandas usw.; 3) plattformübergreifende Unterstützung, die auf einer Vielzahl von Betriebssystemen betrieben werden kann; 4) Geeignet für Skript- und Automatisierungsaufgaben zur Verbesserung der Arbeitseffizienz.

Ja, lernen Sie Python in zwei Stunden am Tag. 1. Entwickeln Sie einen angemessenen Studienplan, 2. Wählen Sie die richtigen Lernressourcen aus, 3. Konsolidieren Sie das durch die Praxis erlernte Wissen. Diese Schritte können Ihnen helfen, Python in kurzer Zeit zu meistern.


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

MinGW – Minimalistisches GNU für Windows
Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

DVWA
Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor