cari
Rumahpembangunan bahagian belakangTutorial PythonKikis Hasil Carian Google Menggunakan Python

Kikis Hasil Carian Google Menggunakan Python

Google menyimpan sejumlah besar data untuk perniagaan dan penyelidik. Ia melakukan lebih 8.5 bilion carian harian dan menguasai 91% bahagian pasaran enjin carian global.

Sejak debut ChatGPT, data Google telah digunakan bukan sahaja untuk tujuan tradisional seperti penjejakan kedudukan, pemantauan pesaing dan penjanaan utama tetapi juga untuk membangunkan model LLM lanjutan, melatih model AI dan meningkatkan keupayaan Pemprosesan Bahasa Semulajadi ( model NLP.

Mengikis Google, walau bagaimanapun, bukanlah mudah untuk semua orang. Ia memerlukan pasukan profesional dan infrastruktur yang teguh untuk mengikis pada skala.

Scrape Google Search Results Using Python

Dalam artikel ini, kita akan belajar mengikis Hasil Carian Google menggunakan Python dan BeautifulSoup. Ini akan membolehkan anda membina alatan dan model anda sendiri yang mampu memanfaatkan data Google pada skala besar.

Jom mulakan!

Apakah Hasil Carian Google?

Hasil Carian Google ialah penyenaraian yang muncul di Google berdasarkan pertanyaan pengguna yang dimasukkan dalam bar carian. Google banyak menggunakan NLP untuk memahami pertanyaan ini dan memberikan pengguna hasil yang berkaitan. Hasil ini selalunya termasuk coretan yang ditampilkan sebagai tambahan kepada hasil organik, seperti gambaran keseluruhan AI terkini, bahagian Orang Juga Bertanya, Carian Berkaitan dan Graf Pengetahuan. Elemen ini memberikan maklumat ringkas dan berkaitan kepada pengguna berdasarkan pertanyaan mereka.

Aplikasi Mengikis Data Carian Google

Data Carian Google mempunyai pelbagai aplikasi:

  • Membina kedudukan dan penjejak kata kunci untuk tujuan SEO.
  • Mencari perniagaan tempatan.
  • Membina enjin LLM.
  • Menemui topik yang meletup untuk aliran yang berpotensi pada masa hadapan.

Mengapa Python untuk mengikis Google?

Python ialah bahasa serba boleh dan teguh yang menyediakan konfigurasi jabat tangan HTTP yang berkuasa untuk mengikis tapak web yang mungkin bergelut dengan bahasa lain atau mempunyai kadar kejayaan yang lebih rendah. Memandangkan populariti model AI yang dilatih pada data yang dikikis web semakin meningkat, perkaitan Python dalam topik pengikisan web terus meningkat dalam komuniti pembangun.

Selain itu, pemula yang ingin mempelajari Python sebagai kemahiran mengikis web boleh memahaminya dengan mudah kerana sintaksnya yang ringkas dan kejelasan kodnya. Selain itu, ia mempunyai sokongan komuniti yang besar pada platform seperti Discord, Reddit, dll., yang boleh membantu dengan sebarang tahap masalah yang anda hadapi.

Bahasa boleh skala ini cemerlang dalam prestasi mengikis web dan menyediakan rangka kerja yang berkuasa seperti Scrapy, Requests dan BeautifulSoup, menjadikannya pilihan terbaik untuk mengikis Google dan tapak web lain berbanding bahasa lain.

Mengikis Hasil Carian Google Dengan Python

Bahagian ini akan mengajar kami membuat skrip Python asas untuk mendapatkan semula 10 hasil carian Google yang pertama.

Keperluan

Untuk mengikuti tutorial ini, kami perlu memasang perpustakaan berikut:

  • Permintaan — Untuk menarik data HTML daripada URL Carian Google.

  • BeautifulSoup — Untuk memperhalusi data HTML dalam format berstruktur.

Persediaan

Persediaan adalah mudah. Cipta fail Python dan pasang pustaka yang diperlukan untuk bermula.

Jalankan arahan berikut dalam folder projek anda:

    touch scraper.py

Dan kemudian pasang perpustakaan.

    pip install requests
    pip install beautifulsoup4

Proses

Kami telah selesai dengan persediaan dan mempunyai semua perkara untuk bergerak ke hadapan. Kami akan menggunakan perpustakaan Permintaan dalam Python untuk mengekstrak HTML mentah dan BeautifulSoup untuk memperhalusinya dan mendapatkan maklumat yang dikehendaki.

Tetapi apakah "maklumat yang dikehendaki" di sini?

Scrape Google Search Results Using Python

Data yang ditapis akan mengandungi maklumat ini:

  • Tajuk
  • Pautan
  • Pautan Dipaparkan
  • Penerangan
  • Kedudukan keputusan

Biar kami mengimport perpustakaan kami yang dipasang dahulu dalam fail scraper.py.

    from bs4 import BeautifulSoup
    import requests

Kemudian, kami akan membuat permintaan GET pada URL sasaran untuk mengambil data HTML mentah daripada Google.

headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.361681276786'}
    url='https://www.google.com/search?q=python+tutorials&gl=us'
    response = requests.get(url,headers=headers)
    print(response.status_code)

Melalui pengepala adalah penting untuk menjadikan pengikis kelihatan seperti pengguna semula jadi yang baru sahaja melawat halaman carian Google untuk mendapatkan maklumat.

Kod di atas akan membantu anda dalam menarik data HTML daripada pautan Carian Google. Jika anda mendapat kod status 200, itu bermakna permintaan itu berjaya. Ini melengkapkan bahagian pertama mencipta pengikis untuk Google.

Dalam bahagian seterusnya, kami akan menggunakan BeautifulSoup untuk mengeluarkan data yang diperlukan daripada HTML.

    soup = BeautifulSoup(response.text, ‘html.parser’)

Ini akan mencipta objek BS4 untuk menghuraikan respons HTML dan dengan itu kami akan dapat menavigasi dengan mudah di dalam HTML dan mencari sebarang elemen pilihan dan kandungan di dalamnya.

Untuk menghuraikan HTML ini, kami perlu terlebih dahulu memeriksa Halaman Carian Google untuk menyemak corak biasa yang boleh ditemui di lokasi DOM hasil carian.

Scrape Google Search Results Using Python

Jadi, selepas memeriksa, kami mendapati bahawa setiap hasil carian adalah di bawah bekas div dengan kelas g. Ini bermakna, kita hanya perlu menjalankan gelung pada setiap bekas div dengan kelas g untuk mendapatkan maklumat di dalamnya.

Sebelum menulis kod, kami akan mencari lokasi DOM untuk tajuk, penerangan dan pautan daripada HTML.

Jika anda memeriksa tajuk, anda akan mendapati bahawa ia terkandung dalam teg h3. Daripada imej, kita juga dapat melihat bahawa pautan itu terletak dalam atribut href bagi teg sauh.

Scrape Google Search Results Using Python

Pautan yang dipaparkan atau pautan petikan boleh didapati di dalam teg petikan.

Scrape Google Search Results Using Python

Dan akhirnya, penerangan disimpan di dalam bekas div dengan kelas VwiC3b.

Scrape Google Search Results Using Python

Membungkus semua entiti data ini ke dalam satu blok kod:

    touch scraper.py

Kami mengisytiharkan tatasusunan hasil organik dan kemudian menggelungkan semua elemen dengan kelas g dalam HTML dan menolak data yang dikumpul ke dalam tatasusunan.

Menjalankan kod ini akan memberikan anda hasil yang diingini yang boleh anda gunakan untuk pelbagai tujuan termasuk penjejakan kedudukan, penjanaan petunjuk dan mengoptimumkan SEO tapak web.

    pip install requests
    pip install beautifulsoup4

Jadi, begitulah cara skrip Google Scraping asas dicipta.

Namun, ada CATCH. Kami masih tidak boleh bergantung sepenuhnya pada kaedah ini kerana ini boleh mengakibatkan sekatan IP kami oleh Google. Jika kami ingin mengikis hasil carian secara berskala, kami memerlukan rangkaian proksi premium dan bukan premium yang luas serta teknik lanjutan yang boleh membolehkan perkara ini berlaku. Di situlah API SERP berperanan!

Mengikis Google Menggunakan API SERP ApiForSeo

Kaedah lain untuk mengikis Google menggunakan API SERP khusus. Ia lebih dipercayai dan tidak membenarkan anda disekat dalam proses mengikis.

Persediaan untuk bahagian ini adalah sama, cuma kami perlu mendaftar di ApiForSeo untuk mendapatkan Kunci API kami yang akan memberikan kami akses kepada API SERPnya.

Mendapatkan Bukti Kelayakan API Daripada ApiForSeo

Scrape Google Search Results Using Python

Selepas mengaktifkan akaun, anda akan diubah hala ke papan pemuka di mana anda akan mendapat Kunci API anda.

Scrape Google Search Results Using Python

Anda juga boleh menyalin kod dari papan pemuka itu sendiri.

Menyediakan kod kami untuk mengikis hasil carian

Kemudian, kami akan membuat permintaan API pada pertanyaan rawak untuk mengikis data melalui API SERP ApiForSeo.

    from bs4 import BeautifulSoup
    import requests

Anda juga boleh mencuba sebarang pertanyaan lain. Jangan lupa masukkan Kunci API anda ke dalam kod jika tidak, anda akan menerima ralat 404.

Menjalankan kod ini dalam terminal anda akan memberi anda hasil serta-merta.

    touch scraper.py

Data di atas mengandungi pelbagai perkara, termasuk tajuk, pautan, coretan, perihalan dan coretan yang ditampilkan seperti pautan tapak lanjutan. Anda juga akan mendapat coretan ciri lanjutan seperti Orang Juga Diminta, Graf Pengetahuan, Kotak Jawapan, dsb., daripada API ini.

Kesimpulan

Sifat perniagaan berkembang dengan pantas. Jika anda tidak mempunyai akses kepada data tentang aliran berterusan dan pesaing anda, anda berisiko ketinggalan di belakang perniagaan baru muncul yang membuat keputusan strategik terdorong data pada setiap langkah. Oleh itu, adalah penting bagi perniagaan untuk memahami perkara yang berlaku dalam persekitarannya dan Google boleh menjadi salah satu sumber data terbaik untuk tujuan ini.

Dalam tutorial ini, kami belajar cara mengikis hasil carian Google menggunakan Python. Jika anda mendapati blog ini membantu, sila kongsikannya di media sosial dan platform lain.

Terima kasih!

Atas ialah kandungan terperinci Kikis Hasil Carian Google Menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Memahami perbezaan: untuk gelung dan semasa gelung di pythonMemahami perbezaan: untuk gelung dan semasa gelung di pythonMay 16, 2025 am 12:17 AM

ThedifferenceBetweenaforloopandawhileloopinpythonisthataforloopisusedshiphwenthenumberofiterationsisknowninadvance, mansumwhileloopisusedwhenaconditionneedstobecheckedreepeatedlywithouthorsheer .1)

Kawalan gelung python: untuk vs sementara - perbandinganKawalan gelung python: untuk vs sementara - perbandinganMay 16, 2025 am 12:16 AM

Di Python, untuk gelung sesuai untuk kes -kes di mana bilangan lelaran diketahui, sementara gelung sesuai untuk kes -kes di mana bilangan lelaran tidak diketahui dan lebih banyak kawalan diperlukan. 1) Untuk gelung sesuai untuk melintasi urutan, seperti senarai, rentetan, dan lain -lain, dengan kod ringkas dan pythonic. 2) Walaupun gelung lebih sesuai apabila anda perlu mengawal gelung mengikut syarat atau tunggu input pengguna, tetapi anda perlu memberi perhatian untuk mengelakkan gelung tak terhingga. 3) Dari segi prestasi, gelung untuk sedikit lebih cepat, tetapi perbezaannya biasanya tidak besar. Memilih jenis gelung yang betul boleh meningkatkan kecekapan dan kebolehbacaan kod anda.

Cara Menggabungkan Dua Senarai di Python: 5 Cara MudahCara Menggabungkan Dua Senarai di Python: 5 Cara MudahMay 16, 2025 am 12:16 AM

Di Python, senarai boleh digabungkan melalui lima kaedah: 1) Gunakan pengendali, yang mudah dan intuitif, sesuai untuk senarai kecil; 2) Gunakan kaedah melanjutkan () untuk mengubah suai senarai asal secara langsung, sesuai untuk senarai yang perlu dikemas kini dengan kerap; 3) Gunakan senarai formula analisis, ringkas dan operasi pada unsur -unsur; 4) Gunakan fungsi iTerTools.Chain () untuk memori yang cekap dan sesuai untuk set data yang besar; 5) Gunakan * pengendali dan zip () berfungsi sesuai untuk adegan di mana unsur -unsur perlu dipasangkan. Setiap kaedah mempunyai penggunaan dan kelebihan dan kekurangan khususnya, dan keperluan dan prestasi projek harus diambil kira apabila memilih.

Untuk gelung vs semasa gelung: sintaks python, gunakan kes & contohUntuk gelung vs semasa gelung: sintaks python, gunakan kes & contohMay 16, 2025 am 12:14 AM

Forloopsareusedwhenthenumberofiterationsisknown, pemantauan yang digunakan

Senarai Senarai Python ConcatenateSenarai Senarai Python ConcatenateMay 16, 2025 am 12:08 AM

ToConcatenatealistOfListSinpython, useextend, listcomprehensions, itertools.chain, orrecursiveFunctions.1) extendmethodisstraightforwardbutcrosce.2)

Menyenaraikan senarai di Python: Memilih kaedah yang betulMenyenaraikan senarai di Python: Memilih kaedah yang betulMay 14, 2025 am 12:11 AM

Tomergelistsinpython, operator youCanusethe, extendmethod, listcomprehension, oritertools.chain, eachwithspecificadvantages: 1) operatorSimpleButlessefficientficorlargelists;

Bagaimana untuk menggabungkan dua senarai dalam Python 3?Bagaimana untuk menggabungkan dua senarai dalam Python 3?May 14, 2025 am 12:09 AM

Dalam Python 3, dua senarai boleh disambungkan melalui pelbagai kaedah: 1) Pengendali penggunaan, yang sesuai untuk senarai kecil, tetapi tidak cekap untuk senarai besar; 2) Gunakan kaedah Extend, yang sesuai untuk senarai besar, dengan kecekapan memori yang tinggi, tetapi akan mengubah suai senarai asal; 3) menggunakan * pengendali, yang sesuai untuk menggabungkan pelbagai senarai, tanpa mengubah suai senarai asal; 4) Gunakan itertools.chain, yang sesuai untuk set data yang besar, dengan kecekapan memori yang tinggi.

Rentetan senarai concatenate pythonRentetan senarai concatenate pythonMay 14, 2025 am 12:08 AM

Menggunakan kaedah Join () adalah cara yang paling berkesan untuk menyambungkan rentetan dari senarai di Python. 1) Gunakan kaedah Join () untuk menjadi cekap dan mudah dibaca. 2) Kitaran menggunakan pengendali tidak cekap untuk senarai besar. 3) Gabungan pemahaman senarai dan menyertai () sesuai untuk senario yang memerlukan penukaran. 4) Kaedah mengurangkan () sesuai untuk jenis pengurangan lain, tetapi tidak cekap untuk penyambungan rentetan. Kalimat lengkap berakhir.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Nordhold: Sistem Fusion, dijelaskan
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

MinGW - GNU Minimalis untuk Windows

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

SublimeText3 Linux versi baharu

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

EditPlus versi Cina retak

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini