网页爬虫 - Python+Selenium+PhantomJs爬虫,如何取得新打开页面的源码？

Question

我在做一个python爬虫，使用了selenium库和phantomjs浏览器。我在一个网页中触发了一个click事件打开了一个新的网页，然后我用browser.page_source得到的却是原来那个网页非新打开网页的源码，请问我该如何取得新...

黄舟 · Answer

Jika pautan membuka tab baharu, pemandu anda masih akan menggunakan tetingkap semasa secara lalai,

Sebagai alternatif, anda boleh menghantar "pemegang tetingkap" kepada kaedah "switch_to_window()" Menyedari perkara ini, anda boleh mengulangi setiap tetingkap yang terbuka seperti itu:

for handle in driver.window_handles:
    driver.switch_to_window(handle)

Sebagai contoh, jika penyemak imbas anda mempunyai beberapa tab, maka window_handles menyimpan objek contoh yang sepadan dengan tab ini, jadi jika anda hanya mempunyai satu halaman web yang dibuka pada masa ini, maka halaman yang baru dibuka ialah window_handles [1]
Selepas bertukar ke halaman itu, dapatkan kod sumber.

天蓬老师 · Answer

Jika ia dibuka dalam tetingkap semasa, ada kemungkinan halaman baharu belum dimuatkan lagi, dan url dan data halaman baharu itu tidak boleh diperolehi pada masa itu. Anda boleh menggunakan tunggu di sini dan tetapkan beberapa syarat untuk pastikan halaman baharu dimuatkan sebelum meneruskan , kodnya adalah seperti berikut:

from selenium.webdriver.support.ui import WebDriverWait
# 等待新页面生成
WebDriverWait(self.browser, 5).until(
    expected_conditions.presence_of_element_located((By.ID, "username")
    )

网页爬虫 - Python+Selenium+PhantomJs爬虫,如何取得新打开页面的源码？

membalas semua(2)saya akan balas