Rumah  >  Artikel  >  hujung hadapan web  >  Perlukan Bantuan!

Perlukan Bantuan!

WBOY
WBOYasal
2024-08-16 17:03:40851semak imbas

Need Help!

Hai saya memerlukan bantuan daripada seseorang yang mahir dalam webscraping kerana saya baru dalam pengaturcaraan. Saya mempunyai tugasan untuk mengekstrak bahagian "mengenai pelanggan" daripada pautan kerja. Skrip saya mengekstrak hanya satu "tentang klien" tetapi untuk pautan lain ia tidak melakukannya dan menimbulkan ralat. Masalahnya ialah terdapat pautan fail xml dari mana saya mengekstrak pautan kerja dan apabila pautan tersebut dibuka kod html berada di bawah skrip java yang saya gunakan selenium. Saya telah mencuba segala-galanya tetapi tidak mendapat penyelesaiannya.`def extract_client_info(job_url):
client_info = {'Mengenai Pelanggan': np.nan}

if job_url and job_url != "N/A":
    try:
        # Open the job URL
        driver.get(job_url)

        # Wait for the page to load
        WebDriverWait(driver, 30).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, '.cfe-about-client-v2'))
        )

        # Extract specific details
        about_client_section = driver.find_element(By.CSS_SELECTOR, '.cfe-about-client-v2')
        client_location = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-location"]').text.strip()
        client_job_posting_stats = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-job-posting-stats"]').text.strip() if about_client_section.find_elements(By.CSS_SELECTOR, '[data-qa="client-job-posting-stats"]') else "N/A"
        client_company_profile = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-company-profile"]').text.strip()

        # Combine extracted information
        client_info['About the Client'] = (
            f"Location: {client_location}\n"
            f"Job Posting Stats: {client_job_posting_stats}\n"
            f"Company Profile: {client_company_profile}"
        )

    except Exception as e:
        print(f"Failed to get 'About the Client' for {job_url}: {e}")
        client_info['About the Client'] = np.nan

    finally:
        # Wait for 10 seconds before making the next request
        time.sleep(10)

return client_info`

Atas ialah kandungan terperinci Perlukan Bantuan!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn