Heim  >  Artikel  >  Web-Frontend  >  Brauche Hilfe!

Brauche Hilfe!

WBOY
WBOYOriginal
2024-08-16 17:03:40851Durchsuche

Need Help!

Hallo, ich brauche die Hilfe von jemandem, der sich mit Webscraping auskennt, da ich neu in der Programmierung bin. Ich habe den Auftrag, den Abschnitt „Über den Kunden“ aus den Job-Links zu extrahieren. Mein Skript extrahiert nur ein „Über den Client“, aber bei anderen Links tut es das nicht und wirft einen Fehler aus. Die Sache ist, dass es einen XML-Dateilink gibt, aus dem ich die Job-Links extrahiere, und wenn diese Links geöffnet werden, befindet sich der HTML-Code unter Java-Skript, für das ich Selenium verwende. Ich habe alles versucht, aber keine Lösung gefunden.`def extract_client_info(job_url):
client_info = {'Über den Kunden': np.nan}

if job_url and job_url != "N/A":
    try:
        # Open the job URL
        driver.get(job_url)

        # Wait for the page to load
        WebDriverWait(driver, 30).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, '.cfe-about-client-v2'))
        )

        # Extract specific details
        about_client_section = driver.find_element(By.CSS_SELECTOR, '.cfe-about-client-v2')
        client_location = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-location"]').text.strip()
        client_job_posting_stats = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-job-posting-stats"]').text.strip() if about_client_section.find_elements(By.CSS_SELECTOR, '[data-qa="client-job-posting-stats"]') else "N/A"
        client_company_profile = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-company-profile"]').text.strip()

        # Combine extracted information
        client_info['About the Client'] = (
            f"Location: {client_location}\n"
            f"Job Posting Stats: {client_job_posting_stats}\n"
            f"Company Profile: {client_company_profile}"
        )

    except Exception as e:
        print(f"Failed to get 'About the Client' for {job_url}: {e}")
        client_info['About the Client'] = np.nan

    finally:
        # Wait for 10 seconds before making the next request
        time.sleep(10)

return client_info`

Das obige ist der detaillierte Inhalt vonBrauche Hilfe!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn