ホームページ  >  記事  >  ウェブフロントエンド  >  助けが必要です!

助けが必要です!

WBOY
WBOYオリジナル
2024-08-16 17:03:40851ブラウズ

Need Help!

こんにちは、私はプログラミングが初心者なので、ウェブスクレイピングに熟練した人の助けを必要としています。求人リンクから「クライアントについて」セクションを抽出するという課題があります。私のスクリプトは「クライアントについて」を 1 つだけ抽出しますが、他のリンクでは抽出されず、エラーがスローされます。問題は、ジョブリンクを抽出しているxmlファイルリンクがあり、それらのリンクが開かれると、htmlコードがseleniumを使用しているjavaスクリプトの下にあることです。すべて試しましたが、解決策が見つかりませんでした。`def extract_client_info(job_url):
client_info = {'クライアントについて': np.nan}

if job_url and job_url != "N/A":
    try:
        # Open the job URL
        driver.get(job_url)

        # Wait for the page to load
        WebDriverWait(driver, 30).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, '.cfe-about-client-v2'))
        )

        # Extract specific details
        about_client_section = driver.find_element(By.CSS_SELECTOR, '.cfe-about-client-v2')
        client_location = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-location"]').text.strip()
        client_job_posting_stats = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-job-posting-stats"]').text.strip() if about_client_section.find_elements(By.CSS_SELECTOR, '[data-qa="client-job-posting-stats"]') else "N/A"
        client_company_profile = about_client_section.find_element(By.CSS_SELECTOR, '[data-qa="client-company-profile"]').text.strip()

        # Combine extracted information
        client_info['About the Client'] = (
            f"Location: {client_location}\n"
            f"Job Posting Stats: {client_job_posting_stats}\n"
            f"Company Profile: {client_company_profile}"
        )

    except Exception as e:
        print(f"Failed to get 'About the Client' for {job_url}: {e}")
        client_info['About the Client'] = np.nan

    finally:
        # Wait for 10 seconds before making the next request
        time.sleep(10)

return client_info`

以上が助けが必要です!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。