Python에서 BeautifulSoup을 사용하여 웹사이트를 스크랩하려고 합니다. 내가 액세스하려는 모든 링크를 포함하여 모든 데이터가 수집됩니다. 그러나 .findAll() 함수를 사용하면 내가 찾고 있는 링크의 일부만 반환됩니다. 즉, 다음 xpath의 링크만 반환됩니다
/html/body/div[1]/div/div[2]/div/div[2]/div[1]
이렇게 하면 다음의 링크가 무시됩니다. /html/body/div[1]/div/div[2]/div/div[2]/div[2] /html/body/div[1]/div/div[2]/div/div[2]/div[3] 잠깐
으아아아모든 링크를 mp_pages 목록에 추가하고 싶지만 한 상위 항목(A로 시작하는 링크)으로만 이동하고 계속되지 않고 마지막 하위 항목에서 중지되는 것 같습니다.
자바스크립트로 인해 셀레늄을 사용하라는 답변이 나온 비슷한 질문을 본 적이 있는데, 모든 링크가 콘텐츠 내에 있으므로 말이 안 됩니다.
P粉5534287802023-09-15 11:25:57
페이지에 표시되는 데이터는 요소에 Json으로 저장됩니다. 이를 구문 분석하려면 다음 예를 사용할 수 있습니다.
인쇄:
으아아아