>  Q&A  >  본문

BeautifulSoup은 모든 데이터를 수집하지만 .findAll()은 하나의 상위 항목에 대한 링크만 반환합니다.

Python에서 BeautifulSoup을 사용하여 웹사이트를 스크랩하려고 합니다. 내가 액세스하려는 모든 링크를 포함하여 모든 데이터가 수집됩니다. 그러나 .findAll() 함수를 사용하면 내가 찾고 있는 링크의 일부만 반환됩니다. 즉, 다음 xpath의 링크만 반환됩니다

/html/body/div[1]/div/div[2]/div/div[2]/div[1]

이렇게 하면 다음의 링크가 무시됩니다. /html/body/div[1]/div/div[2]/div/div[2]/div[2] /html/body/div[1]/div/div[2]/div/div[2]/div[3] 잠깐

으아아아

모든 링크를 mp_pages 목록에 추가하고 싶지만 한 상위 항목(A로 시작하는 링크)으로만 이동하고 계속되지 않고 마지막 하위 항목에서 중지되는 것 같습니다.

자바스크립트로 인해 셀레늄을 사용하라는 답변이 나온 비슷한 질문을 본 적이 있는데, 모든 링크가 콘텐츠 내에 있으므로 말이 안 됩니다.

P粉654894952P粉654894952423일 전419

모든 응답(1)나는 대답할 것이다

  • P粉553428780

    P粉5534287802023-09-15 11:25:57

    페이지에 표시되는 데이터는