찾다

 >  Q&A  >  본문

Python 크롤러는 어떻게 범위와 범위 사이의 콘텐츠를 크롤링하고 이를 각각 사전에 저장합니까?

집 프로필을 별도로 캡처하여 사전에 독립 열로 저장하고 싶지만 for 루프를 사용하여 인라인 요소를 직접 추출할 수 있는 방법이 없습니다.
내 코드는 다음과 같습니다.

으아악

웹페이지의 HTML 코드는 다음과 같습니다.

으아악
phpcn_u1582phpcn_u15822749일 전2124

모든 응답(5)나는 대답할 것이다

  • 曾经蜡笔没有小新

    曾经蜡笔没有小新2017-05-18 10:54:42

    실제로는 매우 간단합니다. 패턴은 구분 기호에 있습니다. 저는 DEMO

    를 작성했습니다. 으아아아

    get_text()를 통해 내부 내용을 모두 가져온 다음 공백을 제거합니다. 나중에 분할을 사용하여 나눌 수 있으며 나머지는 작성하지 않겠습니다.
    궁금하신 점이 있으시면 연락주세요.

    회신하다
    0
  • 给我你的怀抱

    给我你的怀抱2017-05-18 10:54:42

    이 HTML 코드가 잘못 작성된 것 같습니다. 라벨의 콘텐츠 텍스트가 라벨 외부에 있습니다

    올바른 라벨 내용은 두 가지뿐입니다:

    • 집 개요:

    • 46m²

    회신하다
    0
  • 巴扎黑

    巴扎黑2017-05-18 10:54:42

    innerText

    회신하다
    0
  • 滿天的星座

    滿天的星座2017-05-18 10:54:42

    당신의 경우에는 모든 템플릿이 이렇게 고정되어 있다면 for 루프와 정규식을 함께 사용하는 것이 가장 편리하다고 생각합니다

    회신하다
    0
  • 黄舟

    黄舟2017-05-18 10:54:42

    용pyquery吧

    pyquery에서 PyQuery를 Q

    로 가져옵니다.

    Q(text).find('.house-info li').text()

    회신하다
    0
  • 취소회신하다