>  Q&A  >  본문

javascript - nodejs가 웹페이지를 크롤링하는 데 문제가 있습니다.

아래 웹사이트의 모든 뉴스를 nodejs를 사용하여 캡처할 계획입니다. 일반적인 생각에 따라 먼저 각 뉴스 페이지의 URL을 가져온 다음 각 뉴스의 URL을 가져옵니다.
request를 사용하여 각 URL의 콘텐츠를 가져옵니다. 그게 다야

그러나 다음 웹사이트의 모든 페이징 정보와 클릭한 각 뉴스의 URL은 모두 변경되지 않은 것으로 보입니다. 모두 백그라운드에서 js를 통해 구현된 것 같습니다.
newwork를 사용하는 요청은 볼 수 없습니다. 크롬의 F12 탭, 잡는 방법을 알려줄 수 있는 마스터가 있나요?

http://www.xxxxxxxxx.com/glob...

阿神阿神2683일 전573

모든 응답(2)나는 대답할 것이다

  • 阿神

    阿神2017-05-16 13:45:09

    1. 이전 기사와 다음 기사에서 볼 수 있듯이 클릭에 바인딩된 함수: boardView(1);

    2. boadrview를 통해 페이지에서 해당 기능을 찾으세요:

    . 으아아아

    …………

    3. 변수 목록에서 데이터가 나오는지 확인한 다음 목록을 찾으세요

    4. 1739행을 참조하세요.

    으아아아

    5. 생성자는 jsList()라고 하며 해당 코드는 여기에서 찾을 수 있습니다: http://www.samsungsem.com/js/...

    6 2단계의 코드를 다시 살펴보세요. list.artTitles -->이 데이터는 jsList의 cmsInit 메서드와 cmsInit를 통해 설정됩니다.

    으아아아

    ...
    의 데이터는 네 번째 매개변수 데이터

    에서 나옵니다.

    7. 4단계에서 전달된 데이터인 new data()를 살펴보세요
    그래서 데이터 함수가 정의된 위치를 찾습니다.
    검색 및 찾기: <script src="/global/news/data.js.jsp"></script>

    8. 열어서 살펴보세요: http://www.samsungsem.com/glo...
    느낌이 너무 이상해요 왜 이렇게 이상한가요?

    마우스 오른쪽 버튼을 클릭하시면 소스코드를 보실 수 있습니다:
    view-source: http://www.samsungsem.com/glo...
    여기서 데이터 함수가 정의되어 있는 것을 보실 수 있고, 보이는 데이터도 여기에 있습니다. 페이지.

    회신하다
    0
  • 过去多啦不再A梦

    过去多啦不再A梦2017-05-16 13:45:09

    답변 감사합니다 먼저 확인해보겠습니다...

    기본적으로는 이해가 안가는 부분이 있어서 천천히 살펴보도록 하겠습니다..

    회신하다
    0
  • 취소회신하다