웹 크롤러 - Java를 사용하여 정보를 크롤링하고 순위 시스템을 만드는 방법은 무엇입니까?

Question

자바 웹을 배우다가 우연히 재미있는 프로젝트가 생겼습니다. 우리 학교에서는 아침 달리기를 위해 신용카드 결제를 요구합니다. 체육부에서는 문의 웹사이트를 제공하지만 인터페이스는 제공하지 않습니다. 웹사이트/WeChat 백엔드를 만들어 학교 웹사이트에서 정보를 수집하고 이를 데이터베이스에 저장하고 싶습니다. 그러면 사용자가 내 웹사이트/WeChat을 통해 쿼리할 수 있습니다.

PHP中文网 · Answer

별다른 방법이 생각나지 않아서 그냥 아무렇지도 않게 말했어요.

Jsoup을 사용하여 페이지 데이터를 크롤링하세요, 하하

代言 · Answer

몇 가지 사항을 생각해보고 간단히 이야기해 보겠습니다.
1. 데이터 캡처, 자신만의 크롤러 프로그램 작성, 데이터 크롤링을 위한 시간 규칙 수립 등이 가능합니다.
2. 데이터 처리, jsoup을 통해 웹페이지 콘텐츠 캡처 또는 기타 웹페이지의 유효 콘텐츠를 추출하고 데이터 구조를 설계하는 방법 학생 ID는 학생 ID를 통해 연관되는 학생 테이블과 아침 달리기 기록 테이블이 있을 수 있습니다. 횟수로 정렬하는 것인데, 생각해보면, 시간으로 정렬하는 것이 무리라면 실제 아침 런닝타임을 판단할 방법이 없기 때문에 그냥 횟수로 얘기하면 됩니다. 실행 횟수 필드를 학생 테이블에 저장하고, 기록 테이블을 통한 쿼리를 줄이고, 효율성을 향상시킨다는 것은 데이터 처리가 필요할 때 이 필드를 유지한다는 의미입니다

三叔 · Answer

일반적으로 httpclient这样的工具将返回包拿到，解析报文实体（这里指html页面），接下来就是利用xpath、正则、类似于jQuery方式解析DOM 요소를 기반으로 원하는 데이터(예: jsoup 패키지)를 얻습니다. 그래도 여전히 번거롭다면 webmagic 프레임워크를 사용할 수 있습니다

巴扎黑 · Answer

로그인 시뮬레이션: 브라우저를 사용하여 로그인 페이지를 열고 학생 ID와 비밀번호를 수신하는 URL을 관찰합니다. 로그인을 시뮬레이션할 때 응답 헤더에서 Set-cookie 필드 정보를 구문 분석합니다.
권장사항: 사용자가 매번 쿼리하는 데이터(예: 2시간 동안)를 캐시하려면 데이터베이스에 쿼리된 데이터를 저장할 수 있는 Redis를 사용하는 것이 좋습니다. 먼저 Redis에서 데이터를 가져오고, 검색할 수 없는 경우 로그인을 시뮬레이션하세요. 새로운 데이터를 얻으려면. 데이터베이스 계층은 개인적으로 필요없다고 생각하는데, 가능하다면 데이터 분석 등도 할 수 있습니다

웹 크롤러 - Java를 사용하여 정보를 크롤링하고 순위 시스템을 만드는 방법은 무엇입니까?

모든 응답(4)나는 대답할 것이다