>Java >java지도 시간 >JAVA는 웹 페이지 데이터 jsoup를 크롤링합니다.

JAVA는 웹 페이지 데이터 jsoup를 크롤링합니다.

TmDGl
TmDGl원래의
2020-04-29 18:13:08212검색

최근 몇 년 동안 등장한 크롤링 데이터와 관련하여 대부분의 사람들은 Python을 사용하여 크롤링합니다. 일부 사람들은 Java가 데이터 크롤링도 수행할 수 있다는 사실을 아직 모릅니다. 그런 다음 편집자는 Java 크롤링 웹 페이지 데이터에 대한 기사를 귀하와 공유할 것입니다.

데이터 크롤링의 의미는 요청에 의해 반환된 페이지 정보를 얻고 원하는 데이터를 필터링하는 것입니다.

짧게 이야기하자면:

1. 환경 준비

도구가 Eclipse 또는 IDEA인 경우

maven 구성

2. jsoup 관련 종속성 가져오기

                                            수프

public static void main( String[] args) throws Exception { Scanner sc = new Scanner(System.in); System.out.println("검색 키워드를 입력하세요!!!"); String input = sc.next(); 요청, 여기에서 직접 요청을 찾으세요. String url = "https://search.xx.com/Search?keyword="+input; //웹 페이지를 구문 분석합니다. (여기서 jsoup에서 반환한 문서는 페이지 문서 개체입니다.) Document document = Jsoup.parse(new URL(url), 30000); //여기에서는 js의 모든 메소드를 사용할 수 있습니다. 여기서는 크롤링 대상 div에서 ID를 가져오는 것입니다. Element element = document.getElementById("x_goodsList"); out.println(element.html()); //크롤링 대상 div의 모든 li 태그 가져오기 Elements = document.getElementsByTag("li") //li 태그의 모든 콘텐츠 탐색 for(Element el: 요소){

                                                                                                         >                      // 사진을 많이 크롤링하는 웹사이트에서는 지연 로딩을 사용하는 경우가 있습니다. 획득한 속성은 src

대신 Source-Data-Lazy-IMG / *

IMG는 크롤링 사진입니다.

String img = el.getElementsByTag("img").eq(0).attr("src" ); 문자열 가격 = el.getElementsByClass("p-price").eq(0).text(); 문자열 이름 = el.getElementsByClass("p-name").eq(0).text(); out.println("====================== ===); 여기서 불법 크롤링 행위를 중단하겠습니다. 하하하, 내 친구들이 무엇을 할 수 있는지 알기를 바랍니다. 크롤링할 수 있는 것과 크롤링할 수 없는 것.

위 내용은 JAVA는 웹 페이지 데이터 jsoup를 크롤링합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.