지난 회에서 Zhihu 크롤러를 만들기 위해 Java를 사용해야 한다는 이야기를 했으니, 이번에는 코드를 사용하여 웹페이지의 콘텐츠를 얻는 방법에 대해 알아보겠습니다.
우선 HTML, CSS, JS, AJAX에 대한 경험이 없다면 W3C(click me, click me)에 가서 조금 배워보는 것을 추천한다.
HTML의 경우 GET 액세스 및 POST 액세스 문제가 포함됩니다.
이 측면에 대한 이해가 부족하다면 W3C의 "GET vs. POST" 기사를 읽어보세요.
아하, 여기서는 자세히 다루지 않겠습니다.
그런 다음 Java를 사용하여 웹페이지 콘텐츠를 크롤링해야 합니다.
이때 우리 바이두가 도움이 될 것입니다.
그렇습니다. 그는 더 이상 무명 인터넷 속도 테스터가 아니라 이제 곧 우리의 파충류 실험동물이 될 것입니다! ~
먼저 바이두 홈페이지를 살펴보겠습니다:
지금의 이런 페이지가 HTML의 공동작업의 결과물이라는 것은 다들 아시리라 믿습니다. 그리고 CSS.
브라우저에서 페이지를 마우스 오른쪽 버튼으로 클릭하고 "페이지 소스 코드 보기"를 선택합니다.
예, 그것은 바로 이 일과 같습니다. 바이두 페이지의 소스코드입니다.
다음 작업은 크롤러를 사용하여 동일한 것을 얻는 것입니다.
먼저 간단한 소스 코드를 살펴보겠습니다.
import java.io.*; import java.net.*; public class Main { public static void main(String[] args) { // 定义即将访问的链接 String url = "http://www.baidu.com"; // 定义一个字符串用来存储网页内容 String result = ""; // 定义一个缓冲字符输入流 BufferedReader in = null; try { // 将string转成url对象 URL realUrl = new URL(url); // 初始化一个链接到那个url的连接 URLConnection connection = realUrl.openConnection(); // 开始实际的连接 connection.connect(); // 初始化 BufferedReader输入流来读取URL的响应 in = new BufferedReader(new InputStreamReader( connection.getInputStream())); // 用来临时存储抓取到的每一行的数据 String line; while ((line = in.readLine()) != null) { //遍历抓取到的每一行并将其存储到result里面 result += line; } } catch (Exception e) { System.out.println("发送GET请求出现异常!" + e); e.printStackTrace(); } // 使用finally来关闭输入流 finally { try { if (in != null) { in.close(); } } catch (Exception e2) { e2.printStackTrace(); } } System.out.println(result); } }
위는 Java 시뮬레이션의 Main 메소드입니다. Baidu에 액세스하려면
을 실행하면 됩니다. 결과를 보려면:
아하, 이전에 브라우저에서 본 것과 똑같습니다. 이제 가장 간단한 크롤러가 준비되었습니다.
하지만 이 모든 것이 내가 원하는 것은 아닙니다. 그 중에서 내가 원하는 것을 어떻게 얻을 수 있나요?
바이두의 큰 발 로고를 예로 들어보겠습니다.
임시필요:
바이두 로고의 큰 발 사진 링크를 받으세요.
먼저 브라우저를 보는 방법부터 알아보겠습니다.
이미지를 마우스 오른쪽 버튼으로 클릭하고 요소 검사를 선택합니다(Firefox, Google, IE11 모두 이 기능이 있지만 이름은 다릅니다).
아하, 많은 div에 둘러싸인 불쌍한 img 태그가 보이시죠.
이 src는 이미지 링크입니다.
그럼 자바에서는 어떻게 할까요?
코드 시연을 용이하게 하기 위해 모든 코드를 클래스별로 캡슐화하지 않았으니 미리 양해해 주시기 바랍니다.
먼저 이전 코드를 sendGet 함수로 캡슐화합니다.
import java.io.*; import java.net.*; public class Main { static String sendGet(String url) { // 定义一个字符串用来存储网页内容 String result = ""; // 定义一个缓冲字符输入流 BufferedReader in = null; try { // 将string转成url对象 URL realUrl = new URL(url); // 初始化一个链接到那个url的连接 URLConnection connection = realUrl.openConnection(); // 开始实际的连接 connection.connect(); // 初始化 BufferedReader输入流来读取URL的响应 in = new BufferedReader(new InputStreamReader( connection.getInputStream())); // 用来临时存储抓取到的每一行的数据 String line; while ((line = in.readLine()) != null) { // 遍历抓取到的每一行并将其存储到result里面 result += line; } } catch (Exception e) { System.out.println("发送GET请求出现异常!" + e); e.printStackTrace(); } // 使用finally来关闭输入流 finally { try { if (in != null) { in.close(); } } catch (Exception e2) { e2.printStackTrace(); } } return result; } public static void main(String[] args) { // 定义即将访问的链接 String url = "http://www.baidu.com"; // 访问链接并获取页面内容 String result = sendGet(url); System.out.println(result); } }
이것이 좀 더 깔끔해 보입니다. 강박 장애가 있는 저를 용서해 주세요.
다음 작업은 얻은 수많은 것들 중에서 사진에 대한 링크를 찾는 것입니다.
우리가 생각할 수 있는 첫 번째 방법은 indexof 함수를 사용하여 페이지 소스 코드의 문자열 결과에서 문자열 하위 문자열을 검색하는 것입니다.
예, 이 방법을 사용하면 직접 indexOf("src")를 사용하여 시작 일련 번호를 찾은 다음 종료 일련 번호를 급하게 가져오는 등 이 문제를 천천히 해결할 수 있습니다.
그러나 이 방법을 항상 사용할 수는 없습니다. 결국 짚신은 걸어다니는 데만 적합합니다. 나중에 머리를 지탱하려면 의족을 잘라야 합니다.
실수를 용서하시고 계속 진행해주세요.
그럼 이 이미지의 src는 어떻게 찾나요?
네, 아래 관객분들 말씀대로 정기매칭입니다.
정규식에 대해 잘 모르는 학생이 있는 경우 [Python] 웹 크롤러(7): Python의 정규식 자습서를 참조하세요.
간단히 말하면 정규식은 매칭과 같습니다.
예를 들어 뚱뚱한 남자 세 명이 빨간색 옷, 파란색 옷, 녹색 옷을 입고 서 있습니다.
규칙은 녹색으로 된 것을 잡으세요!
그런데 뚱뚱한 녹색 남자가 혼자 붙잡혔습니다.
그렇게 간단합니다.
규칙성을 마법의 무기로 사용하는 자바에서는 규칙성을 어떻게 사용하나요?위 내용은 기본 지식이 전혀 없는 상태에서 Java Zhihu 크롤러를 작성하는 내용입니다. 먼저, 바이두 홈페이지에서 실습해 보시려면 PHP 중국어 홈페이지(www. php.cn)!

이 기사에서는 Java 프로젝트 관리, 구축 자동화 및 종속성 해상도에 Maven 및 Gradle을 사용하여 접근 방식과 최적화 전략을 비교합니다.

이 기사에서는 Maven 및 Gradle과 같은 도구를 사용하여 적절한 버전 및 종속성 관리로 사용자 정의 Java 라이브러리 (JAR Files)를 작성하고 사용하는 것에 대해 설명합니다.

이 기사는 카페인 및 구아바 캐시를 사용하여 자바에서 다단계 캐싱을 구현하여 응용 프로그램 성능을 향상시키는 것에 대해 설명합니다. 구성 및 퇴거 정책 관리 Best Pra와 함께 설정, 통합 및 성능 이점을 다룹니다.

이 기사는 캐싱 및 게으른 하중과 같은 고급 기능을 사용하여 객체 관계 매핑에 JPA를 사용하는 것에 대해 설명합니다. 잠재적 인 함정을 강조하면서 성능을 최적화하기위한 설정, 엔티티 매핑 및 모범 사례를 다룹니다. [159 문자]

Java의 클래스 로딩에는 부트 스트랩, 확장 및 응용 프로그램 클래스 로더가있는 계층 적 시스템을 사용하여 클래스로드, 링크 및 초기화 클래스가 포함됩니다. 학부모 위임 모델은 핵심 클래스가 먼저로드되어 사용자 정의 클래스 LOA에 영향을 미치도록합니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU
이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

WebStorm Mac 버전
유용한 JavaScript 개발 도구

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

Dreamweaver Mac版
시각적 웹 개발 도구

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.
