기초 없이 Java를 작성하고 Baidu 홈페이지에서 Zhihu 크롤러를 먼저 연습해 보세요.-java지도 시간-php.cn

집

Java

java지도 시간

기초 없이 Java를 작성하고 Baidu 홈페이지에서 Zhihu 크롤러를 먼저 연습해 보세요.

黄舟

Dec 24, 2016 am 11:11 AM

지난 회에서 Zhihu 크롤러를 만들기 위해 Java를 사용해야 한다는 이야기를 했으니, 이번에는 코드를 사용하여 웹페이지의 콘텐츠를 얻는 방법에 대해 알아보겠습니다.

우선 HTML, CSS, JS, AJAX에 대한 경험이 없다면 W3C(click me, click me)에 가서 조금 배워보는 것을 추천한다.

HTML의 경우 GET 액세스 및 POST 액세스 문제가 포함됩니다.

이 측면에 대한 이해가 부족하다면 W3C의 "GET vs. POST" 기사를 읽어보세요.

아하, 여기서는 자세히 다루지 않겠습니다.

그런 다음 Java를 사용하여 웹페이지 콘텐츠를 크롤링해야 합니다.

이때 우리 바이두가 도움이 될 것입니다.

그렇습니다. 그는 더 이상 무명 인터넷 속도 테스터가 아니라 이제 곧 우리의 파충류 실험동물이 될 것입니다! ~

먼저 바이두 홈페이지를 살펴보겠습니다:

기초 없이 Java를 작성하고 Baidu 홈페이지에서 Zhihu 크롤러를 먼저 연습해 보세요.

지금의 이런 페이지가 HTML의 공동작업의 결과물이라는 것은 다들 아시리라 믿습니다. 그리고 CSS.

브라우저에서 페이지를 마우스 오른쪽 버튼으로 클릭하고 "페이지 소스 코드 보기"를 선택합니다.

기초 없이 Java를 작성하고 Baidu 홈페이지에서 Zhihu 크롤러를 먼저 연습해 보세요.

예, 그것은 바로 이 일과 같습니다. 바이두 페이지의 소스코드입니다.

다음 작업은 크롤러를 사용하여 동일한 것을 얻는 것입니다.

먼저 간단한 소스 코드를 살펴보겠습니다.

import java.io.*;
import java.net.*;
public class Main {
 public static void main(String[] args) {
  // 定义即将访问的链接
  String url = "http://www.baidu.com";
  // 定义一个字符串用来存储网页内容
  String result = "";
  // 定义一个缓冲字符输入流
  BufferedReader in = null;
  try {
   // 将string转成url对象
   URL realUrl = new URL(url);
   // 初始化一个链接到那个url的连接
   URLConnection connection = realUrl.openConnection();
   // 开始实际的连接
   connection.connect();
   // 初始化 BufferedReader输入流来读取URL的响应
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用来临时存储抓取到的每一行的数据
   String line;
   while ((line = in.readLine()) != null) {
    //遍历抓取到的每一行并将其存储到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("发送GET请求出现异常！" + e);
   e.printStackTrace();
  }
  // 使用finally来关闭输入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  System.out.println(result);
 }
}

위는 Java 시뮬레이션의 Main 메소드입니다. Baidu에 액세스하려면

을 실행하면 됩니다. 결과를 보려면:

아하, 이전에 브라우저에서 본 것과 똑같습니다. 이제 가장 간단한 크롤러가 준비되었습니다.

하지만 이 모든 것이 내가 원하는 것은 아닙니다. 그 중에서 내가 원하는 것을 어떻게 얻을 수 있나요?

바이두의 큰 발 로고를 예로 들어보겠습니다.

임시필요:

바이두 로고의 큰 발 사진 링크를 받으세요.

먼저 브라우저를 보는 방법부터 알아보겠습니다.

이미지를 마우스 오른쪽 버튼으로 클릭하고 요소 검사를 선택합니다(Firefox, Google, IE11 모두 이 기능이 있지만 이름은 다릅니다).

기초 없이 Java를 작성하고 Baidu 홈페이지에서 Zhihu 크롤러를 먼저 연습해 보세요.

아하, 많은 div에 둘러싸인 불쌍한 img 태그가 보이시죠.

이 src는 이미지 링크입니다.

그럼 자바에서는 어떻게 할까요?

코드 시연을 용이하게 하기 위해 모든 코드를 클래스별로 캡슐화하지 않았으니 미리 양해해 주시기 바랍니다.

먼저 이전 코드를 sendGet 함수로 캡슐화합니다.

import java.io.*;
import java.net.*;
public class Main {
 static String sendGet(String url) {
  // 定义一个字符串用来存储网页内容
  String result = "";
  // 定义一个缓冲字符输入流
  BufferedReader in = null;
  try {
   // 将string转成url对象
   URL realUrl = new URL(url);
   // 初始化一个链接到那个url的连接
   URLConnection connection = realUrl.openConnection();
   // 开始实际的连接
   connection.connect();
   // 初始化 BufferedReader输入流来读取URL的响应
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用来临时存储抓取到的每一行的数据
   String line;
   while ((line = in.readLine()) != null) {
    // 遍历抓取到的每一行并将其存储到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("发送GET请求出现异常！" + e);
   e.printStackTrace();
  }
  // 使用finally来关闭输入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 public static void main(String[] args) {
  // 定义即将访问的链接
  String url = "http://www.baidu.com";
  // 访问链接并获取页面内容
  String result = sendGet(url);
  System.out.println(result);
 }
}

이것이 좀 더 깔끔해 보입니다. 강박 장애가 있는 저를 용서해 주세요.

다음 작업은 얻은 수많은 것들 중에서 사진에 대한 링크를 찾는 것입니다.

우리가 생각할 수 있는 첫 번째 방법은 indexof 함수를 사용하여 페이지 소스 코드의 문자열 결과에서 문자열 하위 문자열을 검색하는 것입니다.

예, 이 방법을 사용하면 직접 indexOf("src")를 사용하여 시작 일련 번호를 찾은 다음 종료 일련 번호를 급하게 가져오는 등 이 문제를 천천히 해결할 수 있습니다.

그러나 이 방법을 항상 사용할 수는 없습니다. 결국 짚신은 걸어다니는 데만 적합합니다. 나중에 머리를 지탱하려면 의족을 잘라야 합니다.

실수를 용서하시고 계속 진행해주세요.

그럼 이 이미지의 src는 어떻게 찾나요?

네, 아래 관객분들 말씀대로 정기매칭입니다.

정규식에 대해 잘 모르는 학생이 있는 경우 [Python] 웹 크롤러(7): Python의 정규식 자습서를 참조하세요.

간단히 말하면 정규식은 매칭과 같습니다.

예를 들어 뚱뚱한 남자 세 명이 빨간색 옷, 파란색 옷, 녹색 옷을 입고 서 있습니다.

규칙은 녹색으로 된 것을 잡으세요!

그런데 뚱뚱한 녹색 남자가 혼자 붙잡혔습니다.

그렇게 간단합니다.

규칙성을 마법의 무기로 사용하는 자바에서는 규칙성을 어떻게 사용하나요?

위 내용은 기본 지식이 전혀 없는 상태에서 Java Zhihu 크롤러를 작성하는 내용입니다. 먼저, 바이두 홈페이지에서 실습해 보시려면 PHP 중국어 홈페이지(www. php.cn)!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

뜨거운 도구

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

WebStorm Mac 버전

유용한 JavaScript 개발 도구

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.