>Java >java지도 시간 >Zhihu 편집자가 추천하는 콘텐츠를 얻으려면 Java Zhihu 크롤러를 처음부터 작성하세요.

Zhihu 편집자가 추천하는 콘텐츠를 얻으려면 Java Zhihu 크롤러를 처음부터 작성하세요.

黄舟
黄舟원래의
2016-12-24 11:18:551667검색

먼저 3~5분 정도 시간을 들여 로고를 디자인하세요=. =프로그래머로서 저는 항상 예술가가 되고 싶었어요!
Zhihu 편집자가 추천하는 콘텐츠를 얻으려면 Java Zhihu 크롤러를 처음부터 작성하세요.

알겠습니다. 임시방편이므로 일단은 이만 하겠습니다.

다음으로 Zhihu의 크롤러 만들기에 들어갑니다.

먼저 첫 번째 목표를 정하세요. 편집자 추천입니다.

웹 페이지 링크: http://www.zhihu.com/explore/recommendations

페이지 콘텐츠를 가져오기 위해 마지막 코드를 약간 수정했습니다:

import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
 static String SendGet(String url) {
  // 定义一个字符串用来存储网页内容
  String result = "";
  // 定义一个缓冲字符输入流
  BufferedReader in = null;
  try {
   // 将string转成url对象
   URL realUrl = new URL(url);
   // 初始化一个链接到那个url的连接
   URLConnection connection = realUrl.openConnection();
   // 开始实际的连接
   connection.connect();
   // 初始化 BufferedReader输入流来读取URL的响应
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用来临时存储抓取到的每一行的数据
   String line;
   while ((line = in.readLine()) != null) {
    // 遍历抓取到的每一行并将其存储到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("发送GET请求出现异常!" + e);
   e.printStackTrace();
  }
  // 使用finally来关闭输入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 static String RegexString(String targetStr, String patternStr) {
  // 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容
  // 相当于埋好了陷阱匹配的地方就会掉下去
  Pattern pattern = Pattern.compile(patternStr);
  // 定义一个matcher用来做匹配
  Matcher matcher = pattern.matcher(targetStr);
  // 如果找到了
  if (matcher.find()) {
   // 打印出结果
   return matcher.group(1);
  }
  return "Nothing";
 }
 public static void main(String[] args) {
  // 定义即将访问的链接
  String url = "http://www.zhihu.com/explore/recommendations";
  // 访问链接并获取页面内容
  String result = SendGet(url);
  // 使用正则匹配图片的src内容
  //String imgSrc = RegexString(result, "src=\"(.+?)\"");
  // 打印结果
  System.out.println(result);
 }
}

실행한 후에는 문제가 없을 것입니다. 다음 단계는 일반 매칭 문제입니다.

먼저 이 페이지에서 궁금한 점을 모두 받아보세요.

제목을 마우스 오른쪽 버튼으로 클릭하고 요소를 검사합니다.

Zhihu 편집자가 추천하는 콘텐츠를 얻으려면 Java Zhihu 크롤러를 처음부터 작성하세요.

아하, 제목이 실제로 하이퍼링크인 a 태그라는 것을 알 수 있습니다. 다른 하이퍼링크와 구별되는 점은 클래스 선택자인 클래스입니다.

따라서 정규 명령문이 나옵니다. 아하, 제목을 성공적으로 캡처한 것을 볼 수 있습니다(참고, 하나만):

public static void main(String[] args) {
  // 定义即将访问的链接
  String url = "http://www.zhihu.com/explore/recommendations";
  // 访问链接并获取页面内容
  String result = SendGet(url);
  // 使用正则匹配图片的src内容
  String imgSrc = RegexString(result, "question_link.+?>(.+?)<");
  // 打印结果
  System.out.println(imgSrc);
 }
잠깐만, 이게 뭐야? !


긴장하지 마세요=. =그냥 왜곡된 문자일 뿐입니다. Zhihu 편집자가 추천하는 콘텐츠를 얻으려면 Java Zhihu 크롤러를 처음부터 작성하세요.

인코딩 문제는 다음을 참조하세요: HTML 문자 집합

일반적으로 중국어를 더 잘 지원하는 주류 인코딩은 UTF-8, GB2312 및 GBK 인코딩입니다.


위 내용은 Zhihu 편집자들이 추천하는 콘텐츠를 얻기 위해 기본 지식 없이 Java Zhihu 크롤러를 작성하는 내용입니다. php.cn)!



성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.