>  기사  >  Java  >  기초 없이 자바 작성하고 바이두 홈페이지에서 먼저 Zhihu 크롤러 연습하기 (2)

기초 없이 자바 작성하고 바이두 홈페이지에서 먼저 Zhihu 크롤러 연습하기 (2)

黄舟
黄舟원래의
2016-12-24 11:14:031387검색

아, 틀렸어요. 작은 예입니다.

  // 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容
  // 相当于埋好了陷阱匹配的地方就会掉下去
  Pattern pattern = Pattern.compile("href=\"(.+?)\"");
  // 定义一个matcher用来做匹配
  Matcher matcher = pattern.matcher("<a href=\"index.html\">我的主页</a>");
  // 如果找到了
  if (matcher.find()) {
   // 打印出结果
   System.out.println(matcher.group(1));
  }

실행 결과:

index.html

예, 첫 번째 일반 코드입니다.

그러한 애플리케이션에서 사진을 가져오는 링크는 여러분의 손끝에 있어야 합니다.

정규 매칭을 함수로 캡슐화한 후 다음과 같이 코드를 수정합니다.

import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
 static String SendGet(String url) {
  // 定义一个字符串用来存储网页内容
  String result = "";
  // 定义一个缓冲字符输入流
  BufferedReader in = null;
  try {
   // 将string转成url对象
   URL realUrl = new URL(url);
   // 初始化一个链接到那个url的连接
   URLConnection connection = realUrl.openConnection();
   // 开始实际的连接
   connection.connect();
   // 初始化 BufferedReader输入流来读取URL的响应
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用来临时存储抓取到的每一行的数据
   String line;
   while ((line = in.readLine()) != null) {
    // 遍历抓取到的每一行并将其存储到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("发送GET请求出现异常!" + e);
   e.printStackTrace();
  }
  // 使用finally来关闭输入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 static String RegexString(String targetStr, String patternStr) {
  // 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容
  // 相当于埋好了陷阱匹配的地方就会掉下去
  Pattern pattern = Pattern.compile(patternStr);
  // 定义一个matcher用来做匹配
  Matcher matcher = pattern.matcher(targetStr);
  // 如果找到了
  if (matcher.find()) {
   // 打印出结果
   return matcher.group(1);
  }
  return "";
 }
 public static void main(String[] args) {
  // 定义即将访问的链接
  String url = "http://www.baidu.com";
  // 访问链接并获取页面内容
  String result = SendGet(url);
  // 使用正则匹配图片的src内容
  String imgSrc = RegexString(result, "即将的正则语法");
  // 打印结果
  System.out.println(imgSrc);
 }
}

자, 이제 모든 것이 준비되었습니다. 정규 문법 하나만 남았습니다!

그럼 어떤 정규 진술이 더 적절할까요?

src="xxxxxx" 문자열만 잡으면 전체 src 링크를 잡을 수 있다는 사실을 발견했습니다.

간단한 일반 문: src="(.+?) "


위 내용은 기본 지식이 전혀 없는 상태에서 Java Zhihu 크롤러를 작성하고 바이두 홈페이지에서 실습해 본 내용입니다(2). 더 많은 관련 내용은 주의하시기 바랍니다. PHP 중국어 홈페이지(www.php .cn)!


성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.