웹 페이지는 메타 태그의 문자 집합을 통해 웹 페이지 인코딩을 설정할 수 있습니다. 예:
<meta charset="utf-8" />
페이지 소스 코드를 보려면 마우스 오른쪽 버튼을 클릭합니다.
보시다시피 Zhihu는 UTF-8 인코딩을 사용합니다.
페이지 소스 코드 보기와 요소 검사의 차이점을 설명하겠습니다.
페이지 소스 코드를 보면 전체 페이지의 코드가 모두 표시됩니다. 이는 HTML 태그에 따른 형식이 아닙니다. 이는 소스 코드를 직접 보는 것과 같습니다. 메타와 같은 전체 웹페이지.
요소를 검사하거나 일부 브라우저에서는 이를 뷰 요소라고 부르는데, 이는 개체의 속성과 태그를 개별적으로 보는 데 더 적합합니다.
자, 이제 문제가 인코딩에 있다는 것을 알았고 다음 단계는 캡처된 콘텐츠의 인코딩을 변환하는 것입니다.
Java로 구현하는 것은 매우 간단합니다. InputStreamReader에서 인코딩 방법만 지정하면 됩니다.
// 初始化 BufferedReader输入流来读取URL的响应 in = new BufferedReader(new InputStreamReader( connection.getInputStream(),"UTF-8"));
이때 프로그램을 다시 실행하면 제목이 표시됩니다. 정상적으로 표시될 수 있습니다:
알겠습니다! 매우 좋은!
하지만 이제 제목은 하나뿐이므로 모든 제목이 필요합니다.
정규식을 약간 수정하고 검색된 결과를 ArrayList에 저장합니다.
import java.io.*; import java.net.*; import java.util.ArrayList; import java.util.regex.*; public class Main { static String SendGet(String url) { // 定义一个字符串用来存储网页内容 String result = ""; // 定义一个缓冲字符输入流 BufferedReader in = null; try { // 将string转成url对象 URL realUrl = new URL(url); // 初始化一个链接到那个url的连接 URLConnection connection = realUrl.openConnection(); // 开始实际的连接 connection.connect(); // 初始化 BufferedReader输入流来读取URL的响应 in = new BufferedReader(new InputStreamReader( connection.getInputStream(), "UTF-8")); // 用来临时存储抓取到的每一行的数据 String line; while ((line = in.readLine()) != null) { // 遍历抓取到的每一行并将其存储到result里面 result += line; } } catch (Exception e) { System.out.println("发送GET请求出现异常!" + e); e.printStackTrace(); } // 使用finally来关闭输入流 finally { try { if (in != null) { in.close(); } } catch (Exception e2) { e2.printStackTrace(); } } return result; } static ArrayList<String> RegexString(String targetStr, String patternStr) { // 预定义一个ArrayList来存储结果 ArrayList<String> results = new ArrayList<String>(); // 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容 Pattern pattern = Pattern.compile(patternStr); // 定义一个matcher用来做匹配 Matcher matcher = pattern.matcher(targetStr); // 如果找到了 boolean isFind = matcher.find(); // 使用循环将句子里所有的kelvin找出并替换再将内容加到sb里 while (isFind) { //添加成功匹配的结果 results.add(matcher.group(1)); // 继续查找下一个匹配对象 isFind = matcher.find(); } return results; } public static void main(String[] args) { // 定义即将访问的链接 String url = "http://www.zhihu.com/explore/recommendations"; // 访问链接并获取页面内容 String result = SendGet(url); // 使用正则匹配图片的src内容 ArrayList<String> imgSrc = RegexString(result, "question_link.+?>(.+?)<"); // 打印结果 System.out.println(imgSrc); } }
이런 방식으로 모든 결과를 일치시킬 수 있습니다(ArrayList가 직접 인쇄되기 때문에 대괄호와 쉼표가 있습니다):
자, 이것이 Zhihu 크롤러의 첫 번째 단계입니다.
그러나 이 방법으로는 모든 질문과 답변을 담아낼 수 있는 방법이 없다는 것을 알 수 있습니다.
캡처된 모든 개체를 저장하려면 Zhihu 캡슐화 클래스를 설계해야 합니다.
위 내용은 Zhihu 편집자 추천 콘텐츠(2)를 얻기 위해 기본 지식이 전혀 없는 Java Zhihu 크롤러를 작성하는 내용입니다. PHP 중국어 웹사이트(www.php.cn)로 이동하세요!