>  기사  >  웹 프론트엔드  >  HTMLParser 사용에 대한 자세한 설명 (1)

HTMLParser 사용에 대한 자세한 설명 (1)

黄舟
黄舟원래의
2016-12-29 15:49:062679검색

검색 엔진 개발 연구에 있어서 HTML 웹 페이지 처리는 핵심 링크입니다. 인터넷에는 많은 오픈 소스 코드가 있습니다. Java의 경우 HTMLParser가 잘 알려져 있고 널리 사용됩니다. HTMLParser의 홈페이지는 http://htmlparser.sourceforge.net/이며, 마지막 업데이트는 2006년 9월 버전 1.6이었습니다. 그러나 그것은 중요하지 않습니다. HTML의 내용은 오랫동안 크게 변경되지 않았으며 HTMLParser는 기본적으로 이를 처리하는 데 아무런 문제가 없습니다. HTMLParser는 간결하고 빠르다는 장점이 있습니다. 단점은 관련 문서가 상대적으로 적고(영어로 된 문서도 거의 없음) 직접 탐색해야 하는 기능이 많다는 것입니다. 초보자에게는 여전히 약간의 노력이 필요하지만 일단 시작하면 HTMLParser의 구조 설계가 매우 영리하고 실용적이며 기본적으로 다양한 요구를 충족할 수 있다는 것을 알게 될 것입니다.
여기에는 지난 몇 달 간의 경험을 바탕으로 HTMLParser를 처음 접하는 친구들에게 도움이 되기를 바랍니다. (단, 대학 입시에서 중국어 점수가 합격보다 1점밖에 높지 않았기 때문에 문법 문제는 모두 양해해 주시기 바랍니다.)

HTMLParser의 핵심 모듈은 org.htmlparser.Parser입니다. 클래스 이 클래스는 실제로 HTML 페이지의 처리를 완료합니다. 이 클래스에는 다음과 같은 생성자가 있습니다.

public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
和一个静态类 public static Parser createParser (String html, String charset);

대부분의 사용자에게 가장 일반적으로 사용되는 방법은 URLConnection 또는 웹 페이지 콘텐츠가 포함된 문자열을 통해 Parser를 초기화하거나 정적 함수를 사용하여 생성하는 것입니다. 파서 객체. ParserFeedback의 코드는 매우 간단하며 분석 프로세스를 디버깅하고 추적하도록 설계되었으며 일반적으로 변경할 필요가 없습니다. Lexer를 사용하는 것은 비교적 고급 주제이므로 나중에 논의하겠습니다.
여기서 더 흥미로운 점은 페이지의 인코딩 방식을 설정해야 할 경우 Lexer를 사용하지 않고 정적 함수만 있다는 점입니다. 대부분의 중국어 페이지에서는 이 방법을 좀 더 자주 활용해야 할 것 같습니다.

다음은 Parser 초기화 예시이다.

/**
* @author www.baizeju.com
*/
package com.baizeju.htmlparsertester;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.FileInputStream;
import java.io.File;
import java.net.HttpURLConnection;
import java.net.URL;
import org.htmlparser.visitors.TextExtractingVisitor;
import org.htmlparser.Parser;
/**
* @author www.baizeju.com
*/
public class Main {
private static String ENCODE = "GBK";
private static void message( String szMsg ) {
try{ System.out.println(new String(szMsg.getBytes(ENCODE), System.getProperty("file.encoding"))); } catch(Exception e ){}
}
public static String openFile( String szFileName ) {
try {
BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream( new File(szFileName)), ENCODE) );
String szContent="";
String szTemp;
while ( (szTemp = bis.readLine()) != null) {
szContent+=szTemp+"/n";
}
bis.close();
return szContent;
}
catch( Exception e ) {
return "";
}
}
public static void main(String[] args) {
String szContent = openFile( "E:/My Sites/HTMLParserTester.html");
try{
//Parser parser = Parser.createParser(szContent, ENCODE);
//Parser parser = new Parser( szContent );
Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );
TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
String textInPage = visitor.getExtractedText();
message(textInPage);
}
catch( Exception e ) { 
}
}
}

강조한 부분은 여러 가지 초기화 방법을 테스트한 결과입니다. Parser가 콘텐츠를 출력할 수 있다는 것을 알 수 있다면 나중에 Parser 콘텐츠에 액세스하는 방법에 대해 논의하겠습니다.

위 내용은 HTMLParser(1) 사용에 대한 자세한 설명입니다. 더 많은 관련 내용은 PHP 중국어 홈페이지(www.php.cn)를 참고해주세요!


성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.