획득 모듈

공통 모듈 작업

작업 이름	설명
자세한 수집 과정	없음
기타 기능 설명	없음

지침:

기사 수집 기능은 대상 웹 페이지의 내용을 프로그램을 통해 원격으로 획득한 후 로컬 규칙을 구문 분석하고 처리한 후 서버의 데이터베이스에 저장하는 것입니다.

기사 수집 시스템은 기존 수집 모델과 프로세스를 전복하며, 수집 규칙이 수집 인터페이스와 분리되어 있어 기본적인 기술 지식을 갖춘 사람만이 관련 규칙을 설정할 수 있습니다. 편집자는 너무 많은 세부 기술 규칙을 이해할 필요 없이 수집하고 싶은 기사 목록만 선택하면 기사를 게시하는 것처럼 쉽게 데이터 수집 작업을 완료할 수 있습니다.

1. 수집과정

간단히 말하면 다음 세 가지 단계가 있습니다.

1. 수집 장소를 추가하고 수집 규칙을 입력합니다.

2. URL 및 콘텐츠 수집

3. 지정된 컬럼에 내용을 게시하세요

자세한 과정을 소개하기 위해 시나뉴스(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml) 모음을 예로 들어보겠습니다.

설명 예:

목표: Sina 뉴스를 V9 시스템의 국제 뉴스 열에 수집합니다.

대상 URL: http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml

1. 수집 포인트 추가

1.1 URL 규칙 구성

수집 지점 추가 - URL 규칙 구성 다이어그램 1

수집할 대상 URL의 소스코드를 확인하고, 수집할 URL의 시작점과 끝점을 찾습니다. (이 두 지점은 전체 소스코드에서 고유해야 합니다). 컬렉션 URL의 검색 범위를 더욱 좁힙니다.

수집 지점 추가 - URL 규칙 구성 다이어그램 2

아래 그림과 같이 URL 수집 규칙이 올바른지 테스트해보세요

1.2 콘텐츠 규칙 구성

여기의 콘텐츠 규칙은 복잡해 보이지만 실제로는 매우 간단합니다. 설명의 편의를 위해 제목과 콘텐츠라는 두 가지 필드만 수집합니다. 컬렉션 콘텐츠 URL:
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 콘텐츠 수집 규칙, 이 URL을 열고, 빈 공간을 마우스 오른쪽 버튼으로 클릭하세요. 페이지-> 보기 소스 파일은 제목 및 내용 시작 경계를 검색합니다.

제목 컬렉션 구성:

웹페이지 <title></title>에서 제목을 가져오고 불필요한 문자를 제거하세요. 아래와 같이

콘텐츠 컬렉션 구성:

Sina News의 마지막 페이지에는   사이에 뉴스 콘텐츠가 포함되어 있으며, 이 두 노드는 전체 페이지 소스 코드에 있습니다. 독특함을 가지고 있습니다. 따라서 이를 규칙으로 사용하여 콘텐츠를 얻을 수 있습니다. 그리고 콘텐츠를 필터링합니다. 아래와 같이