획득 모듈



공통 모듈 작업

작업 이름설명
자세한 수집 과정 없음
기타 기능 설명 없음

지침:

기사 수집 기능은 대상 웹 페이지의 내용을 프로그램을 통해 원격으로 획득한 후 로컬 규칙을 구문 분석하고 처리한 후 서버의 데이터베이스에 저장하는 것입니다.

기사 수집 시스템은 기존 수집 모델과 프로세스를 전복하며, 수집 규칙이 수집 인터페이스와 분리되어 있어 기본적인 기술 지식을 갖춘 사람만이 관련 규칙을 설정할 수 있습니다. 편집자는 너무 많은 세부 기술 규칙을 이해할 필요 없이 수집하고 싶은 기사 목록만 선택하면 기사를 게시하는 것처럼 쉽게 데이터 수집 작업을 완료할 수 있습니다.
1. 수집과정
간단히 말하면 다음 세 가지 단계가 있습니다.
1. 수집 장소를 추가하고 수집 규칙을 입력합니다.
2. URL 및 콘텐츠 수집
3. 지정된 컬럼에 내용을 게시하세요
자세한 과정을 소개하기 위해 시나뉴스(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml) 모음을 예로 들어보겠습니다.
설명 예:
목표: Sina 뉴스를 V9 시스템의 국제 뉴스 열에 수집합니다.
대상 URL: http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
1. 수집 포인트 추가
1.1 URL 규칙 구성
70.jpg
                                                                                  수집 지점 추가 - URL 규칙 구성 다이어그램 1
수집할 대상 URL의 소스코드를 확인하고, 수집할 URL의 시작점과 끝점을 찾습니다. (이 두 지점은 전체 소스코드에서 고유해야 합니다). 컬렉션 URL의 검색 범위를 더욱 좁힙니다.
71.jpg
                                                                                                  수집 지점 추가 - URL 규칙 구성 다이어그램 2
아래 그림과 같이 URL 수집 규칙이 올바른지 테스트해보세요
72.jpg
1.2 콘텐츠 규칙 구성
여기의 콘텐츠 규칙은 복잡해 보이지만 실제로는 매우 간단합니다. 설명의 편의를 위해 제목과 콘텐츠라는 두 가지 필드만 수집합니다. 컬렉션 콘텐츠 URL:
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 콘텐츠 수집 규칙, 이 URL을 열고, 빈 공간을 마우스 오른쪽 버튼으로 클릭하세요. 페이지-> 보기 소스 파일은 제목 및 내용 시작 경계를 검색합니다.
제목 컬렉션 구성:
웹페이지 <title></title>에서 제목을 가져오고 불필요한 문자를 제거하세요. 아래와 같이
73.jpg
콘텐츠 컬렉션 구성:
Sina News의 마지막 페이지에는 <!-- text content start ---> <!-- text content end --> 사이에 뉴스 콘텐츠가 포함되어 있으며, 이 두 노드는 전체 페이지 소스 코드에 있습니다. 독특함을 가지고 있습니다. 따라서 이를 규칙으로 사용하여 콘텐츠를 얻을 수 있습니다. 그리고 콘텐츠를 필터링합니다. 아래와 같이
74.jpg
1.3 맞춤 규칙
1.4 고급 구성
사진을 서버에 다운로드할지, 워터마크를 인쇄할지 여부 및 기타 구성을 설정할 수 있습니다.
75.jpg
2. URL 및 콘텐츠 수집
수집 규칙을 설정한 후 URL을 수집한 후 콘텐츠를 수집할 수 있습니다.
76.jpg
3.지정된 컬럼에 내용을 게시하세요
77.jpg
78.jpg
가져온 열을 선택하세요
79.jpg
수집된 콘텐츠와 데이터베이스 필드 간의 해당 관계를 설정하십시오. 이 기간 동안 기다려 주십시오. 완료 후 자동으로 리디렉션됩니다. 이 시점에서 간단한 수집 프로세스가 완료됩니다.
당신이 발견하기를 기다리는 다른 많은 기능이 있습니다.