>  기사  >  웹 프론트엔드  >  NodeJS의 URL 차단 모듈 사용 예 url-extract_기본 지식

NodeJS의 URL 차단 모듈 사용 예 url-extract_기본 지식

WBOY
WBOY원래의
2016-05-16 17:14:421127검색

지난번에 NodeJS PhantomJS를 사용하여 스크린샷을 찍는 방법을 소개했지만 각 스크린샷 작업마다 PhantomJS 프로세스가 활성화되어 있기 때문에 동시성이 높아지면 효율성이 걱정되므로 모든 코드를 다시 작성하여 독립적으로 만들었습니다. 쉽게 통화할 수 있습니다.
어떻게 개선할 수 있나요? 스레드 수와 단일 스레드에서 처리되는 URL 수를 제어합니다. 통신에는 표준 출력 및 WebSocket을 사용하십시오. 현재 Javascript 객체를 사용하는 캐싱 메커니즘을 추가합니다. 외부 세계에 대한 간단한 인터페이스를 제공합니다.

디자인

종속성 및 설치

PhantomJS 1.9.0부터 Websocket만 지원하기 시작했으므로 먼저 PATH의 PhantomJS 버전이 1.9.0 이상인지 확인해야 합니다. 명령줄에 다음을 입력하세요.

$ phantomjs -v

버전 번호 1.9.x가 반환될 수 있으면 작업을 계속할 수 있습니다. 버전이 너무 낮거나 오류가 발생하는 경우 PhantomJS 공식 홈페이지에 접속하여 최신 버전을 다운로드 받으세요.

Git이 설치되어 있거나 Git Shell이 ​​있는 경우 명령줄에 다음을 입력하세요.
$ npm install url-extract

설치를 진행하세요.

간단한 예

예를 들어 Baidu 홈페이지를 차단하려면 다음과 같이 할 수 있습니다.

코드 복사 코드는 다음과 같습니다.
module.exports = (function () { "use strict" var urlExtract = require('url-extract' ); urlExtract.snapshot('http: //www.baidu.com', function (job) { console.log('스냅샷 예시입니다.'); console.log(job); process.exit(); }); })();
다음은 인쇄 내용입니다.

그 중 이미지 속성은 작업 경로를 기준으로 한 스크린샷의 주소입니다. Job의 getData 인터페이스를 사용하여 더 명확한 데이터를 얻을 수 있습니다. 예를 들어:

코드 복사 코드는 다음과 같습니다.
module.exports = (function () { "엄격한 사용" var urlExtract = require('url-extract'); urlExtract.snapshot('http://www.baidu.com', function (job) { console.log('스냅샷 예시입니다.'); console.log(job.getData()) })();
인쇄 내용은 다음과 같습니다.

image는 작업 경로를 기준으로 스크린샷의 주소를 나타내고, status는 상태가 정상인지 여부를 나타내며, true는 정상, false는 스크린샷 실패를 나타냅니다.

더 많은 예를 보려면

https://github.com/miniflycn/url-extract/tree/master/examples

를 참조하세요.

메인 API

.스냅샷

URL 스냅샷

.snapshot(url, [콜백]).snapshot(urls, [콜백]).snapshot(url, [옵션]).snapshot(urls, [옵션])

코드 복사 코드는 다음과 같습니다. url {String} 차단할 주소 url {Array } 차단할 주소 주소 배열 콜백 {Function} 콜백 함수 옵션 {Object} 선택적 매개변수 ┝ id {String} 첫 번째 매개변수가 urls인 경우 이 매개변수는 유효하지 않습니다. ┝ image {String} 저장 맞춤 스크린샷 주소, 첫 번째 매개변수가 URL인 경우 이 매개변수는 유효하지 않습니다.┝ groupId {String}은 URL 그룹의 groupId를 정의하며, 반환 시 어떤 URL 그룹인지 식별하는 데 사용됩니다. ┝ignoreCache {Boolean} 무시 여부 캐시┗ 콜백 {Function} 콜백 함수

.추출

URL 정보 수집 및 스냅샷 가져오기

.extract(url, [콜백]).extract(urls, [콜백]).extract(url, [옵션]).extract( urls, [옵션])

url {String} 차단할 주소

urls {Array} 차단할 주소 배열

콜백{Function} 콜백 함수

옵션{Object} 선택적 매개변수

┝ id {String} 첫 번째 매개변수가 urls인 경우 이 매개변수는 유효하지 않습니다.

┝ image {String} 스크린샷 저장 주소를 맞춤 설정합니다. 첫 번째 매개변수가 urls인 경우 이 매개변수는 유효하지 않습니다

┝ groupId {String}은 URL 그룹의 groupId를 정의하며,

을 반환할 때 어떤 URL 그룹인지 식별하는 데 사용됩니다.

┝ignoreCache {Boolean} 캐시 무시 여부

┗ 콜백 {Function} 콜백 함수

직업(수업)

각 URL은 작업 개체에 해당하며, URL 관련 정보는 작업 개체에 저장됩니다.

필드

url {String} 링크 주소 콘텐츠 {Boolean} 페이지 제목 및 설명 정보 크롤링 여부 id {String} 작업의 idgroupId {String} 여러 작업의 그룹 ID 캐시 {Boolean} 캐싱 콜백 활성화 여부 {Function} 콜백 함수 이미지 {String} 이미지 주소 상태 {Boolean} 현재 작업이 정상인지 여부

시제품

getData()는 직업 관련 데이터를 가져옵니다

글로벌 구성

url-extract 루트 디렉터리에 있는 구성 파일은 전역적으로 구성할 수 있습니다.

module.exports = { wsPort: 3001, maxJob: 100, maxQueueJob: 400, cache: 'object', maxCache: 10000, workerNum: 0};
wsPort {Number} websocket이 차지하는 포트 주소 maxJob {Number} 각 PhantomJS 스레드가 가질 수 있는 동시 작업자 수 maxQueueJob {Number} 대기 작업의 최대 수, 0은 이 수를 초과하는 모든 작업에 제한이 없음을 의미합니다. 즉시 실패로 돌아갑니다(즉, 상태 = false). 캐시 {String} 캐시 구현, 현재 객체만 maxCache {Number} 캐시 링크의 최대 수를 구현합니다. WorkerNum {Number} PhantomJS 스레드 번호, 0은 CPU 수와 동일함을 의미합니다.

간단한 서비스 예시

https://github.com/miniflycn/url-extract-server-example

connect 및 url-extract를 설치해야 합니다.

$ npm 설치

네트워크 디스크 파일을 다운로드하셨다면 connect를 설치해주세요:

$ npm 설치 연결

그런 다음 다음을 입력하세요.

$ 노드 저장소/서버

열기:

http://localhost:3000

효과를 확인해보세요.

;

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.