Redis의 Bloomfilter를 사용하여 크롤러 프로세스 중에 중복을 제거하는 방법-PHP 튜토리얼-php.cn

집

백엔드 개발

PHP 튜토리얼

Redis의 Bloomfilter를 사용하여 크롤러 프로세스 중에 중복을 제거하는 방법

坏嘻嘻

Sep 15, 2018 am 11:21 AM

이 글의 내용은 Redis의 Bloomfilter를 사용하여 중복을 제거하는 방법에 대한 것입니다. Bloomfilter의 대규모 중복 제거 기능을 사용할 뿐만 아니라 Redis의 지속성 기능도 사용하므로 친구들이 참조할 수 있습니다. 그것이 당신에게 도움이 되기를 바랍니다.

서문:

"제거"는 일상 작업, 특히 크롤러 분야에서 자주 사용되는 기술이며 일반적으로 규모가 비교적 큽니다. 중복 제거에는 중복 제거할 데이터의 양과 중복 제거 속도라는 두 가지 사항을 고려해야 합니다. 빠른 중복 제거 속도를 유지하기 위해 일반적으로 중복 제거는 메모리에서 수행됩니다.

데이터의 양이 크지 않은 경우 중복 제거를 위해 메모리에 직접 배치할 수 있습니다. 예를 들어 Python에서는 중복 제거를 위해 set()을 사용할 수 있습니다.
중복 제거 데이터를 유지해야 하는 경우 Redis의 설정된 데이터 구조를 사용할 수 있습니다.
데이터 양이 더 많은 경우 다양한 암호화 알고리즘을 사용하여 긴 문자열을 16/32/40자로 압축한 다음 위의 두 가지 방법을 사용하여 중복을 제거할 수 있습니다. 데이터 도달 메모리가 수십억(심지어 수십억 또는 수백억)에 이르면 메모리가 제한되며 수요를 충족하려면 중복을 제거하는 데 "비트"를 사용해야 합니다. Bloomfilter는 중복 제거 개체를 여러 메모리 "비트"에 매핑하고 여러 비트의 0/1 값을 사용하여 개체가 이미 존재하는지 확인합니다.
블룸필터는 머신의 메모리에서 실행되기 때문에 지속성 측면에서 편리하지 않으며(머신이 다운되면 아무 일도 일어나지 않음) 분산 크롤러의 통합 중복 제거에도 편리하지 않습니다. Bloomfilter를 위해 Redis에서 메모리를 신청할 수 있다면 위의 두 가지 문제는 모두 해결될 것입니다.
코드:

# encoding=utf-8import redisfrom hashlib import md5class SimpleHash(object):
    def __init__(self, cap, seed):
        self.cap = cap
        self.seed = seed    def hash(self, value):
        ret = 0
        for i in range(len(value)):
            ret += self.seed * ret + ord(value[i])        return (self.cap - 1) & retclass BloomFilter(object):
    def __init__(self, host=&#39;localhost&#39;, port=6379, db=0, blockNum=1, key=&#39;bloomfilter&#39;):
        """
        :param host: the host of Redis
        :param port: the port of Redis
        :param db: witch db in Redis
        :param blockNum: one blockNum for about 90,000,000; if you have more strings for filtering, increase it.
        :param key: the key&#39;s name in Redis
        """
        self.server = redis.Redis(host=host, port=port, db=db)
        self.bit_size = 1 << 31  # Redis的String类型最大容量为512M，现使用256M
        self.seeds = [5, 7, 11, 13, 31, 37, 61]
        self.key = key
        self.blockNum = blockNum
        self.hashfunc = []        for seed in self.seeds:
            self.hashfunc.append(SimpleHash(self.bit_size, seed))    def isContains(self, str_input):
        if not str_input:            return False
        m5 = md5()
        m5.update(str_input)
        str_input = m5.hexdigest()
        ret = True
        name = self.key + str(int(str_input[0:2], 16) % self.blockNum)        for f in self.hashfunc:
            loc = f.hash(str_input)
            ret = ret & self.server.getbit(name, loc)        return ret    def insert(self, str_input):
        m5 = md5()
        m5.update(str_input)
        str_input = m5.hexdigest()
        name = self.key + str(int(str_input[0:2], 16) % self.blockNum)        for f in self.hashfunc:
            loc = f.hash(str_input)
            self.server.setbit(name, loc, 1)if __name__ == &#39;__main__&#39;:""" 第一次运行时会显示 not exists!，之后再运行会显示 exists! """
    bf = BloomFilter()    if bf.isContains(&#39;http://www.baidu.com&#39;):   # 判断字符串是否存在
        print &#39;exists!&#39;
    else:        print &#39;not exists!&#39;
        bf.insert(&#39;http://www.baidu.com&#39;)

설명:

블룸필터 알고리즘이 비트 중복 제거를 사용하는 방법은 Baidu에 많은 설명이 있습니다. 간단히 말해서, 여러 개의 시드가 있는데, 이제 메모리 공간을 신청하세요. 시드는 문자열로 해시되어 이 메모리의 비트에 매핑될 수 있습니다. 이는 해당 문자열이 이미 존재한다는 의미입니다. 삽입할 때도 마찬가지이며 매핑된 모든 비트를 1로 설정합니다.

블룸필터 알고리즘에는 누락 확률이 있다는 점, 즉 존재하지 않는 문자열이 이미 존재하는 것으로 잘못 판단될 특정 확률이 있다는 점을 기억해야 합니다. 이 확률의 크기는 시드 수, 요청된 메모리 크기 및 중복 제거 개체 수와 관련됩니다. 아래 표가 있는데, m은 메모리 크기(비트 수), n은 중복 제거 개체 수, k는 시드 수를 나타냅니다. 예를 들어 내 코드에는 1
Redis 기반의 Bloomfilter 중복제거는 실제로 Redis의 String 데이터 구조를 사용하지만 Redis String은 최대 512M까지만 가능하므로 중복제거할 데이터량이 많은 경우 다중 중복제거를 신청해야 합니다. 블록(코드 blockNum은 중복 제거 블록 수를 나타냄)
코드는 MD5 암호화 및 압축을 사용하여 문자열을 32자로 압축합니다(hashlib.sha1()을 사용하여 40자로 압축할 수도 있음). 두 가지 기능이 있습니다. 첫째, Bloomfilter는 매우 긴 문자열을 해싱할 때 오류를 발생시키며, 압축 후에는 이 문제가 더 이상 존재하지 않습니다. 둘째, 압축된 문자는 총 16가지입니다. 처음 두 문자를 가로채서 중복 제거를 위해 blockNum을 기반으로 다른 중복 제거 블록에 문자열을 할당했습니다.
요약:

Redis 기반 Bloomfilter 중복 제거는 Bloomfilter의 대규모 중복 제거 기능을 사용할 뿐만 아니라 Redis 기반의 지속성 기능도 사용하여 분산 시스템의 중복 제거를 용이하게 합니다. 사용 중에는 중복 제거할 데이터 양에 대한 예산을 책정하고 위 표에 따라 시드 수와 blockNum을 적절하게 조정해야 합니다(시드 수가 적을수록 중복 제거 속도는 빨라지지만 누출률은 높아집니다).

위 내용은 Redis의 Bloomfilter를 사용하여 크롤러 프로세스 중에 중복을 제거하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

과대 광고 : 오늘 PHP의 역할을 평가합니다Apr 12, 2025 am 12:17 AM

PHP는 현대적인 프로그래밍, 특히 웹 개발 분야에서 강력하고 널리 사용되는 도구로 남아 있습니다. 1) PHP는 사용하기 쉽고 데이터베이스와 완벽하게 통합되며 많은 개발자에게 가장 먼저 선택됩니다. 2) 동적 컨텐츠 생성 및 객체 지향 프로그래밍을 지원하여 웹 사이트를 신속하게 작성하고 유지 관리하는 데 적합합니다. 3) 데이터베이스 쿼리를 캐싱하고 최적화함으로써 PHP의 성능을 향상시킬 수 있으며, 광범위한 커뮤니티와 풍부한 생태계는 오늘날의 기술 스택에 여전히 중요합니다.

PHP의 약한 참고 자료는 무엇이며 언제 유용합니까?Apr 12, 2025 am 12:13 AM

PHP에서는 약한 참조가 약한 회의 클래스를 통해 구현되며 쓰레기 수집가가 물체를 되 찾는 것을 방해하지 않습니다. 약한 참조는 캐싱 시스템 및 이벤트 리스너와 같은 시나리오에 적합합니다. 물체의 생존을 보장 할 수 없으며 쓰레기 수집이 지연 될 수 있음에 주목해야합니다.

PHP의 __invoke 마법 방법을 설명하십시오.Apr 12, 2025 am 12:07 AM

\ _ \ _ 호출 메소드를 사용하면 객체를 함수처럼 호출 할 수 있습니다. 1. 객체를 호출 할 수 있도록 메소드를 호출하는 \ _ \ _ 정의하십시오. 2. $ obj (...) 구문을 사용할 때 PHP는 \ _ \ _ invoke 메소드를 실행합니다. 3. 로깅 및 계산기, 코드 유연성 및 가독성 향상과 같은 시나리오에 적합합니다.

동시성에 대해 PHP 8.1의 섬유를 설명하십시오.Apr 12, 2025 am 12:05 AM

섬유는 PHP8.1에 도입되어 동시 처리 기능을 향상시켰다. 1) 섬유는 코 루틴과 유사한 가벼운 동시성 모델입니다. 2) 개발자는 작업의 실행 흐름을 수동으로 제어 할 수 있으며 I/O 집약적 작업을 처리하는 데 적합합니다. 3) 섬유를 사용하면보다 효율적이고 반응이 좋은 코드를 작성할 수 있습니다.

PHP 커뮤니티 : 자원, 지원 및 개발Apr 12, 2025 am 12:04 AM

PHP 커뮤니티는 개발자 성장을 돕기 위해 풍부한 자원과 지원을 제공합니다. 1) 자료에는 공식 문서, 튜토리얼, 블로그 및 Laravel 및 Symfony와 같은 오픈 소스 프로젝트가 포함됩니다. 2) 지원은 StackoverFlow, Reddit 및 Slack 채널을 통해 얻을 수 있습니다. 3) RFC에 따라 개발 동향을 배울 수 있습니다. 4) 적극적인 참여, 코드에 대한 기여 및 학습 공유를 통해 커뮤니티에 통합 될 수 있습니다.

PHP vs. Python : 차이점 이해Apr 11, 2025 am 12:15 AM

PHP와 Python은 각각 고유 한 장점이 있으며 선택은 프로젝트 요구 사항을 기반으로해야합니다. 1.PHP는 간단한 구문과 높은 실행 효율로 웹 개발에 적합합니다. 2. Python은 간결한 구문 및 풍부한 라이브러리를 갖춘 데이터 과학 및 기계 학습에 적합합니다.

PHP : 죽어 가거나 단순히 적응하고 있습니까?Apr 11, 2025 am 12:13 AM

PHP는 죽지 않고 끊임없이 적응하고 진화합니다. 1) PHP는 1994 년부터 새로운 기술 트렌드에 적응하기 위해 여러 버전 반복을 겪었습니다. 2) 현재 전자 상거래, 컨텐츠 관리 시스템 및 기타 분야에서 널리 사용됩니다. 3) PHP8은 성능과 현대화를 개선하기 위해 JIT 컴파일러 및 기타 기능을 소개합니다. 4) Opcache를 사용하고 PSR-12 표준을 따라 성능 및 코드 품질을 최적화하십시오.

PHP의 미래 : 적응 및 혁신Apr 11, 2025 am 12:01 AM

PHP의 미래는 새로운 기술 트렌드에 적응하고 혁신적인 기능을 도입함으로써 달성 될 것입니다. 1) 클라우드 컴퓨팅, 컨테이너화 및 마이크로 서비스 아키텍처에 적응, Docker 및 Kubernetes 지원; 2) 성능 및 데이터 처리 효율을 향상시키기 위해 JIT 컴파일러 및 열거 유형을 도입합니다. 3) 지속적으로 성능을 최적화하고 모범 사례를 홍보합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.