집 >백엔드 개발 >파이썬 튜토리얼 >연관 규칙 선험적 알고리즘에 대한 자세한 설명

연관 규칙 선험적 알고리즘에 대한 자세한 설명

DDD원래의: 2023-08-10 10:38:022287검색

연관 규칙은 데이터 마이닝에서 중요한 기술로, 데이터 세트의 항목 간 연관성을 발견하는 데 사용됩니다. 알고리즘 단계: 1. 알고리즘은 모든 단일 항목을 포함하는 후보 항목 세트를 초기화해야 합니다. 2. 알고리즘은 빈번한 항목 세트를 기반으로 후보 항목 세트를 생성합니다. 3. 알고리즘은 후보 항목 세트를 정리합니다. 5. 반복이 끝나면 알고리즘은 설정된 임계값을 충족하는 모든 빈발 항목 세트를 얻습니다. 그런 다음 빈발 항목 집합을 기반으로 연관 규칙이 생성됩니다.

연관 규칙은 데이터 마이닝에서 중요한 기술로, 데이터 세트의 항목 간 연관성을 발견하는 데 사용됩니다. 연관 규칙 선험적 알고리즘은 마이닝 연관 규칙에 일반적으로 사용되는 알고리즘입니다. 연관 규칙 선험적 알고리즘의 원리와 단계는 아래에서 자세히 소개하겠습니다.

알고리즘 원리

연관 규칙 선험적 알고리즘은 지지와 신뢰라는 두 가지 핵심 개념을 기반으로 합니다. 지지도는 데이터에 나타나는 항목 집합의 빈도를 나타내고, 신뢰도는 규칙의 신뢰성을 나타냅니다. 알고리즘의 핵심 아이디어는 반복을 통해 빈발 항목 집합에서 후보 항목 집합을 생성하고 지지도와 신뢰도를 계산하고 최종적으로 설정된 임계값을 충족하는 연관 규칙을 찾는 것입니다.

알고리즘 단계

연관 규칙 apriori 알고리즘의 단계는 다음과 같습니다.

초기화

먼저, 알고리즘은 모든 단일 항목을 포함하는 후보 항목 집합을 초기화해야 합니다. 이러한 항목 집합을 1-항목 집합이라고 합니다. 그런 다음 알고리즘은 데이터 세트를 스캔하고 각 1개 항목 세트의 지지도를 계산합니다.

후보 항목 세트 생성

반복을 통해 알고리즘은 빈번한 항목 세트를 기반으로 후보 항목 세트를 생성합니다. 빈발항목집합은 지지도가 설정된 임계값 이상인 항목집합을 말합니다. 현재 iteration의 빈발항목 집합을 k항목 집합이라고 가정하고, k항목 집합을 합치고 중복항목을 제거하면 k+1항목 집합을 생성할 수 있다. 그런 다음 알고리즘은 데이터 세트를 스캔하고 각 k+1 항목 세트의 지지도를 계산합니다.

Pruning

후보 항목 집합을 생성한 후 알고리즘은 후보 항목 집합을 제거합니다. 후보 항목 집합의 하위 집합이 빈발 항목 집합이 아닌 경우 후보 항목 집합은 빈발 항목 집합이 될 수 없습니다. 따라서 알고리즘은 요구 사항을 충족하지 않는 이러한 후보 항목 세트를 삭제합니다.

빈번 항목 집합 업데이트

알고리즘은 가지치기 작업을 통해 요구 사항을 충족하는 후보 항목 집합을 얻습니다. 그런 다음 알고리즘은 이러한 후보 항목 집합을 새로운 빈발 항목 집합으로 사용하고 다음 반복 라운드에 들어갑니다.

연관 규칙 생성

반복이 끝나면 알고리즘은 설정된 임계값을 충족하는 모든 빈발 항목 집합을 가져옵니다. 그런 다음 알고리즘은 빈발 항목 집합을 기반으로 연관 규칙을 생성합니다. 연관 규칙은 신뢰도를 계산하여 생성됩니다. 빈발 항목 집합의 경우 여러 연관 규칙이 생성될 수 있습니다. 연관 규칙은 A->B 형식이며, 여기서 A와 B는 각각 빈발 항목 집합의 하위 집합입니다.

알고리즘 최적화

연관 규칙 선험적 알고리즘은 대규모 데이터 세트를 처리할 때 높은 계산 복잡성 문제에 직면할 수 있습니다. 계산 복잡도를 줄이기 위해 다음과 같은 최적화 조치를 채택할 수 있습니다.

데이터 세트 압축

데이터 세트를 압축하여 데이터 세트에서 자주 사용되지 않는 항목 세트를 삭제하여 계산량을 줄일 수 있습니다.

해시 테이블 사용

해시 테이블을 사용하면 자주 사용하는 항목 세트를 저장하여 검색 효율성을 높일 수 있습니다.

트랜잭션 데이터베이스

는 데이터 세트를 트랜잭션 데이터베이스 형식으로 변환할 수 있으며, 각 트랜잭션은 항목 세트를 나타냅니다. 이를 통해 데이터 세트를 스캔하는 횟수를 줄이고 알고리즘의 효율성을 향상시킬 수 있습니다.

요약하자면 연관 규칙 선험적 알고리즘은 마이닝 연관 규칙에 일반적으로 사용되는 알고리즘입니다. 반복적 접근을 통해 빈발항목 집합으로부터 후보항목 집합을 생성하고 지지도와 신뢰도를 계산하여 최종적으로 설정된 임계값을 만족하는 연관규칙을 찾는다. 계산 복잡성을 줄이기 위해 해시 테이블 및 트랜잭션 데이터베이스를 사용하여 데이터 세트 압축과 같은 최적화 조치를 사용할 수 있습니다.

위 내용은 연관 규칙 선험적 알고리즘에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이전 기사：헤드리스 브라우저 수집 애플리케이션의 Python 구현에 대한 페이지 데이터 백업 및 복구 기능 분석다음 기사：헤드리스 브라우저 수집 애플리케이션의 Python 구현에 대한 페이지 데이터 백업 및 복구 기능 분석