>일반적인 문제 >데이터 마이닝 기술은 무엇입니까?

데이터 마이닝 기술은 무엇입니까?

青灯夜游
青灯夜游원래의
2021-06-10 16:07:5012122검색

데이터 마이닝 기술에는 다음이 포함됩니다. 1. 통계 기반 분석 4. 집합 분석 7. 신경망 , 대략적인 집합 10. 퍼지 집합 11. 회귀 분석 13. 개념 설명 등

데이터 마이닝 기술은 무엇입니까?

이 튜토리얼의 운영 환경: Windows 7 시스템, Dell G3 컴퓨터.

데이터 마이닝은 불완전하고, 시끄럽고, 모호하고, 무작위적인 대량의 데이터로부터 사람들에게 알려지지 않은 잠재적으로 유용한 정보와 지식을 미리 추출하는 프로세스입니다.

데이터 마이닝의 임무는 데이터 세트에서 패턴을 발견하는 것입니다. 발견할 수 있는 패턴은 기능에 따라 예측 패턴과 설명 패턴의 두 가지 범주로 나눌 수 있습니다.

데이터 마이닝 기술에는 다양한 종류가 있으며, 분류에 따라 분류 방법도 다릅니다. 다음은 통계 기법, 연관 규칙, 기록 기반 분석, 유전자 알고리즘, 집계 감지, 연결 분석, 의사 결정 트리, 신경망, 대략적인 집합, 퍼지 집합, 회귀 분석, 미분 분석 등 데이터 마이닝에 일반적으로 사용되는 몇 가지 기술에 중점을 둡니다. 개념 설명 및 기타 일반적으로 사용되는 13가지 데이터 마이닝 기술.

1. 통계 기술

데이터 마이닝에는 통계 기술 등 다양한 과학 분야와 기술이 포함됩니다. 데이터 세트를 마이닝하기 위해 통계 기술을 사용하는 주요 아이디어는 통계 방법이 주어진 데이터 세트에 대해 분포 또는 확률 모델(예: 정규 분포)을 가정한 다음 해당 모델에 따라 마이닝하는 해당 방법을 사용한다는 것입니다.

2. 연관 규칙

데이터 연관은 데이터베이스에 존재하는 중요한 유형의 검색 가능한 지식입니다. 두 개 이상의 변수 값에 일정한 규칙성이 있는 경우 이를 상관 관계라고 합니다. 연상은 단순연상, 시간연상, 인과연상으로 나눌 수 있다. 상관 분석의 목적은 데이터베이스에 숨겨진 상관 네트워크를 찾는 것입니다. 데이터베이스에 있는 데이터의 상관함수를 알 수 없는 경우도 있고, 알더라도 불확실하므로 상관분석을 통해 생성된 규칙은 신뢰성을 갖습니다.

3. Historical MBR(Memory-Based Reasoning) 분석

먼저 실증적 지식을 바탕으로 유사한 상황을 찾아본 후, 이러한 상황에서 얻은 정보를 현재 사례에 적용하세요. 이것이 MBR(Memory Based Reasoning)의 핵심이다. MBR은 먼저 새 레코드와 유사한 이웃을 찾은 다음 이러한 이웃을 사용하여 새 데이터를 분류하고 가치를 부여합니다. MBR을 사용하는 데에는 결정적 과거 데이터를 찾는 것, 과거 데이터를 표현하는 가장 효율적인 방법을 결정하는 것, 거리 함수, 결합 함수 및 이웃 수를 결정하는 세 가지 주요 문제가 있습니다.

4. 유전 알고리즘 GA(Genetic Algorithms)

은 진화론을 바탕으로 유전적 결합, 유전적 변이, 자연 선택 등의 최적화 기술을 사용합니다. 주요 아이디어는 적자생존의 원칙에 따라 현재 그룹에서 가장 적합한 규칙과 이러한 규칙의 자손으로 구성된 새로운 그룹을 형성하는 것입니다. 일반적으로 규칙의 적합성은 훈련 샘플 세트의 분류 정확도로 평가됩니다.

5. 집계 감지

물리적이거나 추상적인 개체 모음을 유사한 개체로 구성된 여러 클래스로 그룹화하는 과정을 클러스터링이라고 합니다. 클러스터링에 의해 생성된 클러스터는 동일한 클러스터 내에서는 서로 유사하지만 다른 클러스터의 개체와는 다른 데이터 개체의 모음입니다. 상이도는 기술된 객체의 속성값을 기준으로 계산되며, 거리는 일반적으로 사용되는 측정 방법이다.

6. 링크 분석

링크 분석의 기본 이론은 그래프 이론입니다. 그래프 이론의 아이디어는 완벽한 솔루션을 제공하는 알고리즘을 찾는 것이 아니라 좋은 결과를 얻을 수 있지만 완벽하지 않은 결과를 얻을 수 있는 알고리즘을 찾는 것입니다. 연결 분석은 불완전한 결과가 가능하다면 그러한 분석이 좋은 분석이라는 아이디어를 사용합니다. 연결 분석을 사용하면 일부 사용자의 행동에서 일부 패턴을 분석하는 동시에 생성된 개념을 더 넓은 사용자 그룹에 적용할 수 있습니다.

7. 결정 트리

결정 트리는 어떤 조건에서 어떤 값을 얻을 것인지와 같은 규칙을 표시하는 방법을 제공합니다.

8. 신경망

구조적으로 신경망은 입력층, 출력층, 은닉층으로 나눌 수 있습니다. 입력 레이어의 각 노드는 예측 변수에 해당합니다. 출력 레이어의 노드는 목표 변수에 해당하며 여러 노드가 있을 수 있습니다. 입력 레이어와 출력 레이어 사이에는 숨겨진 레이어(신경망 사용자에게는 보이지 않음)가 있습니다. 숨겨진 레이어의 수와 각 레이어의 노드 수에 따라 신경망의 복잡성이 결정됩니다.

입력 레이어의 노드 외에도 신경망의 각 노드는 그 앞에 있는 여러 노드(이 노드의 입력 노드라고 함)에 연결됩니다. 각 연결은 가중치 Wxy에 해당하며 이 값은 다음과 같습니다. 노드는 이를 통과하는 모든 노드입니다. 입력 노드의 값과 해당 연결 가중치의 곱을 함수의 입력으로 얻습니다. 우리는 이 함수를 활동 함수 또는 스퀴즈 함수라고 부릅니다.

9.러프 세트

대략 집합 이론은 주어진 훈련 데이터 내에서 동등 클래스 설정을 기반으로 합니다. 동등 클래스를 구성하는 모든 데이터 샘플은 무차별적입니다. 즉, 이러한 샘플은 데이터를 설명하는 속성과 동일합니다. 실제 데이터를 고려할 때 사용 가능한 속성으로 구별할 수 없는 클래스가 있는 경우가 많습니다. 대략적인 집합은 이 클래스를 대략적으로 정의하거나 대략적으로 정의하는 데 사용됩니다.

10. 퍼지 집합

퍼지 집합 이론은 퍼지 논리를 데이터 마이닝 분류 시스템에 도입하여 "퍼지" 도메인 값 또는 경계를 정의할 수 있게 해줍니다. 퍼지 논리는 0.0과 1.0 사이의 진리값을 사용하여 클래스나 집합에 대한 정확한 구분이 아닌 특정 값이 주어진 구성원인 정도를 나타냅니다. 퍼지 논리는 높은 수준의 추상화 처리 기능을 제공합니다.

11.회귀분석

회귀분석은 선형회귀, 다중회귀, 비선형회귀로 나누어집니다. 선형 회귀에서는 데이터가 직선으로 모델링되는 반면 다중 회귀는 여러 예측 변수를 포함하는 선형 회귀의 확장입니다. 비선형 회귀는 기본 선형 모델에 다항식 항을 추가하여 비선형 모델을 형성하는 것입니다.

12. 차별 분석

미분 분석의 목적은 노이즈 데이터, 사기 데이터, 기타 비정상적인 데이터 등 데이터에서 이상 현상을 찾아 유용한 정보를 얻는 것입니다.

13. 개념 설명

개념 설명은 특정 유형의 객체가 내포하는 의미를 설명하고 해당 유형의 객체와 관련된 특성을 요약하는 것입니다. 개념 설명은 특성 설명과 차등 설명으로 구분됩니다. 전자는 특정 유형의 개체의 공통 특성을 설명하는 반면, 후자는 서로 다른 유형의 개체 간의 차이점을 설명합니다. 해당 유형의 개체에 포함됩니다.

더 많은 관련 지식을 알고 싶다면 FAQ 칼럼을 방문해주세요!

위 내용은 데이터 마이닝 기술은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.