>일반적인 문제 >분류 알고리즘

분류 알고리즘

(*-*)浩
(*-*)浩원래의
2019-06-05 09:28:474588검색

분류는 중요한 데이터 마이닝 기술입니다. 분류의 목적은 데이터 세트의 특성을 기반으로 분류 함수 또는 분류 모델(분류자라고도 함)을 구성하는 것입니다. 이를 통해 알 수 없는 범주의 샘플을 주어진 범주에 매핑할 수 있습니다. 분류와 회귀 모두 예측에 사용될 수 있습니다. 회귀 방법과의 차이점은 분류 출력은 이산 범주 값인 반면 회귀 출력은 연속 또는 정렬된 값이라는 점입니다.

분류 알고리즘

모델 구성 프로세스는 일반적으로 훈련과 테스트의 두 단계로 나뉩니다. 모델을 구성하기 전에 데이터 세트를 훈련 데이터 세트와 테스트 데이터 세트로 무작위로 나누어야 합니다. 훈련 단계에서 훈련 데이터 세트를 사용하여 각 튜플이 클래스 레이블 속성이라는 속성에 의해 결정되는 사전 정의된 클래스에 속한다고 가정하고 속성에 의해 설명된 데이터베이스 튜플을 분석하여 모델이 구성됩니다. 훈련 데이터 세트의 단일 튜플은 훈련 샘플이라고도 합니다. 특정 샘플의 형식은 다음과 같습니다. 여기서 ui는 속성 값을 나타내고 c는 카테고리를 나타냅니다. 각 훈련 샘플의 클래스 레이블이 제공되므로 이 단계를 안내 학습이라고도 합니다. 일반적으로 모델은 분류 규칙, 의사결정 트리 또는 수학 공식의 형태로 제공됩니다. 테스트 단계에서 테스트 데이터 세트는 모델의 분류 정확도를 평가하는 데 사용됩니다. 모델의 정확도가 허용 가능한 것으로 간주되면 모델을 사용하여 다른 데이터 튜플을 분류할 수 있습니다. 일반적으로 테스트 단계의 비용은 교육 단계의 비용보다 훨씬 저렴합니다. (권장 학습: Python 비디오 튜토리얼)

분류의 정확성, 효율성 및 확장성을 향상시키기 위해 일반적으로 다음을 포함하여 데이터가 분류 전에 전처리됩니다.

(1) 데이터 정리. 그 목적은 데이터 노이즈를 제거하거나 줄이고 누락된 값을 처리하는 것입니다.

(2) 상관관계 분석. 데이터 세트의 많은 속성은 분류 작업과 관련이 없을 수 있으므로 이러한 속성을 포함하면 학습 프로세스가 느려지고 잠재적으로 잘못된 결과를 초래할 수 있습니다. 상관 분석의 목적은 이러한 관련성이 없거나 중복되는 속성을 제거하는 것입니다.

(3) 데이터 변환. 데이터는 더 높은 수준의 개념으로 일반화될 수 있습니다. 예를 들어, 연속 값 속성인 "소득"의 값은 낮음, 중간, 높음의 개별 값으로 일반화될 수 있습니다. 또 다른 예를 들면, 명목 가치 속성인 "도시"는 상위 수준 개념인 "지방"으로 일반화될 수 있습니다. 또한 데이터를 정규화하여 주어진 속성의 값을 [0,1] 등과 같이 더 작은 간격으로 확장할 수도 있습니다.

분류 알고리즘의 종류 및 특징

분류 모델의 구성 방법에는 의사결정 트리, 통계 방법, 기계 학습 방법, 신경망 방법이 포함됩니다. , 등. . 일반적인 방향에 따르면 주로 의사결정 트리, 연관 규칙, 베이지안, 신경망, 규칙 학습, k-nearby 방법, 유전 알고리즘, 대략적인 집합 및 퍼지 논리 기술이 포함됩니다.

결정 트리 분류 알고리즘

결정 트리는 예제 기반의 귀납적 학습 알고리즘입니다. 순서가 없고 규칙이 없는 튜플 집합에서 의사결정 트리 표현 형식으로 분류 규칙을 추론합니다. 하향식 재귀적 방법을 사용하여 의사 결정 트리의 내부 노드에서 속성 값을 비교하고, 서로 다른 속성 값에 따라 노드에서 아래쪽으로 분기됩니다. 리프 노드는 분할을 학습할 클래스입니다. 루트에서 리프 노드까지의 경로는 결합 규칙에 해당하고, 전체 의사결정 트리는 분리 표현 규칙 집합에 해당합니다. 1986년에 Quinlan은 유명한 ID3 알고리즘을 제안했습니다. ID3 알고리즘을 기반으로 Quinlan은 1993년에 C4.5 알고리즘을 제안했습니다. 대규모 데이터 세트 처리 요구에 적응하기 위해 나중에 몇 가지 개선된 알고리즘이 제안되었으며, 그 중 SLIQ(Supervised Learning in Quest)와 SPRINT(Scalable Parallelizing Induction of Decision Tree)가 가장 대표적인 알고리즘 중 하나입니다. .

베이지안 분류 알고리즘

베이지안 분류 알고리즘은 통계학에서의 분류 방법 중 하나로, 확률 통계 알고리즘을 사용합니다. 지식을 분류합니다. Naïve Bayes(NB) 분류 알고리즘은 많은 경우 의사결정 트리 및 신경망 분류 알고리즘과 비교할 수 있으며, 이 알고리즘은 대규모 데이터베이스에 적용할 수 있으며 방법이 간단하고 분류 정확도가 높으며 속도가 빠릅니다. 빠른.

베이즈 정리는 특정 클래스에 대한 속성 값의 영향이 다른 속성의 값과 독립적이라고 가정하고 이 가정이 실제 상황에서는 사실이 아닌 경우가 많기 때문에 분류 정확도가 감소하다. . 이러한 이유로 TAN(tree Augmented Bayes Network) 알고리즘과 같이 독립성 가정을 줄이는 베이지안 분류 알고리즘이 많이 파생되었습니다.

더 많은 Python 관련 기술 기사를 보려면 Python Tutorial 열을 방문하여 알아보세요!

위 내용은 분류 알고리즘의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.