>일반적인 문제 >데이터 마이닝이란 무엇입니까?

데이터 마이닝이란 무엇입니까?

青灯夜游
青灯夜游원래의
2020-07-16 11:54:148900검색

데이터마이닝이란 대량의 데이터 속에 숨겨진 정보를 알고리즘을 통해 찾아내는 과정을 말합니다. 데이터 마이닝은 일반적으로 컴퓨터 과학과 관련이 있으며 통계, 온라인 분석 처리, 지능 검색, 기계 학습, 전문가 시스템(과거의 경험 법칙에 의존) 및 패턴 인식과 같은 다양한 방법을 사용하여 대규모로 숨겨진 정보를 검색한다는 목표를 달성합니다. 데이터의 양.

데이터 마이닝이란 무엇입니까?

데이터 마이닝은 인공 지능 및 데이터베이스 연구 분야에서 뜨거운 이슈입니다. 소위 데이터 마이닝은 대량의 데이터에서 암시적이고 이전에 알려지지 않았으며 잠재적으로 가치 있는 정보를 밝혀내는 사소하지 않은 프로세스를 말합니다. 데이터베이스의 데이터.

데이터 마이닝은 주로 인공 지능, 기계 학습, 패턴 인식, 통계, 데이터베이스, 시각화 기술 등을 기반으로 하는 의사 결정 지원 프로세스입니다. 기업 데이터를 고도로 자동 분석하고 귀납적 추론을 수행하며 잠재적인 모델을 활용합니다. 의사결정자가 시장 전략을 조정하고 위험을 줄이며 올바른 결정을 내릴 수 있도록 돕습니다.

지식 발견 과정은 ① 데이터 준비, ② 데이터 마이닝, ③ 결과 표현 및 해석의 세 단계로 구성됩니다. 데이터 마이닝은 사용자 또는 지식 기반과 상호 작용할 수 있습니다.

데이터 마이닝 개체

데이터 유형은 구조화, 반구조화 또는 이질적일 수 있습니다. 지식을 발견하는 방법은 수학적, 비수학적, 귀납적일 수 있습니다. 최종적으로 발견된 지식은 정보 관리, 쿼리 최적화, 의사 결정 지원 및 데이터 자체 유지 관리에 사용될 수 있습니다. [4]

데이터 마이닝의 대상은 모든 유형의 데이터 소스가 될 수 있습니다. 이는 구조화된 데이터를 포함하는 데이터 소스인 관계형 데이터베이스일 수도 있고, 데이터 웨어하우스, 텍스트, 멀티미디어 데이터, 공간 데이터, 시계열 데이터 및 웹 데이터일 수도 있습니다. 구조화된 데이터 또는 이기종 데이터. [4]

지식을 발견하는 방법은 수치적, 비수적적 또는 귀납적일 수 있습니다. 최종적으로 발견된 지식은 정보 관리, 쿼리 최적화, 의사 결정 지원 및 데이터 자체 유지 관리에 사용될 수 있습니다.

데이터 마이닝 단계

데이터 마이닝을 구현하기 전에 먼저 수행할 단계, 각 단계에서 수행할 작업, 달성하는 데 필요한 목표를 결정하세요. 좋은 계획이 있어야만 데이터 마이닝을 순차적으로 구현할 수 있습니다. .그리고 성공합니다. 많은 소프트웨어 공급업체와 데이터 마이닝 컨설팅 회사는 사용자에게 데이터 마이닝 작업을 단계별로 안내하기 위해 몇 가지 데이터 마이닝 프로세스 모델을 제공합니다. 예를 들어 SPSS의 5A 및 SAS의 SEMMA가 있습니다.

데이터 마이닝 프로세스 모델 단계에는 주로 문제 정의, 데이터 마이닝 라이브러리 구축, 데이터 분석, 데이터 준비, 모델 구축, 모델 평가 및 구현이 포함됩니다. 각 단계의 구체적인 내용을 자세히 살펴보겠습니다.

(1) 문제를 정의합니다. 지식 발견을 시작하기 전에 가장 먼저이자 가장 중요한 요구 사항은 데이터와 비즈니스 문제를 이해하는 것입니다. 목표에 대한 명확하고 명확한 정의, 즉 무엇을 하고 싶은지 결정해야 합니다. 예를 들어 이메일의 활용률을 높이고 싶다면 '사용자 활용률을 높이고' 싶을 수도 있고, '한 명의 사용자 사용 가치를 높이고' 싶을 수도 있습니다. 이 두 가지 문제를 해결하기 위해 확립된 모델은 거의 대부분입니다. 완전히 다릅니다. 결정을 내려야 합니다.

(2) 데이터 마이닝 라이브러리를 구축합니다. 데이터 마이닝 라이브러리 구축에는 데이터 수집, 데이터 설명, 선택, 데이터 품질 평가 및 데이터 정리, 병합 및 통합, 메타데이터 구축, 데이터 마이닝 라이브러리 로드, 데이터 마이닝 라이브러리 유지 관리 등의 단계가 포함됩니다.

(3) 데이터를 분석합니다. 분석의 목적은 예측 결과에 가장 큰 영향을 미치는 데이터 필드를 찾고 내보내기 필드를 정의해야 하는지 여부를 결정하는 것입니다. 데이터 세트에 수백 또는 수천 개의 필드가 포함되어 있는 경우 데이터를 탐색하고 분석하는 것은 매우 시간이 많이 걸리고 피곤한 작업이 됩니다. 이 경우 좋은 인터페이스와 강력한 기능을 갖춘 도구 소프트웨어를 선택해야 합니다. 이러한 작업을 완료합니다.

(4) 데이터를 준비합니다. 이는 모델을 구축하기 전 데이터 준비의 마지막 단계입니다. 이 단계는 변수 선택, 레코드 선택, 새 변수 생성, 변수 변환의 네 부분으로 나눌 수 있습니다.

(5) 모델을 빌드합니다. 모델 구축은 반복적인 프로세스입니다. 어떤 모델이 직면한 비즈니스 문제에 가장 유용한지 결정하려면 다양한 모델을 주의 깊게 조사해야 합니다. 먼저 데이터의 일부를 사용하여 모델을 구축한 다음 나머지 데이터를 사용하여 결과 모델을 테스트하고 검증합니다. 테스트 세트는 모델의 특성에 영향을 받을 수 있으므로 모델의 정확성을 검증하려면 독립적인 데이터 세트가 필요하기 때문에 검증 세트라고 하는 세 번째 데이터 세트가 있는 경우도 있습니다. 데이터 마이닝 모델을 훈련하고 테스트하려면 데이터를 최소한 두 부분으로 분할해야 합니다. 하나는 모델 훈련용이고 다른 하나는 모델 테스트용입니다.

(6) 평가 모델. 모델이 확립된 후에는 얻은 결과를 평가하고 모델의 가치를 설명해야 합니다. 테스트 세트에서 얻은 정확도는 모델을 구축하는 데 사용된 데이터에만 의미가 있습니다. 실제 적용에서는 오류 유형과 오류로 인해 발생하는 관련 비용을 더 깊이 이해하는 것이 필요합니다. 경험에 따르면 유효한 모델이 반드시 올바른 모델은 아니라는 것이 입증되었습니다. 이에 대한 직접적인 이유는 모델 구축에 내재된 다양한 가정 때문이므로 실제 세계에서 모델을 직접 테스트하는 것이 중요합니다. 작은 영역에 먼저 적용하고, 테스트 데이터를 얻은 후, 만족감을 느끼면 넓은 영역으로 추진해 보세요.

(7)구현. 모델이 구축되고 검증되면 두 가지 주요 방법으로 사용할 수 있습니다. 첫 번째는 분석가에게 참조를 제공하는 것이고, 다른 하나는 이 모델을 다양한 데이터 세트에 적용하는 것입니다.

더 많은 관련 지식을 보려면 PHP 중국어 웹사이트를 방문하세요!

위 내용은 데이터 마이닝이란 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.