>일반적인 문제 >데이터 마이닝이란 무엇입니까?

데이터 마이닝이란 무엇입니까?

青灯夜游
青灯夜游원래의
2020-07-24 11:53:148165검색

데이터 마이닝은 대량의 데이터 속에 숨겨진 알려지지 않았지만 잠재적으로 유용한 정보를 추출하는 프로세스입니다. 데이터 마이닝의 목표는 과거 행동 데이터를 기반으로 미래 행동을 예측하는 의사결정 모델을 구축하는 것입니다.

데이터 마이닝이란 무엇입니까?

데이터마이닝이란 대용량 데이터 속에 숨겨진 정보를 알고리즘을 통해 찾아내는 과정을 말합니다.

데이터 마이닝은 일반적으로 컴퓨터 과학과 관련이 있으며 통계, 온라인 분석 처리, 지능 검색, 기계 학습, 전문가 시스템(과거 경험 법칙에 의존) 및 패턴 인식과 같은 다양한 방법을 통해 위의 목표를 달성합니다.

데이터 마이닝은 데이터베이스(KDD)의 지식 발견에 없어서는 안될 부분이며, KDD는 원시 데이터를 유용한 정보로 변환하는 전체 프로세스입니다. 이 프로세스에는 데이터 전처리부터 사후 처리까지 일련의 변환 단계가 포함됩니다. 데이터 마이닝 결과 처리.

데이터 마이닝이란 무엇입니까?

데이터 마이닝의 기원

다양한 분야의 연구자들이 모여 다양한 데이터 유형을 처리할 수 있는 보다 효율적이고 확장 가능한 도구를 개발하기 시작했습니다. 이러한 작업은 이전에 연구자들이 사용했던 방법론과 알고리즘을 기반으로 하며 데이터 마이닝 분야에서 정점을 이룹니다.

특히 데이터 마이닝은 다음 분야의 아이디어를 활용합니다: (1) 통계를 통한 샘플링, 추정 및 가설 테스트 (2) 검색 알고리즘 모델링 기술 및 인공 지능, 패턴 인식 및 기계 학습의 학습 이론.

데이터 마이닝은 또한 최적화, 진화 계산, 정보 이론, 신호 처리, 시각화 및 정보 검색을 포함한 다른 분야의 아이디어를 빠르게 수용했습니다.

다른 영역도 중요한 지원 역할을 합니다. 데이터베이스 시스템은 효율적인 저장, 인덱싱 및 쿼리 처리 지원을 제공합니다. 고성능(병렬) 컴퓨팅에서 파생된 기술은 대규모 데이터 세트를 처리하는 데 중요한 경우가 많습니다. 분산 기술은 또한 대량의 데이터를 처리하는 데 도움이 될 수 있으며 데이터를 중앙에서 처리할 수 없는 경우 더욱 중요합니다.

데이터 마이닝이란 무엇입니까?

KDD(데이터베이스에서 지식 검색)

  • 데이터 정리

    데이터 제거

  • 데이터 통합

    여러 데이터 소스를 함께 결합할 수 있습니다.

  • 데이터 선택
  • 데이터베이스에서 분석 작업과 관련된 데이터 추출

  • 데이터 변환
  • 요약 또는 집계 작업을 통해 데이터를 마이닝에 적합한 형식으로 변환 및 통합

  • 데이터 마이닝
  • 기본 단계, 지능형 사용

  • 패턴 평가
  • 특정 관심도를 기반으로 지식을 나타내는 정말 흥미로운 패턴을 식별합니다.

  • 지식 표현
  • 사용자에게 마이닝 지식을 제공합니다.

데이터 마이닝이란 무엇입니까?

데이터 마이닝 방법론

    비즈니스 이해(비즈니스 이해)
  • 비즈니스 관점에서 프로젝트의 목표와 요구 사항을 이해하고, 이 이해 지식을 이론을 통해 실행 가능한 데이터 마이닝 문제로 변환합니다. 분석, 목표 달성을 위한 예비 계획 수립

  • 데이터 이해
  • 데이터 이해 단계는 원본 데이터 수집으로 시작한 다음 데이터에 익숙해지고, 데이터 품질 문제를 식별하고, 데이터에 대한 사전 이해를 탐구합니다. , 데이터의 흥미로운 부분을 찾아 정보 탐색에 대한 가설을 형성합니다.

  • 데이터 준비(데이터 준비)
  • 데이터 준비 단계는 데이터 마이닝에 필요한 정보를 구성하는 활동을 의미합니다. 원본 원시 데이터에 있는 처리되지 않은 데이터입니다. 데이터 준비 작업은 정해진 순서 없이 여러 번 수행될 수 있습니다. 이러한 작업의 주요 목적은 데이터 변환, 정리, 구성 및 통합과 같은 데이터 전처리가 필요한 차원 분석의 요구 사항에 따라 소스 시스템에서 필요한 정보를 얻는 것입니다.

  • Modeling
  • 단계에서는 주로 다양한 모델링 기법을 선택하고 적용하는 것에 관한 것입니다. 동시에 해당 매개변수는 최적의 값을 달성하도록 조정됩니다. 일반적으로 동일한 데이터 마이닝 문제 유형에 대해 여러 가지 모델링 기술이 있습니다. 일부 기술에는 데이터 형식에 대한 특별한 요구 사항이 있으며 데이터 준비 단계로 돌아가야 하는 경우가 많습니다.

  • 모델 평가(평가)
  • 모델을 배포하고 출시하기 전에 기술적인 측면에서 모델 효과를 판단해야 합니다. 모델 수립의 다양한 단계를 확인하고, 비즈니스 목표를 기반으로 실제 비즈니스 시나리오에서 모델의 실용성을 평가합니다. 이 단계의 핵심 목적은 완전히 고려되지 않은 몇 가지 중요한 비즈니스 문제가 있는지 확인하는 것입니다.

  • 모델 배포(배포)
  • 모델이 완료된 후 모델 사용자(고객)가 이를 기반으로 패키징합니다. 당시 배경 및 목표 달성에 대한 비즈니스 시스템 사용 요구 사항을 충족합니다.

데이터 마이닝이란 무엇입니까?

데이터 마이닝 작업

일반적으로 데이터 마이닝 작업은 다음 두 가지 범주로 나뉩니다.

  • 예측 작업. 이 작업의 목표는 다른 속성의 값을 기반으로 특정 속성의 값을 예측하는 것입니다. 예측되는 속성을 일반적으로 목표변수 또는 종속변수라고 하며, 예측에 사용되는 속성을 설명변수 또는 독립변수라고 합니다.

  • 작업을 설명하세요. 목표는 데이터의 기본 연결을 요약하는 패턴(상관 관계, 추세, 클러스터, 궤적 및 이상 현상)을 도출하는 것입니다. 설명적 데이터 마이닝 작업은 본질적으로 탐색적인 작업인 경우가 많으며 결과를 확인하고 해석하기 위해 후처리 기술이 필요한 경우가 많습니다.

    데이터 마이닝이란 무엇입니까?

Predictive Modeling(예측 모델링) 변수의 기능을 설명하는 방식으로 대상 변수에 대한 모델을 구축하는 작업입니다.

예측 모델링 작업에는 두 가지 유형이 있습니다. 분류는 이산 목표 변수를 예측하는 데 사용되며 연속 목표 변수를 예측하는 데 사용됩니다.

예를 들어 웹 사용자가 온라인 서점에서 책을 구입할지 여부를 예측하는 것은 대상 변수가 이진이므로 분류 작업인 반면, 주식의 미래 가격을 예측하는 것은 가격이 연속적인 가치 속성을 갖기 때문에 회귀 작업입니다.

두 작업의 목표는 목표 변수의 예측 값과 실제 값 사이의 오류를 최소화하도록 모델을 교육하는 것입니다. 예측 모델링을 사용하면 제품 프로모션에 대한 고객의 반응을 판단하고, 지구 생태계의 교란을 예측하거나, 테스트 결과를 기반으로 환자에게 질병이 있는지 여부를 판단할 수 있습니다.

연관 분석(Association Analysis) 은 데이터에서 강력한 상관 관계 특성을 설명하는 패턴을 발견하는 데 사용됩니다.

발견된 패턴은 일반적으로 암시 규칙 또는 기능 하위 집합의 형태로 표현됩니다. 검색 공간의 크기는 기하급수적으로 크기 때문에 상관 분석의 목표는 가장 흥미로운 패턴을 효율적으로 추출하는 것입니다. 연관 분석의 적용에는 관련 기능을 가진 게놈 찾기, 사용자가 함께 방문하는 웹 페이지 식별, 지구 기후 시스템의 다양한 요소 간의 연결 이해 등이 포함됩니다.

클러스터 분석은 동일한 클러스터에 속하는 관측치가 다른 클러스터에 속하는 관측치와 최대한 유사하도록 밀접하게 관련된 관측치 그룹을 찾는 것을 목표로 합니다. 클러스터링은 관련 고객을 그룹화하고, 지구의 기후에 큰 영향을 미치는 해양 영역을 식별하고, 데이터를 압축하는 등의 작업에 사용할 수 있습니다.

이상 탐지(anomaly detector)의 임무는 다른 데이터와 특성이 크게 다른 관찰을 식별하는 것입니다.

이러한 관찰을 이상치 또는 이상치라고 합니다. 이상 탐지 알고리즘의 목표는 실제 이상을 발견하고 정상적인 객체를 이상으로 잘못 표시하는 것을 방지하는 것입니다. 즉, 좋은 이상 탐지는 탐지율이 높고 오경보율이 낮아야 합니다.

이상 탐지의 응용 분야에는 사기, 사이버 공격, 비정상적인 질병 패턴, 생태계 교란 등이 포함됩니다.

더 많은 관련 지식을 보려면 PHP 중국어 웹사이트를 방문하세요!

위 내용은 데이터 마이닝이란 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.