데이터 웨어하우스와 데이터베이스의 차이점: 1. 데이터베이스는 아무런 처리 없이 원시 데이터를 저장하는 반면, 데이터 웨어하우스는 데이터 분석 요구 사항을 충족하도록 설계되었으며, 소스 데이터에서 데이터 추출 작업이 수행됩니다. 2. 데이터 웨어하우스의 데이터 양이 데이터베이스의 양보다 훨씬 많습니다.
(추천 튜토리얼: mysql 비디오 튜토리얼)
1. 데이터 웨어하우스
- 데이터 웨어하우스란 무엇인가요?
DW 또는 DWH로 약칭할 수 있는 데이터 웨어하우스는 기업의 모든 수준에서 의사 결정 및 계획 프로세스를 위한 모든 유형의 데이터를 전략적으로 수집한 것입니다. 이는 분석 보고 및 의사결정 지원 목적으로 만들어졌습니다. 비즈니스 인텔리전스가 필요한 기업의 경우 비즈니스 프로세스 개선을 안내하고 시간, 비용, 품질 및 제어 등을 모니터링해야 합니다.
-
데이터 웨어하우스는 무엇을 할 수 있나요? (밤 몇개 드리려고)
- 연간 매출 목표 설정은 과거 이력 보고에 기초한 결정이 필요하며 함부로 설정할 수 없습니다.
- 비즈니스 프로세스 최적화
예: 특정 전자상거래 플랫폼의 특정 휴대폰 브랜드의 경우 지난 5년간 주요 구매 그룹의 연령은 몇 세였습니까? 해당 시즌에 구매 건수가 많았습니다. 목표 그룹이 이러한 특성을 기반으로 할 수 있도록 주요 수요를 설정하고 결과적인 생산량 및 창고 재고를 동적으로 할당합니다.
-
데이터 웨어하우스의 기능
- 데이터 웨어하우스는 주제 중심입니다.
- 기존 데이터베이스와 달리 데이터 웨어하우스는 주제 중심입니다. 그렇다면 주제란 무엇일까요? 홈페이지 테마는 고차원적인 개념으로, 상위 수준의 기업 정보 시스템에서 데이터를 종합, 분류, 분석하는 대상입니다. 논리적인 의미에서는 기업의 특정 거시분석 분야에 관련된 분석 대상입니다. (인간적인 관점에서: 의사결정을 위해 데이터 웨어하우스를 사용할 때 사용자가 우려하는 주요 측면입니다. 주제는 일반적으로 여러 운영 정보 시스템과 관련되며 운영 데이터베이스의 데이터 구성은 트랜잭션 처리 작업을 지향하며 각 )
- 데이터 웨어하우스가 통합되었습니다.
- 데이터 웨어하우스의 데이터는 분산된 원본 데이터베이스 데이터(mysql 및 기타 관계형 데이터베이스)에서 추출됩니다. 운영 데이터베이스와 DSS(의사결정 지원 시스템) 분석 데이터베이스 사이에는 큰 차이가 있습니다. 첫째, 데이터 웨어하우스의 각 주제에 해당하는 소스 데이터는 분산된 모든 데이터베이스에서 많은 반복과 차이를 가지며, 서로 다른 온라인 시스템의 데이터는 서로 다른 애플리케이션 로직으로 묶일 수 없습니다. 원본 데이터베이스 시스템에서 직접 가져옵니다. 따라서 데이터가 데이터 웨어하우스에 들어가기 전에 통합 및 합성을 거쳐야 합니다. 이 단계는 데이터 웨어하우스 구축에서 가장 중요하고 복잡한 단계입니다. 수행해야 할 작업은 다음과 같습니다.
- 모든 모순을 계산합니다. 동일한 이름, 다른 이름 및 동의어, 일관되지 않은 단위, 일관되지 않은 단어 길이 등의 필드와 같은 소스 데이터
- 데이터 합성 및 계산을 수행합니다. 데이터 웨어하우스에서의 데이터 합성 작업은 원본 데이터베이스가 데이터를 추출할 때 생성될 수도 있지만, 대부분은 데이터 웨어하우스 내부에서 생성된다. 즉, 데이터 웨어하우스에 들어간 후 합성된다.
- 데이터 웨어하우스의 데이터는 시간이 지남에 따라 변경됩니다.
- 데이터 웨어하우스의 업데이트 불가능한 데이터는 애플리케이션용입니다. 즉, 데이터 웨어하우스 사용자는 분석 및 처리를 수행할 때 데이터 업데이트 작업을 수행하지 않습니다. 그러나 이는 데이터 웨어하우스에 대한 데이터 통합 시작부터 최종 삭제될 때까지 전체 수명주기 동안 모든 데이터 웨어하우스 데이터가 절대 변경되지 않는다는 의미는 아닙니다.
- 데이터 웨어하우스의 데이터는 시간에 따라 변하는데, 이는 데이터 웨어하우스의 특징 중 하나입니다. 이 기능은 주로 다음 세 가지 형태로 나타납니다.
- 데이터 웨어하우스는 시간이 변함에 따라 계속해서 새로운 데이터 콘텐츠를 추가합니다. 데이터 웨어하우스 시스템은 OLTP 데이터베이스의 변화하는 데이터를 지속적으로 캡처하여 데이터 웨어하우스에 추가해야 합니다. 즉, OLTP 데이터베이스의 스냅샷을 지속적으로 생성하고 이를 통합 통합을 통해 데이터 웨어하우스에 추가해야 합니다. 변경되지 않는 스냅샷, 변경된 새로운 데이터가 캡처되면 원본 데이터베이스 스냅샷을 수정하지 않고 새 데이터베이스 스냅샷만 생성 및 추가됩니다.
- 데이터베이스는 시간이 지남에 따라 오래된 데이터 콘텐츠를 지속적으로 삭제합니다. 데이터 웨어하우스의 데이터에도 보관 기간이 있습니다. 해당 기간이 지나면 만료된 데이터는 삭제됩니다. 단지 데이터베이스의 데이터 수명 제한이 운영 환경의 데이터 수명 제한보다 훨씬 길다는 것입니다. 운영 환경에서는 일반적으로 60~90일의 데이터만 저장되는 반면, 데이터 웨어하우스에서는 추세 분석을 위한 DSS 요구 사항을 충족하려면 더 긴 기간(예: 5~10년)의 데이터를 저장해야 합니다.
- 데이터 웨어하우스에는 방대한 양의 종합 데이터가 포함되어 있으며, 이러한 종합 데이터 중 상당수는 시간과 관련이 있습니다. 예를 들어 데이터는 기간에 따라 합성되거나 특정 시간 단위로 샘플링되는 경우가 많습니다. 이러한 데이터는 시간이 지남에 따라 지속적으로 재합성되어야 합니다. 따라서 데이터 웨어하우스의 데이터 특성에는 데이터의 과거 기간을 나타내는 시간 항목이 포함됩니다.
- 데이터 웨어하우스의 데이터는 수정할 수 없습니다.
- 데이터 웨어하우스의 데이터는 주로 기업 의사결정 분석에 사용되며, 관련된 데이터 작업은 주로 데이터 쿼리이며 일반적으로 수정 작업은 수행되지 않습니다. 데이터 웨어하우스의 데이터는 장기간에 걸친 기록 데이터의 내용을 반영하는 것이 아니라 다양한 시점의 데이터베이스 스냅샷 모음이자 이러한 스냅샷의 통계, 합성 및 재구성을 기반으로 내보낸 데이터입니다. 온라인 처리 데이터. 데이터베이스의 온라인 처리를 위한 라이브러리가 통합되어 데이터 웨어하우스에 입력됩니다. 데이터 웨어하우스에 저장된 데이터가 데이터 웨어하우스의 데이터 저장 기간을 초과하면 해당 데이터는 현재 데이터 웨어하우스에서 삭제됩니다. 데이터 웨어하우스는 데이터 쿼리 작업만 수행하므로 데이터 웨어하우스의 시스템은 데이터베이스의 시스템보다 훨씬 간단합니다. 무결성 보호, 동시성 제어 등과 같은 데이터베이스 관리 시스템의 많은 기술적 어려움은 데이터 웨어하우스 관리에서 거의 제거될 수 있습니다. 그러나 데이터 웨어하우스에서 쿼리되는 데이터의 양이 많은 경우가 많기 때문에 데이터 쿼리에 대한 요구 사항이 더 높아지고 동시에 다양한 복잡한 인덱싱 기술을 사용해야 하기 때문에 데이터 웨어하우스는 다음과 같은 고위 관리를 지향합니다. 데이터 쿼리의 인터페이스 친화성과 데이터 표현은 더 높은 요구 사항을 제시합니다.
2. 데이터 웨어하우스와 데이터베이스의 차이점
- 차이점을 이해하기 전에 다음 사항을 알아야 합니다. 데이터베이스 소프트웨어, 데이터베이스, 데이터 웨어하우스란 무엇인가라는 세 가지 개념을 이해합니까?
- 데이터베이스 소프트웨어: 일종의 소프트웨어입니다(데이터베이스에 연결하는 그래픽 클라이언트가 아님). 데이터베이스 논리적 프로세스를 구현하는 데 사용되며 물리적 계층에 속합니다.
- 데이터베이스: 논리적 개념으로, 데이터를 저장하는 데 사용되는 창고이며 데이터베이스 소프트웨어를 통해 구현됩니다. 데이터베이스는 여러 테이블로 구성되어 있으며 테이블은 2차원이며 하나의 테이블에 많은 필드가 있습니다. 필드는 행으로 배열되고 데이터는 행별로 테이블에 기록됩니다. 데이터베이스 테이블은 다차원 관계를 2차원으로 표현할 수 있습니다. 예: oracle, DB2, MySQL, Sybase, MSSQL Server 등
- 데이터 웨어하우스: 데이터베이스 개념의 업그레이드입니다. 논리적으로 말하면 데이터베이스와 데이터 웨어하우스 사이에는 차이가 없습니다. 둘 다 데이터베이스 소프트웨어를 통해 데이터가 저장되는 장소입니다. 그러나 데이터 볼륨 측면에서는 데이터 웨어하우스가 데이터베이스보다 훨씬 큽니다. 데이터 웨어하우스는 주로 리더의 의사결정을 지원하기 위한 데이터 마이닝 및 데이터 분석에 사용됩니다.
- IT 아키텍처 시스템에는 데이터베이스가 있어야 하고 데이터를 저장할 장소가 있어야 합니다. 예를 들어 현재 온라인 쇼핑 및 기타 전자 상거래가 있습니다. 아이템의 재고, 아이템 가격, 이용자 계정 잔액 등 이러한 데이터는 백그라운드 데이터베이스에 저장됩니다. 또는 가장 간단한 이해는 WeChat, Weibo 및 QQ와 같은 현재 계정과 비밀번호입니다. 백그라운드 데이터베이스는 사용자 이름과 비밀번호라는 두 개 이상의 필드가 있는 사용자 테이블이어야 하며, 데이터는 행별로 테이블에 저장됩니다. 로그인할 때 사용자 이름과 비밀번호를 입력하면 테이블의 데이터와 일치하도록 데이터가 백엔드로 다시 전송됩니다. 일치에 성공하면 로그인할 수 있습니다. 일치에 실패하면 오류가 보고됩니다. 데이터베이스는 프로덕션 환경에서 작업하는 데 사용됩니다. 우리는 모든 비즈니스 관련 애플리케이션에 데이터베이스를 사용합니다.
- 데이터 웨어하우스는 BI 기술 중 하나입니다. 데이터베이스는 비즈니스 애플리케이션과 연결되어 있기 때문에 하나의 데이터베이스가 기업의 모든 데이터를 담는 것은 불가능합니다. 데이터베이스 테이블 디자인은 종종 특정 애플리케이션을 위해 설계됩니다. 예를 들어, 지금의 로그인 함수에는 사용자 테이블에 이 두 필드만 있고 다른 필드는 없습니다. 당시 이 표는 있어야 할 내용을 충족하고 있어 문제가 없지만, 이 표는 분석 결과에 부합하지 않습니다. 예를 들어, 어느 기간에 사용자가 가장 많은지 알고 싶습니다. 1년 동안 가장 많이 구매한 사용자는 누구입니까? 이런 지표. 그런 다음 데이터베이스의 테이블 구조를 다시 디자인해야 합니다. 데이터 분석과 데이터 마이닝을 위해 데이터 웨어하우스라는 개념을 도입했습니다. 데이터 웨어하우스의 테이블 구조는 분석 요구 사항, 분석 차원, 분석 지표에 따라 설계됩니다.
- 데이터베이스와 데이터 웨어하우스의 차이점은 실제로 OLTP와 OLAP의 차이점을 말합니다.
- 온라인 트랜잭션 처리(OLTP)(On-Line Transaction Process)라고 하는 작업 처리는 트랜잭션 중심 처리 시스템이라고도 할 수 있습니다. 이는 일반적으로 데이터베이스에서 특정 비즈니스를 온라인으로 쿼리하고 수정하는 작업입니다. 기록 수가 적습니다. 사용자는 작업 응답 시간, 데이터 보안, 무결성 및 동시 지원 사용자 수와 같은 문제에 대해 더 우려하고 있습니다. 데이터 관리의 주요 수단으로 기존 데이터베이스 시스템은 주로 운영 처리에 사용됩니다.
- 온라인 분석 처리 OLAP(On-Line Analytical Process)이라고 불리는 분석 처리는 일반적으로 특정 주제에 대한 과거 데이터를 분석하여 경영 결정을 지원합니다.
연산 처리 |
분석 처리 |
상세 |
합성 또는 정제 |
엔티티-관계( E-R)모델 |
스타모델 or 눈꽃모델 |
인스턴트 데이터 저장 |
최근 데이터를 제외한 과거 데이터 저장 |
업데이트 가능 |
읽기 전용, 추가만 가능 |
한 번에 한 유닛씩 작동 |
한 번에 한 세트씩 작동 |
높은 성능 요구 사항, 짧은 응답 시간 |
느슨한 성능 요구 사항 |
트랜잭션 중심 |
분석 중심 |
한 번의 작업으로 적은 양의 데이터 |
의사 결정 요구 지원 |
작은 양의 데이터 |
많은 양 of data |
고객 주문, 재고 수준 및 은행 계좌 조회 |
고객 수익 분석, 시장 세분화 |
Three. Tail
1. 오류가 있는 경우 지적해 주시면 수정하겠습니다. 이해가 안 되시면 메시지를 남겨서 서로 소통하실 수 있나요?
2. 별거 아니라고 생각하실 수도 있지만, 진지하게 받아들이고 제 기록과 경험으로 삼아 발전할 수 있도록 하겠습니다.
위 내용은 데이터 웨어하우스와 데이터베이스의 차이점은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!