検索
ホームページデータベースmysql チュートリアル BI笔记之---增量方式处理多维数据集

本文将模拟一个数据仓库系统,其中有用户数据,产品数据以及订单数据。根据这些数据结构建立多维数据集,并且以增量更新的方式对其进行处理。之所以强调增量的方

本文将模拟一个数据仓库系统,其中有用户数据,产品数据以及订单数据。根据这些数据结构建立多维数据集,并且以增量更新的方式对其进行处理。

之所以强调增量的方式,是考虑到事实表中数据的增长,假设以后增长到几十亿,全量处理就变得很不现实,所以方案中着重演示以增量方式处理多维数据集的方案。

增量处理多维数据集的关键是要将事实数据分为两部分处理,一个是增量事实表,一个是历史事实表,多维数据集第一次处理历史事实表中的数据,以后每次周期性的处理都是处理增量表中的数据。

本文中提及的SQLServer和Visual Studio都是2008版本,2005版本同样也适用。

数据假设:一张用户表,一张产品表,一张订单表,订单里记录的是谁买了什么。多维数据集统计的需求就是根据订单统计谁买过什么。

首先,建立数据仓库,在数据引擎下新建BIDemo库。

clip_image002

接下来建立用户表,结构如下:

此外还有产品表:

以及历史订单表和建立增量订单表,它们的结构是一样的:

clip_image008

为了测试方便,香港空间,我们在用户表中加入一些测试数据:

clip_image010

然后在产品表中加入一些测试数据

clip_image012

至于事实表,手动加入测试数据就不现实了,所以这里写了一个程序利用随机数来灌测试数据:

clip_image014

这个程序的代码可以在本文中找到。生成后的数据基本如下所示:

clip_image016

到此,测试的数据结构以及数据就已经准备好了,相当于有了一个小型的数据仓库。

接下来在Visual Studio中建立BI解决方案,方案下分为一个SSIS项目和一个SSAS项目。

在SSAS项目下建立数据源和数据源视图,这里需要注意的是,事实表用历史表,而不是增量表,尽管其还没有数据。

首先建立数据源,连接刚才建立的数据库,并且在数据源视图里定义好关系,虚拟主机,如下图:

clip_image018

然后,根据此数据源视图建立多维数据集,需要注意的是,度量选择历史表,维度选择用户和产品两个表。

最后,部署多维数据集。这里只部署就可以了,不需要处理,处理任务将在以后的SSIS包中处理。

下面来看SSIS项目。在SSIS包里建立四个任务模块,类型分别如下:

clip_image020

前两个多维数据集处理模块是用来处理多维数据集的,数据流负责把增量事实表的数据导到历史事实表中,最后执行一个SQL任务把增量表中的数据删除。

两个多维数据集模块,前一个是专门处理维度,第二个是处理cube。这里之所以要把多维数据集维度处理单独拿出来放在前面,是因为在笔者经验中,对多维数据集的处理虽然是全部处理,但是新增维度的数据不会被聚合到其中,所以需要单独拿出来放在前面处理。

(题外话:对于这个地方笔者一直也不是很理解,按理说既然是全部处理那么怎么连维度都不处理呢,还需要单拿出来)

以下是设置维度处理模块,在界面中选择维度即可。

clip_image022

然后是cube处理模块,如下图。

clip_image024

然后指定增量更新,并且配置增量更新的数据表,这里指定增量表。

clip_image026

多维数据集处理完成之后就可以把增量表的数据放到历史表中了,以保证第二天加入的数据都是增量数据。

需要注意的是,在实际的运行当中,一定要保证BI的处理过程时业务系统没有发生数据,否则就会造成数据遗漏而导致不平。所以,BI的处理一般都是在凌晨。

然后是第三步的数据流模块,此部分的主要任务是将增量表的数据转移到历史表中。

clip_image028

最后的一个SQL任务是一个Delete或者Truncate table任务,把增量表里的数据清空。

最终的任务流程如下图:

clip_image030

执行包,全部成功之后应该如下图所示:

clip_image032

执行成功后,打开历史表,可以发现数据已经在里面了,而且增量表中的数据已经不存在了。

查询多维数据集,可以看到新的数据被聚合到其中。

clip_image034

通过以上透视表可以清晰的看到谁买了什么样的产品。

再次运行Rubbish往增量表里灌几条数据,然后重新运行此SSIS包,可以发现新增的数据已经被聚合到多维数据集中了,注意处理的方式是增量的。

本文提及的数据结构模型都很简单,主要介绍的是多维数据集处理的流程以及方法,重点阐述增量部分的方案,以及需要注意的问题。希望有知道更好方法的兄弟一起交流探讨。

 

本文提及的相关数据库,项目文件以及程序下载

 

FAQ:

1.增量数据是怎么来的?

笔者个人认为这个需要跟业务系统配合来做,比如加入触发器等。或者通过时间戳,到业务系统中能提取到。

2.如果有更新和删除怎么办?

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
MySQLはSQLiteとどのように違いますか?MySQLはSQLiteとどのように違いますか?Apr 24, 2025 am 12:12 AM

MySQLとSQLiteの主な違いは、設計コンセプトと使用法のシナリオです。1。MySQLは、大規模なアプリケーションとエンタープライズレベルのソリューションに適しており、高性能と高い並行性をサポートしています。 2。SQLiteは、モバイルアプリケーションとデスクトップソフトウェアに適しており、軽量で埋め込みやすいです。

MySQLのインデックスとは何ですか?また、パフォーマンスをどのように改善しますか?MySQLのインデックスとは何ですか?また、パフォーマンスをどのように改善しますか?Apr 24, 2025 am 12:09 AM

MySQLのインデックスは、データの取得をスピードアップするために使用されるデータベーステーブル内の1つ以上の列の順序付けられた構造です。 1)インデックスは、スキャンされたデータの量を減らすことにより、クエリ速度を改善します。 2)B-Tree Indexは、バランスの取れたツリー構造を使用します。これは、範囲クエリとソートに適しています。 3)CreateIndexステートメントを使用して、createIndexidx_customer_idonorders(customer_id)などのインデックスを作成します。 4)Composite Indexesは、createIndexIDX_CUSTOMER_ORDERONORDERS(Customer_Id、Order_date)などのマルチコラムクエリを最適化できます。 5)説明を使用してクエリ計画を分析し、回避します

データの一貫性を確保するために、MySQLでトランザクションを使用する方法を説明します。データの一貫性を確保するために、MySQLでトランザクションを使用する方法を説明します。Apr 24, 2025 am 12:09 AM

MySQLでトランザクションを使用すると、データの一貫性が保証されます。 1)StartTransactionを介してトランザクションを開始し、SQL操作を実行して、コミットまたはロールバックで送信します。 2)SavePointを使用してSave Pointを設定して、部分的なロールバックを許可します。 3)パフォーマンスの最適化の提案には、トランザクション時間の短縮、大規模なクエリの回避、分離レベルの使用が合理的に含まれます。

どのシナリオでMySQLよりもPostgreSQLを選択できますか?どのシナリオでMySQLよりもPostgreSQLを選択できますか?Apr 24, 2025 am 12:07 AM

MySQLの代わりにPostgreSQLが選択されるシナリオには、1)複雑なクエリと高度なSQL関数、2)厳格なデータの整合性と酸コンプライアンス、3)高度な空間関数が必要、4)大規模なデータセットを処理するときに高いパフォーマンスが必要です。 PostgreSQLは、これらの側面でうまく機能し、複雑なデータ処理と高いデータの整合性を必要とするプロジェクトに適しています。

MySQLデータベースをどのように保護できますか?MySQLデータベースをどのように保護できますか?Apr 24, 2025 am 12:04 AM

MySQLデータベースのセキュリティは、以下の測定を通じて達成できます。1。ユーザー許可管理:CreateUSERおよびGrantコマンドを通じてアクセス権を厳密に制御します。 2。暗号化された送信:SSL/TLSを構成して、データ送信セキュリティを確保します。 3.データベースのバックアップとリカバリ:MySQLDUMPまたはMySQLPumpを使用して、定期的にデータをバックアップします。 4.高度なセキュリティポリシー:ファイアウォールを使用してアクセスを制限し、監査ロギング操作を有効にします。 5。パフォーマンスの最適化とベストプラクティス:インデックス作成とクエリの最適化と定期的なメンテナンスを通じて、安全性とパフォーマンスの両方を考慮に入れます。

MySQLのパフォーマンスを監視するために使用できるツールは何ですか?MySQLのパフォーマンスを監視するために使用できるツールは何ですか?Apr 23, 2025 am 12:21 AM

MySQLのパフォーマンスを効果的に監視する方法は? MySqladmin、ShowGlobalStatus、PerconAmonitoring and Management(PMM)、MySQL EnterpriseMonitorなどのツールを使用します。 1. mysqladminを使用して、接続の数を表示します。 2。showglobalstatusを使用して、クエリ番号を表示します。 3.PMMは、詳細なパフォーマンスデータとグラフィカルインターフェイスを提供します。 4.mysqlenterprisemonitorは、豊富な監視機能とアラームメカニズムを提供します。

MySQLはSQL Serverとどのように違いますか?MySQLはSQL Serverとどのように違いますか?Apr 23, 2025 am 12:20 AM

MySQLとSQLServerの違いは次のとおりです。1)MySQLはオープンソースであり、Webおよび埋め込みシステムに適しています。2)SQLServerはMicrosoftの商用製品であり、エンタープライズレベルのアプリケーションに適しています。ストレージエンジン、パフォーマンスの最適化、アプリケーションシナリオの2つには大きな違いがあります。選択するときは、プロジェクトのサイズと将来のスケーラビリティを考慮する必要があります。

どのシナリオでMySQLよりもSQL Serverを選択できますか?どのシナリオでMySQLよりもSQL Serverを選択できますか?Apr 23, 2025 am 12:20 AM

高可用性、高度なセキュリティ、優れた統合を必要とするエンタープライズレベルのアプリケーションシナリオでは、MySQLの代わりにSQLServerを選択する必要があります。 1)SQLServerは、高可用性や高度なセキュリティなどのエンタープライズレベルの機能を提供します。 2)VisualStudioやPowerbiなどのMicrosoftエコシステムと密接に統合されています。 3)SQLSERVERは、パフォーマンスの最適化に優れた機能を果たし、メモリが最適化されたテーブルと列ストレージインデックスをサポートします。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境