search
HomeDatabaseMysql TutorialOLAP简介(结合个人工作)

OLTP和OLAP 传统的数据库系统都是OLTP,只能提供数据原始的操作。不支持分析工作。 OLTP系统::执行联机事务和查询处理。一般超市进销存系统,功能:注册,记账,库存和销售记录等等, OLAP系统:数据分析与决策服务,组织不同式数据,满足不同用户需求。 区

OLTP和OLAP
传统的数据库系统都是OLTP,只能提供数据原始的操作。不支持分析工作。

OLTP系统::执行联机事务和查询处理。一般超市进销存系统,功能:注册,记账,库存和销售记录等等,

OLAP系统:数据分析与决策服务,组织不同格式数据,满足不同用户需求。

区别:

面向性。OLTP面向顾客,就是操作员,如超市收银员,银行柜台人员。OLAP面向市场,用于数据分析,分析人员包括数据分析员,做出决策的业务经理,或者策略制定部分。

数据内容:OLTP当前数据。OLAP历史数据的汇总与聚集。

数据库设计:OLTP用ER模型和面向应用数据库。OLAP 用星型或雪花模型,面向主题数据库设计。

还有访问模式:操作事务与只读的分析计算的区别。

等等

多维数据模型:

数据立方体cube:

给定维度的每个子集产生一个cuboid(称为方体)。这样可以在不同粒度上的汇总级别或分组(group by),来显示数据,整体上方体的格成为cube。

最低层汇总的方体称为基本方体(basecuboid)。出现某一个维度上的汇总后,则为非基本方体。

汇总到最高层的数据称为顶点方体(apexcuboid),如0-d方体,that’s to say,所有维度汇总到一起只剩一个cuboid,不能再汇总了。

顶点方体是最高泛化的方体。基本方体是最低特殊化的方体。

粗细粒度是不同程度上的汇总,涉及操作:

上卷(roll up),供应商称之为上钻drillup,沿着维度的概念分层向上

下钻(drill down)沿着维度的概念分层向下,需找更细粒度的数据。

切片:固定某一维度的取值,抽取这一维度下的子集。

切块:由多个维度上选择多个取值,抽取其所映射的子立方体。

旋转rotate: 也叫pivot数轴变换,简单说,二维表中的行列转置。到三维以上复杂,不同数轴之间的位置变换。说的高大上叫数据的视图角度转变

概念分层:低层概念(如城市)映射到更高的层次概念(如国家)。从低到高叫泛化(generalize),从高到低叫特殊化(specialize)。

模式分层(schema hierarchy)概念分层为数据库模式中属性的全序或偏序。

集合分组分层(set-grouping hierarchy)给定维度的属性值的离散化或分组。如年龄age属性离散化为young、mid、old三个子集,分组group by sex的男女子集。

数据立方体的实现:

使用数据仓库的模型是多维模型,目前经常的有:

星型模型:一个大而全,且无冗余的事实表(fact);以及不同分析维度上的维度表(dimension)。维度表围绕事实表,通过每个维度自身的dimension key(所有可能范围内的取值)关联。

雪花模型:星型模型的进一步细化,即将其中包含多个值的维度表进行规范化的(就是将维度表包含的某个值提取出来,作为新的dimension表),以便减少冗余。

这样把数据进一步分解到附加表中,易于维护,省空间(防止维度灾难),但查询时需要更多关联操作,降低时效性。

事实星座模型(fact constellation)or 星系模式(galaxy schema):多个fact tableshare all dimesioms(共享维度表)。

比如我的设计的data warehouse。Workbench

Cube定义

Dimension定义

一般的data warehouse 都是用fact constellation。

指标Index

度量measure

维度灾难(curse of dimensionality),当维度过多(特征空间非常复杂),那么维度之间的关联计算就变得非常多,而维度概念分层会加重灾难。反应在cube中,就是不同维度的计算就会产生巨大的数据,就是预计算cube中所有的方体(子cube),存储空间是爆炸似增长。N维会有2n个子cube,加上概念分层Li,则方体总数

预计算:1不物化(no materialization)2全物化(full materialization)3部分物化(partial materialization)

OLTP和OLAP

OLTP系统::执行联机事务和查询处理。一般超市进销存系统,功能:注册,记账,库存和销售记录等等,

OLAP系统:数据分析与决策服务,组织不同格式数据,满足不同用户需求。

区别:

面向性。OLTP面向顾客,就是操作员,如超市收银员,银行柜台人员。OLAP面向市场,用于数据分析,分析人员包括数据分析员,做出决策的业务经理,或者策略制定部分。

数据内容:OLTP当前数据。OLAP历史数据的汇总与聚集。

数据库设计:OLTP用ER模型和面向应用数据库。OLAP 用星型或雪花模型,面向主题数据库设计。

还有访问模式:操作事务与只读的分析计算的区别。

等等

多维数据模型:

数据立方体cube:

给定维度的每个子集产生一个cuboid(称为方体)。这样可以在不同粒度上的汇总级别或分组(group by),来显示数据,整体上方体的格成为cube。

最低层汇总的方体称为基本方体(basecuboid)。出现某一个维度上的汇总后,则为非基本方体。

汇总到最高层的数据称为顶点方体(apexcuboid),如0-d方体,that’s to say,所有维度汇总到一起只剩一个cuboid,不能再汇总了。

顶点方体是最高泛化的方体。基本方体是最低特殊化的方体。

粗细粒度是不同程度上的汇总,涉及操作:

上卷(roll up),供应商称之为上钻drillup,沿着维度的概念分层向上

下钻(drill down)沿着维度的概念分层向下,需找更细粒度的数据。

切片:固定某一维度的取值,抽取这一维度下的子集。

切块:由多个维度上选择多个取值,抽取其所映射的子立方体。

旋转rotate: 也叫pivot数轴变换,简单说,二维表中的行列转置。到三维以上复杂,不同数轴之间的位置变换。说的高大上叫数据的视图角度转变

概念分层:低层概念(如城市)映射到更高的层次概念(如国家)。从低到高叫泛化(generalize),从高到低叫特殊化(specialize)。

模式分层(schema hierarchy)概念分层为数据库模式中属性的全序或偏序。

集合分组分层(set-grouping hierarchy)给定维度的属性值的离散化或分组。如年龄age属性离散化为young、mid、old三个子集,分组group by sex的男女子集。

数据立方体的实现:

使用数据仓库的模型是多维模型,目前经常的有:

星型模型:一个大而全,且无冗余的事实表(fact);以及不同分析维度上的维度表(dimension)。维度表围绕事实表,通过每个维度自身的dimension key(所有可能范围内的取值)关联。

雪花模型:星型模型的进一步细化,即将其中包含多个值的维度表进行规范化的(就是将维度表包含的某个值提取出来,作为新的dimension表),以便减少冗余。

这样把数据进一步分解到附加表中,易于维护,省空间(防止维度灾难),但查询时需要更多关联操作,降低时效性。

事实星座模型(fact constellation)or 星系模式(galaxy schema):多个fact tableshare all dimesioms(共享维度表)。

比如我的设计的data warehouse。Workbench

Cube定义

Dimension定义

一般的data warehouse 都是用fact constellation。

指标Index

度量measure

维度灾难(curse of dimensionality),当维度过多(特征空间非常复杂),那么维度之间的关联计算就变得非常多,而维度概念分层会加重灾难。反应在cube中,就是不同维度的计算就会产生巨大的数据,就是预计算cube中所有的方体(子cube),存储空间是爆炸似增长。N维会有2n个子cube,加上概念分层Li,则方体总数

预计算:1不物化(no materialization)2全物化(full materialization)3部分物化(partial materialization)

Statement
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn
Python ORM 性能基准测试:比较不同 ORM 框架Python ORM 性能基准测试:比较不同 ORM 框架Mar 18, 2024 am 09:10 AM

对象关系映射(ORM)框架在python开发中扮演着至关重要的角色,它们通过在对象和关系数据库之间建立桥梁,简化了数据访问和管理。为了评估不同ORM框架的性能,本文将针对以下流行框架进行基准测试:sqlAlchemyPeeweeDjangoORMPonyORMTortoiseORM测试方法基准测试使用了一个包含100万条记录的SQLite数据库。测试对数据库执行了以下操作:插入:向表中插入10,000条新记录读取:读取表中的所有记录更新:更新表中所有记录的单个字段删除:删除表中的所有记录每个操作

Python ORM 在大数据项目中的应用Python ORM 在大数据项目中的应用Mar 18, 2024 am 09:19 AM

对象关系映射(ORM)是一种编程技术,允许开发人员使用对象编程语言来操作数据库,而无需直接编写sql查询。python中的ORM工具(例如SQLAlchemy、Peewee和DjangoORM)简化了大数据项目的数据库交互。优点代码简洁性:ORM消除了编写冗长的SQL查询的需要,这提高了代码简洁性和可读性。数据抽象:ORM提供了一个抽象层,将应用程序代码与数据库实现细节隔离开来,提高了灵活性。性能优化:ORM通常会使用缓存和批量操作来优化数据库查询,从而提高性能。可移植性:ORM允许开发人员在不

Yii框架简介:了解Yii的核心概念Yii框架简介:了解Yii的核心概念Jun 21, 2023 am 09:39 AM

Yii框架是一个高性能、高扩展性、高可维护性的PHP开发框架,在开发Web应用程序时具有很高的效率和可靠性。Yii框架的主要优点在于其独特的特性和开发方法,同时还集成了许多实用的工具和功能。Yii框架的核心概念MVC模式Yii采用了MVC(Model-View-Controller)模式,是一种将应用程序分为三个独立部分的模式,即业务逻辑处理模型、用户界面呈

深入了解常用的7种Java设计模式深入了解常用的7种Java设计模式Dec 23, 2023 pm 01:01 PM

了解Java设计模式:常用的7种设计模式简介,需要具体代码示例Java设计模式是一种解决软件设计问题的通用解决方案,它提供了一套被广泛接受的设计思想与行为准则。设计模式帮助我们更好地组织和规划代码结构,使得代码具有更好的可维护性、可读性和可扩展性。在本文中,我们将介绍Java中常用的7种设计模式,并提供相应的代码示例。单例模式(SingletonPatte

使用 Python ORM 实现高效的数据持久性使用 Python ORM 实现高效的数据持久性Mar 18, 2024 am 09:25 AM

对象关系映射(ORM)是一种技术,它允许在面向对象编程语言和关系数据库之间建立桥梁。使用pythonORM可以显著简化数据持久性操作,从而提高应用程序的开发效率和可维护性。优势使用PythonORM具有以下优势:减少样板代码:ORM自动生成sql查询,从而避免编写大量的样板代码。简化数据库交互:ORM提供了一个统一的接口,用于与数据库交互,简化了数据操作。提高安全性:ORM使用参数化查询,可以防止SQL注入等安全漏洞。促进数据一致性:ORM确保对象与数据库之间的同步,维护数据一致性。选择ORM有

用 Python Tkinter 为你的项目增添 GUI 魅力用 Python Tkinter 为你的项目增添 GUI 魅力Mar 24, 2024 am 09:46 AM

Tkinter是python中用于创建图形用户界面(GUI)的一个强大库。它以其简单性、跨平台兼容性和与Python生态系统的无缝集成而闻名。通过使用Tkinter,您可以为您的项目添加用户友好的界面,从而提高用户体验并简化与应用程序的交互。创建TkinterGUI应用程序要使用Tkinter创建GUI应用程序,请执行以下步骤:导入Tkinter库:importtkinterastk创建Tkinter主窗口:root=tk.Tk()配置主窗口:设置窗口标题、大小、位置等添加GUI元素:使用Tki

Python vs. Jython:谁是跨平台开发之王?Python vs. Jython:谁是跨平台开发之王?Mar 22, 2024 pm 12:21 PM

python和Jython都是流行的编程语言,但它们针对不同的用例进行了优化,并在跨平台开发方面具有独特的优势和劣势。Python优势:广泛的库和社区支持易于学习和使用,适合初学者可移植性强,可跨多个平台运行支持多种编程范式,包括面向对象、函数式和命令式编程劣势:性能较低,不适合处理密集型计算任务对内存消耗较高在某些平台上可能需要其他工具和配置Jython优势:完全与Python兼容,可以使用Python的所有库和工具运行在Java虚拟机(JVM)上,提供与Java生态系统的无缝集成性能优于Py

Python Pandas 数据处理利器,新手入门必读!Python Pandas 数据处理利器,新手入门必读!Mar 20, 2024 pm 06:21 PM

pandas是python中强大的数据处理库,专门用于处理结构化数据(如表格)。它提供了丰富的功能,使数据探索、清洗、转换和建模变得简单。对于数据分析和科学领域的初学者来说,掌握Pandas至关重要。数据结构Pandas使用两种主要数据结构:Series:一维数组,类似于NumPy数组,但包含标签(索引)。DataFrame:二维表,包含具有标签的列和小数。数据导入和导出导入数据:使用read_csv()、read_excel()等函数从CSV、Excel和其他文件导入数据。导出数据:使用to_

See all articles

Hot AI Tools

Undresser.AI Undress

Undresser.AI Undress

AI-powered app for creating realistic nude photos

AI Clothes Remover

AI Clothes Remover

Online AI tool for removing clothes from photos.

Undress AI Tool

Undress AI Tool

Undress images for free

Clothoff.io

Clothoff.io

AI clothes remover

AI Hentai Generator

AI Hentai Generator

Generate AI Hentai for free.

Hot Article

R.E.P.O. Energy Crystals Explained and What They Do (Yellow Crystal)
2 weeks agoBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Best Graphic Settings
2 weeks agoBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. How to Fix Audio if You Can't Hear Anyone
2 weeks agoBy尊渡假赌尊渡假赌尊渡假赌

Hot Tools

Dreamweaver Mac version

Dreamweaver Mac version

Visual web development tools

SublimeText3 Chinese version

SublimeText3 Chinese version

Chinese version, very easy to use

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Integrate Eclipse with SAP NetWeaver application server.

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser is a secure browser environment for taking online exams securely. This software turns any computer into a secure workstation. It controls access to any utility and prevents students from using unauthorized resources.

VSCode Windows 64-bit Download

VSCode Windows 64-bit Download

A free and powerful IDE editor launched by Microsoft