Greenplum(GPDB)开源啦!~
Greenplum 数据库(GPDB)是一个无共享的大规模并行处理数据库,主要用来处理大规模的数据分析任务,包括数据仓库、商务智能(OLAP)和数据挖掘等。GPDB专为海量数据分析而生,使用最先进的基于成本的查询优化器,是目前最为先进的开源数据库之一,能对PB级数据进行快速高效的查询、分析。
基于 PostgresQL 的商业版本数据库GreenPlum正式开源,其源代码现存放在GitHub: https://github.com/greenplum-db/gpdb,广大数据库爱好者可以更方便地参考一些SQL高级查询和分析功能的实现方式了。
Greenplum 数据库服务器软件是一个高级全功能的开源数据仓库管理软件。它提供对PB级数据的强大和高效的分析功能。特别是在大数据分析这一块,Greenplum数据库配备了世界上最先进的基于计算成本的查询优化器,以实现对大数据较高查询和分析性能。
Greenplum开源项目现使用Apache 2的版权协议。在此Greenplum公司也对社区贡献者和其他爱好者对其产品所作出的贡献表示感谢。对Greenplus的社区来说,任何一种形式的贡献对产品都是很有意义的,Greenplum也感谢和鼓励各种形式的贡献。
“开源大规模并行数据仓库”
有关Greenplum Database介绍
- Greenplum基于PostgreSQL 开发,同时增加了很多重要的有关数据仓库操作的创新开发:
- 大规模并行处理架构:Greenplum的数据库对所有数据和查询都自动提供了并行化处理的能力;
- PB级负载处理能力:通过使用MPP技术,在高负载下可保持高性能,每机架每小时可处理高达10T的数据。
- 创新的查询优化器:Greenplum是在行业内第一个对大数据负载使用基于成本优先原理来设计查询优化器,可以实现在交互模式或是批量处理模式下,对PB级大数据不降低查询性能和数据处理吞吐量的前提下进行分析处理。
- 多态的数据存储和执行: 表或分区的存储、执行以及压缩设置等都可以灵活地根据存取方式进行配置。在对行级或是列级存储或是处理时,用户可以根据自己需要进行选择。
- 高级机器学习功能: 引入Apache MADLib 库后,通过用户定制的功能,在Greenplum数据库中扩充了内部分析功能。
相关链接:
1.Greenplum的源码和文档以及相关信息:http://greenplum.org/
2.Greenplum的源码:https://github.com/greenplum-db
3.无私贡献的Pivotal公司的网址:https://pivotal.io/big-data/pivotal-greenplum