MySQL 튜토리얼

众核上的数据仓库并行优化

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 03:23 PM

창고최적화평행한데이터하드웨어

近几年众核硬件逐渐被应用到数据仓库产品当中。目前主要的众核硬件包括以Intel SCC为代表的众核CPU、以Intel志强融核系列为代表的众核协处理器、以NVIDIA和AMD为代表的众核GPU。本文第一章介绍目前的主要的众核硬件及其特性，并从性价比和通用性方面对众核硬

近几年众核硬件逐渐被应用到数据仓库产品当中。目前主要的众核硬件包括以Intel SCC为代表的众核CPU、以Intel志强融核系列为代表的众核协处理器、以NVIDIA和AMD为代表的众核GPU。本文第一章介绍目前的主要的众核硬件及其特性，并从性价比和通用性方面对众核硬件进行比较；第二章介绍目前数据仓库中典型操作符在众核硬件上的优化技术。

1. 主要众核硬件

1.1. 多核CPU

多核的CPU虽然不是严格意义上的众核，但是在目前的很多研究中都将多核CPU视为和众核具相似的硬件而进行比较研究。多核CPU目前通常认为是8核及以下的通用CPU，每个核都有独立的L2和L1 Cache，多个核之间需要通过共享的内存或者L3 Cache才能交换数据。但核心数量并不是多核与众核的严格分界线，Intel目前核数最多CPU可以达到10个核。多核与众核的主要区别在于通用性和体系结构方面。

1.2. 众核CPU

众核的CPU目前并不常见，在市场上没有销售。以Intel SCC为代表的众核CPU只提供给合作的高校和科研院所作为研究用途。在近几年的论文中常可以看见SCC的身影。
Intel SCC中集成了48个对等的核，即每个核的功能和性能都是一样的，且每个核都有专属的L2 Cache。每两个核集成在一个tile中，共24个tile组成一个4*6的矩阵，之间通过CPU内部的告诉总线连接。每个tile中的两个核共享一部分(16KB)L1 Cache，这部分共享的L1 Cache成为MPB(Massage Passing Buffer)。所有tile中的MPB又可以被任意一个核访问，从而构成了一个384KB L1 Cache。
SCC中的每个核具有1GHz的主频和较强的逻辑计算能力，支持的指令集和普通的CPU类似。从而在增加核数的同时保证了通用性。此外，特殊的Cache设计使得可以针对具体的计算任务做出优化。

1.3. 众核协处理器

协处理器通过高速总线和CPU连接或者PCI-E借口连接到北桥上，是辅助CPU完成特定计算任务的计算器件。ARM架构的微处理器可以支持多大数十个协处理器，在嵌入式终端和智能设备中应用非常广泛。在通用计算平台上，Intel也推出了志强融核系列的协处理产品。
至强融核协处理器其实是一款搭载众核处理器、显存(GDDR5)、PCI-E16X接口的外设，通过PCI-E插槽接入主板，通过北桥和CPU、主存连接。
目前的志强融合协处理器最多继承61个核，其中一个核是处理PCI-E数据传输的，其他60个核是对等的计算单元。支持的板载内存的类型为DDR5，具有300+GB/s的访存带宽，最大可以支持16GB的板载内存。较GPU而言，协处理器支持的板载访存带宽相近，但支持的最大内存大出1-2倍，同时协处理器的核数相对较少、但逻辑计算能力更强、通用性更好。

1.4. 众核GPU

众核GPU是目前最为常见的众核硬件。主要的GPU厂商NVIDA和AMD都提供了众核的GPU产品。其中NVIDA实现的CUDA技术应用已经非常广泛。在架构上GPU和协处理器有相似之处。但众核GPU中的核心计算能力较强、逻辑能力很差，因此GPU的专用性更强，通用性更差。此外，GPU中的核心通常被分为若干个组，每个组中有几十个核心，这些核心可以同时执行同一条指令、处理不同的数据，即SIMP。

1.5. 众核硬件比较

在通用性方面
1、多核CPU:通用，直接通过数据总线访问系统内存，带宽20-30GB/s；
2、众核 CPU:通用性稍差，架构类似GPU和协处理器，但可以直接访问系统主存，目前还没推广
3、众核协处理器：和GPU类似，单核的计算能力和逻辑运算能力更强，通用性更好一些。
4、众核GPU: 浮点计算能力强，逻辑运算能力差，显存几GB，带宽200GB/s，但需要通过PCI-E总线从主存取数据(PCI-E 16x :4GB/s)，通用性差
能耗、性价比的比较
GPGPU的性价比最高、能耗最低，但软件开发成本高，在部分算法中性能并不突出 Many-core CPU总体好于multi-core CPU Multi-core CPU在某些复杂计算中表现突出。

总结下来，除了通用的多核CPU以外，many-core并不是共享所有的主存和cache的，无论CPU还是GPU都是NUMA（Non Uniform Memory Access Architecture，非统一内存访问架构）的架构。算法要访问数据。要提高并行度，就要提高数据访问的局部性 GPU和协处理器访问系统内存的带宽会比访问本地内存地带宽低50倍以上。

2. 众核上数据仓库优化技术

2.1. 缓存的优化

众核处理器通常在缓存方面都有着和通用的多核CPU不同的设计，比如SCC就支持L1 Cache的跨核访问。在数据仓库算法中，表扫面算法由于数据局部性不好，数据如果经过多级缓存进入核中处理势必会影响效率，因此优化时可以针对表扫描算法，将数据直接加载到MPB中，进而进入核中做谓词过滤。

2.2. 连接算法的优化

数据仓库中常用的连接算法包括sort-merge连接和hash连接。
Sort-merge连接由于排序和归并的过程中，多个线程（核）并不需要共享数据，因此很适合在众核硬件上实现。但是sort-merge本身有很多的局限性，比如数据仓库中的连接通常在维表和事实表之间进行，而事实表是非常大的，sort-merge要求事实表实现在连接属性上排序，排序的代价是非常大的。
更为通用的hash连接由于在hash划分数据和连接时，多个线程（核）需要访问共享的哈希表和哈希桶，如果不做优化，在众核上是不可能有明显的性能提升的。因此出现了一些优化的技术。
常见的优化技术是基于Bucket的，即先将数据划分为不相关的Bucket再做链接。那么算法就分为分桶和连接两个部分。
在分桶阶段，为了利用多核达到性能的提升，也要保证多个核心不能有共享的数据，常用的算法有两种：
1、类似quickSort的分桶算法
Step1: 将array中hash值末位为0和为1的元素分开
Step2: 对分开的两个子array分别按照hash值末两位的值分开，依次递归，直到子array中元素个数小于某个阈值
2、两阶段分桶算法

Hash桶的个数是固定的，第一阶段，各个core将数据表的一段hash到自己的桶里。第二阶段，各个core将某一列上的桶合并。如图2.1所示。

图2.1. 两阶段分桶算法示意图
第一种算法的复杂度较高一些(n*log n)，后一种算法虽然是线性的时间复杂度，但是要求分桶的个数预先固定，在数据倾斜的情况下就会导致分桶的不均衡。
分桶之后的连接算法可以采用基于位图的连接算法。如图2.2所示，第一阶段是分桶，第二阶段是在左表的一个分桶上计算出一个位图，其实就是一个布隆过滤器，第三阶段基于左表的位图来过滤右表的分桶，避免了不必要的连接操作，也就避免的大量的内存访问。

图2.2. 基于分桶的连接算法
此外，连接算法的优化方面，由于数据仓库中维表很小，可以在维表上做完谓词过滤、得到一个布尔向量，将布尔向量读入到各个核的缓冲区中，和事实表做连接。
还有一种称为Invisible Join 的连接优化技术，是一种查询重写技术。由于维表比较小，当维表和事实表连接时，将连接条件转换成事实表上的谓词。如：事实表的一个外键连接到维表的一个主键上。如果维表的主键上的值在一个连续范围内，可以将其重写成事实表外键上的一个between谓词，从而避免了反复对维表的随机访问。

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

InnoDB 버퍼 풀과 성능의 중요성을 설명하십시오.Apr 19, 2025 am 12:24 AM

innodbbufferpool은 데이터와 인덱싱 페이지를 캐싱하여 디스크 I/O를 줄여 데이터베이스 성능을 향상시킵니다. 작업 원칙에는 다음이 포함됩니다. 1. 데이터 읽기 : BufferPool의 데이터 읽기; 2. 데이터 작성 : 데이터 수정 후 BufferPool에 쓰고 정기적으로 디스크로 새로 고치십시오. 3. 캐시 관리 : LRU 알고리즘을 사용하여 캐시 페이지를 관리합니다. 4. 읽기 메커니즘 : 인접한 데이터 페이지를 미리로드합니다. Bufferpool을 크기를 조정하고 여러 인스턴스를 사용하여 데이터베이스 성능을 최적화 할 수 있습니다.

MySQL 대 기타 프로그래밍 언어 : 비교Apr 19, 2025 am 12:22 AM

다른 프로그래밍 언어와 비교할 때 MySQL은 주로 데이터를 저장하고 관리하는 데 사용되는 반면 Python, Java 및 C와 같은 다른 언어는 논리적 처리 및 응용 프로그램 개발에 사용됩니다. MySQL은 데이터 관리 요구에 적합한 고성능, 확장 성 및 크로스 플랫폼 지원으로 유명하며 다른 언어는 데이터 분석, 엔터프라이즈 애플리케이션 및 시스템 프로그래밍과 같은 해당 분야에서 이점이 있습니다.

MySQL 학습 : 새로운 사용자를위한 단계별 안내서Apr 19, 2025 am 12:19 AM

MySQL은 데이터 저장, 관리 및 분석에 적합한 강력한 오픈 소스 데이터베이스 관리 시스템이기 때문에 학습 할 가치가 있습니다. 1) MySQL은 SQL을 사용하여 데이터를 작동하고 구조화 된 데이터 관리에 적합한 관계형 데이터베이스입니다. 2) SQL 언어는 MySQL과 상호 작용하는 열쇠이며 CRUD 작업을 지원합니다. 3) MySQL의 작동 원리에는 클라이언트/서버 아키텍처, 스토리지 엔진 및 쿼리 최적화가 포함됩니다. 4) 기본 사용에는 데이터베이스 및 테이블 작성이 포함되며 고급 사용량은 Join을 사용하여 테이블을 결합하는 것과 관련이 있습니다. 5) 일반적인 오류에는 구문 오류 및 권한 문제가 포함되며 디버깅 기술에는 구문 확인 및 설명 명령 사용이 포함됩니다. 6) 성능 최적화에는 인덱스 사용, SQL 문의 최적화 및 데이터베이스의 정기 유지 보수가 포함됩니다.

MySQL : 초보자가 마스터하는 필수 기술Apr 18, 2025 am 12:24 AM

MySQL은 초보자가 데이터베이스 기술을 배우는 데 적합합니다. 1. MySQL 서버 및 클라이언트 도구를 설치하십시오. 2. SELECT와 같은 기본 SQL 쿼리를 이해하십시오. 3. 마스터 데이터 작업 : 데이터를 만들고, 삽입, 업데이트 및 삭제합니다. 4. 고급 기술 배우기 : 하위 쿼리 및 창 함수. 5. 디버깅 및 최적화 : 구문 확인, 인덱스 사용, 선택*을 피하고 제한을 사용하십시오.

MySQL : 구조화 된 데이터 및 관계형 데이터베이스Apr 18, 2025 am 12:22 AM

MySQL은 테이블 구조 및 SQL 쿼리를 통해 구조화 된 데이터를 효율적으로 관리하고 외래 키를 통해 테이블 간 관계를 구현합니다. 1. 테이블을 만들 때 데이터 형식을 정의하고 입력하십시오. 2. 외래 키를 사용하여 테이블 간의 관계를 설정하십시오. 3. 인덱싱 및 쿼리 최적화를 통해 성능을 향상시킵니다. 4. 데이터 보안 및 성능 최적화를 보장하기 위해 데이터베이스를 정기적으로 백업 및 모니터링합니다.

MySQL : 주요 기능 및 기능이 설명되었습니다Apr 18, 2025 am 12:17 AM

MySQL은 웹 개발에 널리 사용되는 오픈 소스 관계형 데이터베이스 관리 시스템입니다. 주요 기능에는 다음이 포함됩니다. 1. 다른 시나리오에 적합한 InnoDB 및 MyISAM과 같은 여러 스토리지 엔진을 지원합니다. 2.로드 밸런싱 및 데이터 백업을 용이하게하기 위해 마스터 슬레이브 복제 기능을 제공합니다. 3. 쿼리 최적화 및 색인 사용을 통해 쿼리 효율성을 향상시킵니다.

SQL의 목적 : MySQL 데이터베이스와 상호 작용합니다Apr 18, 2025 am 12:12 AM

SQL은 MySQL 데이터베이스와 상호 작용하여 데이터 첨가, 삭제, 수정, 검사 및 데이터베이스 설계를 실현하는 데 사용됩니다. 1) SQL은 Select, Insert, Update, Delete 문을 통해 데이터 작업을 수행합니다. 2) 데이터베이스 설계 및 관리에 대한 생성, 변경, 삭제 문을 사용하십시오. 3) 복잡한 쿼리 및 데이터 분석은 SQL을 통해 구현되어 비즈니스 의사 결정 효율성을 향상시킵니다.

초보자를위한 MySQL : 데이터베이스 관리를 시작합니다Apr 18, 2025 am 12:10 AM

MySQL의 기본 작업에는 데이터베이스, 테이블 작성 및 SQL을 사용하여 데이터에서 CRUD 작업을 수행하는 것이 포함됩니다. 1. 데이터베이스 생성 : createAbasemy_first_db; 2. 테이블 만들기 : CreateTableBooks (idintauto_incrementprimarykey, titlevarchar (100) notnull, authorvarchar (100) notnull, published_yearint); 3. 데이터 삽입 : InsertIntobooks (Title, Author, Published_year) VA

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는