Hive2MySQL初步架构_MySQL-mysql教程-PHP中文網

首頁

資料庫

mysql教程

Hive2MySQL初步架构_MySQL

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 01, 2016 pm 01:07 PM

系统简介

本系统负责将Hive处理后的数据导出到MySQL服务器上，采用 主/从 架构。zeus2将待导出的数据信息放到zookeeper上，Zookeeper将该信息发送给master。master通过JobWatcher接收待处理的表信息，将这些信息转换为任务，并分发给client处理。当client处理完成时，会更新MySQL上数据处理表，表示该部分任务已经处理完成

模块简介

master

简介
为服务，会一直运行。包含接收zookeeper上传来的待导出数据的元信息、任务导出、任务超时处理、任务执行完成后的元数据更新、告警等功能
流程
1. 启动master服务
2. 通过JobWatcher线程获取待处理的任务，并更新到队列MasterContext.finishedTZ中
3. MasterContext中加入一个线程，扫描队列MasterContext.finishedTZ，如果有任务，则开始解析任务并进行任务分发
4. 任务分发的时候，将分发任务加入到executor，执行完成的时候，得到返回码，并根据返回码，进行相应的处理
5. MasterContext中加入一个线程，用于监控超时的client，如果超时，则将该client加入到超时列表中，以后不进行分发
关键点
1. MySQL节点的选择
- 需求
  为了后续计算的方便，需要将能存储在一个MySQL服务器上的数据全部导出到一个节点上，例如上个月站点 A 导出到 MySQL1 上，这个月，还得将站点 A 的数据导出到节点 MySQL1 上。
- 解决方案
  导出时，为了保证每次数据都导出到一个节点上去，需要维持一张site和host间对应的关系表。而部分站点的数据非常大，会超过MySQL服务器的单表阈值，这样部分站点的数据需要分发到不同的节点上去。site和节点之间的关系不是一一对应的。而大站点只是用户中的一部分，还存在一些小站点，一个MySQL服务器可能存放数个站点的数据。为了应对这些挑战，我们将站点分为三种SITE_LEVEL：SMALL_SITE、BIG_SITE、HUG_SITE，并分别采用不同的导出策略。
  SMALL_SITE 网站的数据量较小，一个站点只存放在一个MySQL服务器上去。所有的数据都会导出到一台MYSQL服务器上去。当数据超过MYSQL服务器单表限制的时候，会将数据导出到负载最小的MySQL服务器上去。某site很长时间以来一直使用我们的服务器时，可能会出现这种情况。
  BIG_SITE 导出的策略和SMALL_SITE一样，但是获取MySQL服务器的方法和SMALL_SITE不一样，BIG_SITE按照轮询的方式将HIVE上的数据导出到MYSQL中去，即今天的数据导出到 MYSQL1 上，明天的数据可能导出到MySQL2上。而SMALL_SITE的数据均导出到一台MYSQL服务器上。
  HUG_SITE 将站点每天的访问信息分发到不同的MYSQL服务器上去
注解
1. HDFS路径
  /user/hive/warehouse/ptmind_data.db/${tableName}_${tableType}/sitetz=${timezone}/partdt=${date}/partsid=${sid}
  如 /user/hive/warehouse/ptmind_data.db/sum_page_visits_stats_olap_d/sitetz=E0800/partdt=2014-06-02/partsid=56fbce4e
2. tableType
  明细表的类型为x,其他表暂时只支持天d
```
private String getTabType(String tableName) {if (tableName.equals(Constant.TB_1)) { return x;}else { return d;}}
```

client

简介
1. 部署在MySQL服务器上
2. 执行HDFS2MySQL的导出任务
流程
1. 通过clientBootstrap监控消息
2. 当监控到任务时，执行HDFS2MySQL的导出任务
  2.1 通过shell脚本，从HDFS上下载数据
  2.2 将元数据更新到MySQL服务器中
  2.3 删除本地文件
  2.4 根据表中插入行的数目判断数据是否导出成功
  2.5 将执行情况返回给master
3. 定时向master发送心跳信息
注解

存储的本地路径： /tmp/ptbalancer/data/${tableName}_${tableType}_${date}_${当前时间戳}

节点间通信

中间件 netty

master ServerBootstrap

client ClientBootstrap

传输数据 PB

相比XML，PB有更好的传输效率、压缩率更高、解析速度更快

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

您什麼時候應該使用複合索引與多個單列索引？Apr 11, 2025 am 12:06 AM

在數據庫優化中，應根據查詢需求選擇索引策略：1.當查詢涉及多個列且條件順序固定時，使用複合索引；2.當查詢涉及多個列但條件順序不固定時，使用多個單列索引。複合索引適用於優化多列查詢，單列索引則適合單列查詢。

如何識別和優化MySQL中的慢速查詢？（慢查詢日誌，performance_schema）Apr 10, 2025 am 09:36 AM

要優化MySQL慢查詢，需使用slowquerylog和performance_schema：1.啟用slowquerylog並設置閾值，記錄慢查詢；2.利用performance_schema分析查詢執行細節，找出性能瓶頸並優化。

MySQL和SQL：開發人員的基本技能Apr 10, 2025 am 09:30 AM

MySQL和SQL是開發者必備技能。 1.MySQL是開源的關係型數據庫管理系統，SQL是用於管理和操作數據庫的標準語言。 2.MySQL通過高效的數據存儲和檢索功能支持多種存儲引擎，SQL通過簡單語句完成複雜數據操作。 3.使用示例包括基本查詢和高級查詢，如按條件過濾和排序。 4.常見錯誤包括語法錯誤和性能問題，可通過檢查SQL語句和使用EXPLAIN命令優化。 5.性能優化技巧包括使用索引、避免全表掃描、優化JOIN操作和提升代碼可讀性。

描述MySQL異步主奴隸複製過程。Apr 10, 2025 am 09:30 AM

MySQL異步主從復制通過binlog實現數據同步，提升讀性能和高可用性。 1)主服務器記錄變更到binlog；2)從服務器通過I/O線程讀取binlog；3)從服務器的SQL線程應用binlog同步數據。

mysql：簡單的概念，用於輕鬆學習Apr 10, 2025 am 09:29 AM

MySQL是一個開源的關係型數據庫管理系統。 1）創建數據庫和表：使用CREATEDATABASE和CREATETABLE命令。 2）基本操作：INSERT、UPDATE、DELETE和SELECT。 3）高級操作：JOIN、子查詢和事務處理。 4）調試技巧：檢查語法、數據類型和權限。 5）優化建議：使用索引、避免SELECT*和使用事務。

MySQL：數據庫的用戶友好介紹Apr 10, 2025 am 09:27 AM

MySQL的安裝和基本操作包括：1.下載並安裝MySQL，設置根用戶密碼；2.使用SQL命令創建數據庫和表，如CREATEDATABASE和CREATETABLE；3.執行CRUD操作，使用INSERT,SELECT,UPDATE,DELETE命令；4.創建索引和存儲過程以優化性能和實現複雜邏輯。通過這些步驟，你可以從零開始構建和管理MySQL數據庫。

InnoDB緩衝池如何工作，為什麼對性能至關重要？Apr 09, 2025 am 12:12 AM

InnoDBBufferPool通過將數據和索引頁加載到內存中來提升MySQL數據庫的性能。 1)數據頁加載到BufferPool中，減少磁盤I/O。 2)臟頁被標記並定期刷新到磁盤。 3)LRU算法管理數據頁淘汰。 4)預讀機制提前加載可能需要的數據頁。

MySQL：初學者的數據管理易用性Apr 09, 2025 am 12:07 AM

MySQL適合初學者使用，因為它安裝簡單、功能強大且易於管理數據。 1.安裝和配置簡單，適用於多種操作系統。 2.支持基本操作如創建數據庫和表、插入、查詢、更新和刪除數據。 3.提供高級功能如JOIN操作和子查詢。 4.可以通過索引、查詢優化和分錶分區來提升性能。 5.支持備份、恢復和安全措施，確保數據的安全和一致性。

See all articles