搜尋
首頁資料庫mysql教程Apache HBase 快照介绍之二:深入探索

本文由 ImportNew - 陈 晨 翻译自 Cloudera。如需转载本文,请先参见文章末尾处的转载要求。 在关于Apache HBase 快照系列的第一篇中,我们学到了如何使用新的快照特性,以及实现背后的一些理论支持。现在是时候再深入探索一些技术细节了。 表是什么? HBase

本文由 ImportNew - 陈 晨 翻译自 Cloudera。如需转载本文,请先参见文章末尾处的转载要求。

在关于Apache HBase快照系列的第一篇中,我们学到了如何使用新的快照特性,以及实现背后的一些理论支持。现在是时候再深入探索一些技术细节了。

表是什么?

HBase表包含一系列元数据信息和键值对集合。

表信息:一份描述“设置”的清单文件,如列族,压缩类型与编码,布隆(bloom)过滤器类型等。

域:表“分区”称之为域。每个域都通过定义起始键和终止键来负责管理一份连续的键值集合。

WALs/MemStore:在数据写入磁盘之前,put会先写到写前日志(Write Ahead Log – WAL)然后保存在内存中,直到内存压力触发写入磁盘。WAL为恢复那些因为异常没有写入磁盘的put操作提供了一个简单的方式。

HFiles:某些时候所有数据都写入了磁盘。HFile就是HBase存储键值对的文件格式,HFile是不变的。但是当合并或域删除时可以被删除掉。(注意:想了解更多HBase写入过程的内容可以看下HBase写入过程博文,对于HFiles更多的细节可以看下HBase I/O – HFiles 博文)

什么是快照?

快照就是一系列元数据信息集合,能够允许管理员将表恢复至生成快照时的状态。快照不是表的复制。最简单的方式就是把它想象成为了追踪元数据(表信息和域)和数据(HFiles, 内存存储, WALs)一系列操作的集合。在生成快照操作中没有执行任何复制数据的动作。

离线快照:讨论快照的最简单的场景就是当一张表被关闭了。关闭一张表意味着所有的数据都写入了磁盘,而且不允许任何读写操作。在这种情况下,生成快照仅仅就是获取表元数据并且与磁盘中的HFiles保持关联。主节点执行操作需要的时间,主要取决于HDFS的namenode提供文件列表需要的时间。

在线快照:在大部分情况下,表都是开启的,而且每个域服务器都不断的处理put和get请求。在这种情况下,主节点接收到快照请求并要求每个域服务器都为其负责的域生成一份快照。

主节点和域服务器之间的通信是通过Apache ZooKeeper的,使用了类似两阶段提交事务。主节点建立一个“准备快照”的znode。每个域服务器会处理请求,并且为指定的表在其负责范围内的域准备快照。一旦准备完成,就会在准备请求的znode下建立一个子节点,意味着“准备完成”。

一旦所有域服务器都回报了他们的状态,主节点就建立另一个znode表示“提交快照”;每个域服务器会完成快照并在加入节点前报告状态。一旦所有域服务器都回报完成,主节点会完成快照并标记操作完成。若某个域服务器报告失败,主节点会新建znode来广播放弃信息。

当域服务器继续处理新请求是,不同的用例情况下可能需要不同的一致性模型。例如有人可能对不包含内存中最新数据的不完全的快照感兴趣,而有的人希望锁定写操作来获得一份完全保证一致性的快照以及其他可能性。

因此在域服务器上生成快照的程序是可拔插的。现在唯一的实现是“Flush Snapshot”,就是在生成快照之前进行写入操作(flush)来保证列一致性。其他的使用不同的一致性策略的程序可能会在未来实现。

在线生成快照需要的时间取决于实施快照操作并且将成功状态回报给主节点最慢的域服务器。这样的操作差不多在数秒之内完成。

归档

就像我们之前看到的,HFiles是不可变的。这样使得我们避免了在快照或克隆操作中复制数据,但在合并过程中文件被删除或者被合并后的版本替代。在这样情况下,如果有快照或者克隆表指向其中某些文件,可以将他们转移到一个“归档”位置而不是删除。如果你删除了快照且该文件不存在其他的引用,则该文件会被删除。

克隆和恢复表

当快照被用于在用户或程序异常后恢复/还原表时,可以看做是一个备份方案,但实际上快照特性的用处远远超过简单的备份还原。当从快照中克隆表后,你可以写一个MapReduce job或者简单应用来有选择性的合并差异,或者其他你认为重要的内容写入产品环境。另外一个场景就是你能够测试结构变化或者更新数据,而不用为复制表等待数小时并且最后硬盘中也不会存在大量重复数据。

从快照中克隆表

当管理员执行克隆操作时,按快照中的表结构建立了新表并按快照域信息中的开始/结束键分割。一旦表元数据建立,能够像快照使用的方式一样而不用拷入数据。因为HFiles是不可变的只是对建立的源文件的引用,这样就避免了数据拷贝并允许克隆能够修改而不影响源表或镜像。克隆操作是由主节点执行的。

从快照中恢复表

恢复操作与克隆操作相似。你可以把它想象成时删除表之后再从快照中克隆出来。恢复操作会恢复快照中的老数据并删除快照中不存在的数据,表结构也会恢复到与快照相同。在底层,恢复操作时通过比较表状态与快照间不同来实现的,移除快照中不存在的文件并加上快照中有而当前表状态中没有的文件关联。同样的表结构也被修改至快照生成时刻的状态。恢复操作是由主节点执行并且表要处于关闭状态。

未来的改进

当前,快照实现了包括所有基础功能性需求。如我们所见,新的在线快照一致性策略能够提供更好的伸缩性、一致性及性能提高。更好的文件管理能够缩减HDFS NameNode的加载时间以及提高磁盘空间管理。接下来,测量数据、Web 界面 (Hue)以及东西会加入到目标列表。

结论

HBase快照添加了类似“过程协作”的新功能用于在线快照、写时备份、恢复和克隆。

快照基于机器拷贝数据和复制表之上提供了更快更好的选择来处理“备份”和“克隆”方案。所有的快照操作(快照、恢复、克隆)不执行数据复制,使得表的快照更快并且节省磁盘空间。

期望了解更多关于启动和使用快照信息,请访问HBase的操作管理文档。

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
解釋酸的特性(原子,一致性,隔離,耐用性)。解釋酸的特性(原子,一致性,隔離,耐用性)。Apr 16, 2025 am 12:20 AM

ACID屬性包括原子性、一致性、隔離性和持久性,是數據庫設計的基石。 1.原子性確保事務要么完全成功,要么完全失敗。 2.一致性保證數據庫在事務前後保持一致狀態。 3.隔離性確保事務之間互不干擾。 4.持久性確保事務提交後數據永久保存。

MySQL:數據庫管理系統與編程語言MySQL:數據庫管理系統與編程語言Apr 16, 2025 am 12:19 AM

MySQL既是數據庫管理系統(DBMS),也與編程語言緊密相關。 1)作為DBMS,MySQL用於存儲、組織和檢索數據,優化索引可提高查詢性能。 2)通過SQL與編程語言結合,嵌入在如Python中,使用ORM工具如SQLAlchemy可簡化操作。 3)性能優化包括索引、查詢、緩存、分庫分錶和事務管理。

mySQL:使用SQL命令管理數據mySQL:使用SQL命令管理數據Apr 16, 2025 am 12:19 AM

MySQL使用SQL命令管理數據。 1.基本命令包括SELECT、INSERT、UPDATE和DELETE。 2.高級用法涉及JOIN、子查詢和聚合函數。 3.常見錯誤有語法、邏輯和性能問題。 4.優化技巧包括使用索引、避免SELECT*和使用LIMIT。

MySQL的目的:有效存儲和管理數據MySQL的目的:有效存儲和管理數據Apr 16, 2025 am 12:16 AM

MySQL是一種高效的關係型數據庫管理系統,適用於存儲和管理數據。其優勢包括高性能查詢、靈活的事務處理和豐富的數據類型。實際應用中,MySQL常用於電商平台、社交網絡和內容管理系統,但需注意性能優化、數據安全和擴展性。

SQL和MySQL:了解關係SQL和MySQL:了解關係Apr 16, 2025 am 12:14 AM

SQL和MySQL的關係是標準語言與具體實現的關係。 1.SQL是用於管理和操作關係數據庫的標準語言,允許進行數據的增、刪、改、查。 2.MySQL是一個具體的數據庫管理系統,使用SQL作為其操作語言,並提供高效的數據存儲和管理。

說明InnoDB重做日誌和撤消日誌的作用。說明InnoDB重做日誌和撤消日誌的作用。Apr 15, 2025 am 12:16 AM

InnoDB使用redologs和undologs確保數據一致性和可靠性。 1.redologs記錄數據頁修改,確保崩潰恢復和事務持久性。 2.undologs記錄數據原始值,支持事務回滾和MVCC。

在解釋輸出(類型,鍵,行,額外)中要查找的關鍵指標是什麼?在解釋輸出(類型,鍵,行,額外)中要查找的關鍵指標是什麼?Apr 15, 2025 am 12:15 AM

EXPLAIN命令的關鍵指標包括type、key、rows和Extra。 1)type反映查詢的訪問類型,值越高效率越高,如const優於ALL。 2)key顯示使用的索引,NULL表示無索引。 3)rows預估掃描行數,影響查詢性能。 4)Extra提供額外信息,如Usingfilesort提示需要優化。

在解釋中使用臨時狀態以及如何避免它是什麼?在解釋中使用臨時狀態以及如何避免它是什麼?Apr 15, 2025 am 12:14 AM

Usingtemporary在MySQL查詢中表示需要創建臨時表,常見於使用DISTINCT、GROUPBY或非索引列的ORDERBY。可以通過優化索引和重寫查詢避免其出現,提升查詢性能。具體來說,Usingtemporary出現在EXPLAIN輸出中時,意味著MySQL需要創建臨時表來處理查詢。這通常發生在以下情況:1)使用DISTINCT或GROUPBY時進行去重或分組;2)ORDERBY包含非索引列時進行排序;3)使用複雜的子查詢或聯接操作。優化方法包括:1)為ORDERBY和GROUPB

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器