搜尋
首頁資料庫mysql教程Hadoop集群间的hbase数据迁移

Hadoop集群间的hbase数据迁移

Jun 07, 2016 pm 05:58 PM
hadoophbase使用數據日常遷移叢集

在日常的使用过程中,可能经常需要将一个集群中hbase的数据迁移到或者拷贝到另外一个集群中,这时候,可能会出很多问题 以下是我在处理的过程中的一些做法和处理方式。 前提,两个hbase的版本一直,否则可能出现不可预知的问题,造成数据迁移失败 当两个集群

在日常的使用过程中,可能经常需要将一个集群中hbase的数据迁移到或者拷贝到另外一个集群中,这时候,可能会出很多问题

以下是我在处理的过程中的一些做法和处理方式。

前提,两个hbase的版本一直,否则可能出现不可预知的问题,造成数据迁移失败

当两个集群不能通讯的时候,可以先将数据所在集群中hbase的数据文件拷贝到本地

具体做法如下:

在Hadoop目录下执行如下命令,拷贝到本地文件。

bin/Hadoop fs -copyToLocal /hbase/tab_keywordflow /home/test/xiaochenbak

然后你懂得,将文件拷贝到你需要的你需要迁移到的那个集群中,目录是你的表的目录,

如果这个集群中也有对应的表文件,那么删除掉,然后拷贝。

/bin/Hadoop fs -rmr /hbase/tab_keywordflow

/bin/Hadoop fs -copyFromLocal /home/other/xiaochenbak /hbase/tab_keywordflow

此时的/home/other/xiaochenbak为你要迁移到数据的集群。

重置该表在.META.表中的分区信息

bin/hbase org.jruby.Main /home/other/hbase/bin/add_table.rb /hbase/tab_keywordflow

/home/other/hbase/bin/add_table.rb为ruby脚本,可以执行,脚本内容如下:另存为add_table.rb即可


# Copyright 2009 The Apache Software Foundation 

# Licensed to the Apache Software Foundation (ASF) under one 
# or more contributor license agreements.  See the NOTICE file 
# distributed with this work for additional information 
# regarding copyright ownership.  The ASF licenses this file 
# to you under the Apache License, Version 2.0 (the 
# "License"); you may not use this file except in compliance 
# with the License.  You may obtain a copy of the License at 

#     http://www.apache.org/licenses/LICENSE-2.0  

# Unless required by applicable law or agreed to in writing, software 
# distributed under the License is distributed on an "AS IS" BASIS, 
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
# See the License for the specific language governing permissions and 
# limitations under the License. 

# Script adds a table back to a running hbase. 
# Currently only works on if table data is in place. 

# To see usage for this script, run: 

#  ${HBASE_HOME}/bin/hbase org.jruby.Main addtable.rb 

include Java 
import org.apache.Hadoop.hbase.util.Bytes 
import org.apache.Hadoop.hbase.HConstants 
import org.apache.Hadoop.hbase.regionserver.HRegion 
import org.apache.Hadoop.hbase.HRegionInfo 
import org.apache.Hadoop.hbase.client.HTable 
import org.apache.Hadoop.hbase.client.Delete 
import org.apache.Hadoop.hbase.client.Put 
import org.apache.Hadoop.hbase.client.Scan 
import org.apache.Hadoop.hbase.HTableDescriptor 
import org.apache.Hadoop.hbase.HBaseConfiguration 
import org.apache.Hadoop.hbase.util.FSUtils 
import org.apache.Hadoop.hbase.util.Writables 
import org.apache.Hadoop.fs.Path 
import org.apache.Hadoop.fs.FileSystem 
import org.apache.commons.logging.LogFactory 
 
# Name of this script 
NAME = "add_table" 
 
# Print usage for this script 
def usage 
  puts 'Usage: %s.rb TABLE_DIR [alternate_tablename]' % NAME 
  exit! 
end 
 
# Get configuration to use. 
c = HBaseConfiguration.new() 
 
# Set Hadoop filesystem configuration using the hbase.rootdir. 
# Otherwise, we'll always use localhost though the hbase.rootdir 
# might be pointing at hdfs location. 
c.set("fs.default.name", c.get(HConstants::HBASE_DIR)) 
fs = FileSystem.get(c) 
 
# Get a logger and a metautils instance. 
LOG = LogFactory.getLog(NAME) 
 
# Check arguments 
if ARGV.size 2 
  usage 
end 
 
# Get cmdline args. 
srcdir = fs.makeQualified(Path.new(java.lang.String.new(ARGV[0]))) 
 
if not fs.exists(srcdir) 
  raise IOError.new("src dir " + srcdir.toString() + " doesn't exist!") 
end 
 
# Get table name 
tableName = nil 
if ARGV.size > 1 
  tableName = ARGV[1] 
  raise IOError.new("Not supported yet") 
elsif 
  # If none provided use dirname 
  tableName = srcdir.getName() 
end 
HTableDescriptor.isLegalTableName(tableName.to_java_bytes) 
 
# Figure locations under hbase.rootdir 
# Move directories into place; be careful not to overwrite. 
rootdir = FSUtils.getRootDir(c) 
tableDir = fs.makeQualified(Path.new(rootdir, tableName)) 
 
# If a directory currently in place, move it aside. 
if srcdir.equals(tableDir) 
  LOG.info("Source directory is in place under hbase.rootdir: " + srcdir.toString()); 
elsif fs.exists(tableDir) 
  movedTableName = tableName + "." + java.lang.System.currentTimeMillis().to_s 
  movedTableDir = Path.new(rootdir, java.lang.String.new(movedTableName)) 
  LOG.warn("Moving " + tableDir.toString() + " aside as " + movedTableDir.toString()); 
  raise IOError.new("Failed move of " + tableDir.toString()) unless fs.rename(tableDir, movedTableDir) 
  LOG.info("Moving " + srcdir.toString() + " to " + tableDir.toString()); 
  raise IOError.new("Failed move of " + srcdir.toString()) unless fs.rename(srcdir, tableDir) 
end 
 
# Clean mentions of table from .META. 
# Scan the .META. and remove all lines that begin with tablename 
LOG.info("Deleting mention of " + tableName + " from .META.") 
metaTable = HTable.new(c, HConstants::META_TABLE_NAME) 
tableNameMetaPrefix = tableName + HConstants::META_ROW_DELIMITER.chr 
scan = Scan.new((tableNameMetaPrefix + HConstants::META_ROW_DELIMITER.chr).to_java_bytes) 
scanner = metaTable.getScanner(scan) 
# Use java.lang.String doing compares.  Ruby String is a bit odd. 
tableNameStr = java.lang.String.new(tableName) 
while (result = scanner.next()) 
  rowid = Bytes.toString(result.getRow()) 
  rowidStr = java.lang.String.new(rowid) 
  if not rowidStr.startsWith(tableNameMetaPrefix) 
    # Gone too far, break 
    break 
  end 
  LOG.info("Deleting row from catalog: " + rowid); 
  d = Delete.new(result.getRow()) 
  metaTable.delete(d) 
end 
scanner.close() 
 
# Now, walk the table and per region, add an entry 
LOG.info("Walking " + srcdir.toString() + " adding regions to catalog table") 
statuses = fs.listStatus(srcdir) 
for status in statuses 
  next unless status.isDir() 
  next if status.getPath().getName() == "compaction.dir" 
  regioninfofile =  Path.new(status.getPath(), HRegion::REGIONINFO_FILE) 
  unless fs.exists(regioninfofile) 
    LOG.warn("Missing .regioninfo: " + regioninfofile.toString()) 
    next 
  end 
  is = fs.open(regioninfofile) 
  hri = HRegionInfo.new() 
  hri.readFields(is) 
  is.close() 
  # TODO: Need to redo table descriptor with passed table name and then recalculate the region encoded names. 
  p = Put.new(hri.getRegionName()) 
  p.add(HConstants::CATALOG_FAMILY, HConstants::REGIONINFO_QUALIFIER, Writables.getBytes(hri)) 
  metaTable.put(p) 
  LOG.info("Added to catalog: " + hri.toString()) 
end 
好了,以上就是我的做法,如何集群键可以通信,那就更好办了,相信你懂得,scp
陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
MySQL:世界上最受歡迎的數據庫的簡介MySQL:世界上最受歡迎的數據庫的簡介Apr 12, 2025 am 12:18 AM

MySQL是一種開源的關係型數據庫管理系統,主要用於快速、可靠地存儲和檢索數據。其工作原理包括客戶端請求、查詢解析、執行查詢和返回結果。使用示例包括創建表、插入和查詢數據,以及高級功能如JOIN操作。常見錯誤涉及SQL語法、數據類型和權限問題,優化建議包括使用索引、優化查詢和分錶分區。

MySQL的重要性:數據存儲和管理MySQL的重要性:數據存儲和管理Apr 12, 2025 am 12:18 AM

MySQL是一個開源的關係型數據庫管理系統,適用於數據存儲、管理、查詢和安全。 1.它支持多種操作系統,廣泛應用於Web應用等領域。 2.通過客戶端-服務器架構和不同存儲引擎,MySQL高效處理數據。 3.基本用法包括創建數據庫和表,插入、查詢和更新數據。 4.高級用法涉及復雜查詢和存儲過程。 5.常見錯誤可通過EXPLAIN語句調試。 6.性能優化包括合理使用索引和優化查詢語句。

為什麼要使用mysql?利益和優勢為什麼要使用mysql?利益和優勢Apr 12, 2025 am 12:17 AM

選擇MySQL的原因是其性能、可靠性、易用性和社區支持。 1.MySQL提供高效的數據存儲和檢索功能,支持多種數據類型和高級查詢操作。 2.採用客戶端-服務器架構和多種存儲引擎,支持事務和查詢優化。 3.易於使用,支持多種操作系統和編程語言。 4.擁有強大的社區支持,提供豐富的資源和解決方案。

描述InnoDB鎖定機制(共享鎖,獨家鎖,意向鎖,記錄鎖,間隙鎖,下一鍵鎖)。描述InnoDB鎖定機制(共享鎖,獨家鎖,意向鎖,記錄鎖,間隙鎖,下一鍵鎖)。Apr 12, 2025 am 12:16 AM

InnoDB的鎖機制包括共享鎖、排他鎖、意向鎖、記錄鎖、間隙鎖和下一個鍵鎖。 1.共享鎖允許事務讀取數據而不阻止其他事務讀取。 2.排他鎖阻止其他事務讀取和修改數據。 3.意向鎖優化鎖效率。 4.記錄鎖鎖定索引記錄。 5.間隙鎖鎖定索引記錄間隙。 6.下一個鍵鎖是記錄鎖和間隙鎖的組合,確保數據一致性。

MySQL查詢性能差的常見原因是什麼?MySQL查詢性能差的常見原因是什麼?Apr 12, 2025 am 12:11 AM

MySQL查询性能不佳的原因主要包括没有使用索引、查询优化器选择错误的执行计划、表设计不合理、数据量过大和锁竞争。1.没有索引导致查询缓慢,添加索引后可显著提升性能。2.使用EXPLAIN命令可以分析查询计划,找出优化器错误。3.重构表结构和优化JOIN条件可改善表设计问题。4.数据量大时,采用分区和分表策略。5.高并发环境下,优化事务和锁策略可减少锁竞争。

您什麼時候應該使用複合索引與多個單列索引?您什麼時候應該使用複合索引與多個單列索引?Apr 11, 2025 am 12:06 AM

在數據庫優化中,應根據查詢需求選擇索引策略:1.當查詢涉及多個列且條件順序固定時,使用複合索引;2.當查詢涉及多個列但條件順序不固定時,使用多個單列索引。複合索引適用於優化多列查詢,單列索引則適合單列查詢。

如何識別和優化MySQL中的慢速查詢? (慢查詢日誌,performance_schema)如何識別和優化MySQL中的慢速查詢? (慢查詢日誌,performance_schema)Apr 10, 2025 am 09:36 AM

要優化MySQL慢查詢,需使用slowquerylog和performance_schema:1.啟用slowquerylog並設置閾值,記錄慢查詢;2.利用performance_schema分析查詢執行細節,找出性能瓶頸並優化。

MySQL和SQL:開發人員的基本技能MySQL和SQL:開發人員的基本技能Apr 10, 2025 am 09:30 AM

MySQL和SQL是開發者必備技能。 1.MySQL是開源的關係型數據庫管理系統,SQL是用於管理和操作數據庫的標準語言。 2.MySQL通過高效的數據存儲和檢索功能支持多種存儲引擎,SQL通過簡單語句完成複雜數據操作。 3.使用示例包括基本查詢和高級查詢,如按條件過濾和排序。 4.常見錯誤包括語法錯誤和性能問題,可通過檢查SQL語句和使用EXPLAIN命令優化。 5.性能優化技巧包括使用索引、避免全表掃描、優化JOIN操作和提升代碼可讀性。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。