元資料的管理目前常用的幾種解決方案-頭條-PHP中文網

首頁

頭條

元資料的管理目前常用的幾種解決方案

Mar 12, 2018 am 09:16 AM

元數據管理解決方案

元數據定義為：描述數據的數據，對數據及資訊資源的描述性資訊。

元資料（Metadata）是描述其它資料的資料（data about other data），或者說是用於提供某種資源的有關資訊的結構資料（structured data）。元資料是描述資訊資源或資料等物件的數據，其使用目的在於：識別資源；評估資源；追蹤資源在使用過程中的變化；實現簡單且有效率地管理大量網路化資料；實現資訊資源的有效發現、尋找、一體化組織和使用資源的有效管理。

對於元資料的管理目前有幾種常用的解決方案：中心節點管理元數據，分散式管理元數據，無元資料設計；本文談談三種方案的特點:

元資料的管理目前常用的幾種解決方案

1、中心節點管理元資料

在設計分散式(儲存)系統時，使用中心節點是非常簡潔、清晰地一種方案，中心節點通常兼具元資料儲存與查詢、叢集節點狀態管理、決策與任務下發等功能；

優點：

A.由於其元資料集中式管理的特點，可以方便的處理群集維運管理的統計分析類需求；

B. 中心節點記錄了用戶資料的狀態資訊(即元資料)，在擴容時，可以選擇不做rebalance操作(rebalance引起的數據遷移可能帶來巨大的效能開銷)，且仍能正常尋址；

缺點及解決方案：

a.單點故障是設計分散式系統最忌諱的問題之一，中心節點簡潔的設計也帶來了這個問題，如何實現HA呢？；解決方案：(1)使用主備模型，主備之間使用同步或非同步的方式進行增量或全量的資料同步(如TFS,mfs，HDFS2.0等)，或主備之間使用遠端共享儲存(如HDFS2.0，遠端儲存需要高可用)；

b.存在效能與容量擴充上限，集中式中心節點本身硬體設施存在擴充(scale up)上限及查詢式尋址方式，導致此問題；即使client緩存元資料或使用快取集群，也不能在根本上消除上限，在某些場景下(如海量小檔案)，此問題仍然存在；解決方案：(1)優化升級硬體，如使用SSD，大記憶體等機器；(2)當面臨此問題時，考慮使用分散式管理元資料方案。

2、分散式管理元資料

和中心節點的方案相似，只是將元資料分片並使用分散式節點管理存儲，在保有中心節點方案優點的同時，解決了效能和容量擴展上限的問題，同時，多個節點同時提供元資料查詢服務，系統效能得到提升；

#缺點

此類系統較為少見，系統本身結構複雜，實作也有一定難度;

a.系統包含兩種相對獨立的分散式節點：元資料節點，資料節點，它們都是帶狀態節點，每種節點組成的分散式模組都要面對分佈式CAP原則的取捨，都要做到可擴展，尤其是元資料對一致性有更高要求；

b.元資料節點需要共同維護資料節點的狀態，並在狀態變更時作出一致性的決策；這些都對系統的設計和實現構成了很大挑戰；

c.另外，大量元資料所需的儲存設備也是一筆不可忽略的成本開銷；

上面兩種方案有著共同想法：記錄並維護資料的狀態(即元資料)，資料尋址時先向元資料伺服器查詢，再存取實際資料；

3、無元資料設計

主要以ceph為例，有別於上述二者的思想，此類系統的主要思想：使用演算法計算尋址，尋址演算法的輸入參數之一為集群狀態(如資料節點分佈拓撲，權重，進程狀態等)的某種形式描述，此類常見演算法有consistent hashing，Ceph RADOS系統的CRUSH演算法，這類演算法通常不直接管理使用者數據，而是引入中間一層邏輯分片結構(如consistent hashing的環片段，ceph的placement group)，其粒度更大，其數量有限且相對固定，用戶訪問的數據隸屬於其中唯一一個分片中，系統通過管理維護這些分片進而管理維護使用者資料；此類系統有的也有中心配置管理節點(如ceph rados的monitor)，只提供叢集和分片等重要狀態的管理維護，不提供元資料的儲存查詢；

優點：

A.如前所述，系統只需管理維護邏輯分片與集群狀態等信息，不存儲管理用戶數據的元數據，系統的可擴展性大大增強，這在大量元數據場景時尤為明顯；

B.尋址演算法所需的參數資料量小且相對固定，client可以透過快取的方式，達到若干client並行尋址的目的，避免了尋址性能瓶頸；

缺點分析：

a.叢集擴容時(甚至權重改變時)，需要做rebalance，尤其是資料規模很大(PB級以上)的集群，由此帶來的大量資料遷移使叢集一直處於高負載的狀態，進而使得正常業務請求的延時、iops等效能指標下降；但有些場景做叢集擴容時，並不希望做rebalance(如叢集容量不足)；對此，常見策略是每個叢集預先做好效能、容量評估，需要擴容時，直接新建叢集；如果單一叢集必須做rebalance，透過人工幹預限流降低叢集負載；至於需要做rebalance的根本原因，本人認為擴容導致叢集狀態改變，進而導致尋址演算法結果改變，最終資料分佈也需隨之改變；

b.資料的副本分佈位置透過尋址演算法計算得出，位置相對固定，幾乎不可人為調整；但通常可以透過改變權重的方式改變資料總體分佈情況；

c.中心配置管理節點只管理分片信息，不知道單個用戶數據的信息，統計分析類的需求需要通過定期地收集數據節點信息等方式實現，並存儲維護。

總結：透過上述比較分析，三類系統的尋址策略，使系統本身均有自己相應的優缺點，它們都不是完美的，但都有其適宜的場景和業務，在系統設計與選型時，需要做全面的考量。

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn