>헤드라인 >현재 메타데이터 관리를 위해 일반적으로 사용되는 몇 가지 솔루션

현재 메타데이터 관리를 위해 일반적으로 사용되는 몇 가지 솔루션

-
-원래의
2018-03-12 09:16:104720검색

메타데이터는 데이터를 설명하는 데이터, 데이터에 대한 설명 정보 및 정보 리소스로 정의됩니다.

메타데이터는 다른 데이터에 대한 데이터 또는 특정 리소스에 대한 정보를 제공하는 데 사용되는 구조화된 데이터입니다. 메타데이터는 정보 자원 또는 데이터와 같은 객체를 설명하는 데이터입니다. 자원을 식별하고, 사용 중 자원의 변화를 추적하고, 정보의 효과적인 발견을 실현합니다. 자원 발굴, 조직화, 활용 자원의 효과적인 관리 등을 수행합니다.

현재 메타데이터 관리에 일반적으로 사용되는 솔루션은 중앙 노드 관리 메타데이터, 분산 관리 메타데이터, 메타데이터 없는 디자인 등이 있습니다. 이 문서에서는 세 가지 솔루션의 특징에 대해 설명합니다.

현재 메타데이터 관리를 위해 일반적으로 사용되는 몇 가지 솔루션

1.

분산(저장) 시스템을 설계할 때 중앙 노드를 사용하는 것은 매우 간결하고 명확한 솔루션입니다. 중앙 노드에는 일반적으로 메타데이터 저장 및 쿼리, 클러스터 노드 상태 관리, 의사 결정 및 작업 처리 기능이 모두 있습니다. ;

장점:

A. 메타데이터를 중앙에서 관리하므로 클러스터 운영 및 유지 관리에 대한 통계 분석 요구 사항을 쉽게 처리할 수 있습니다.

B. 메타데이터) 확장 시 재조정 작업을 수행하지 않도록 선택할 수 있으며(재조정으로 인한 데이터 마이그레이션은 막대한 성능 오버헤드를 가져올 수 있음) 여전히 정상적으로 해결할 수 있습니다.

단점 및 해결 방법:

a. 분산 시스템 설계에서 가장 금기시되는 문제 중 하나는 중앙 노드의 단순한 설계로 인해 HA를 구현하는 방법이기도 합니다. 해결 방법: (1) 활성-대기 모델을 사용하거나, 증분 또는 전체 데이터 동기화를 위해 동기식 또는 비동기식 방법(예: TFS, mfs, HDFS2.0 등)을 사용하거나, 원격 공유 저장소(예: HDFS2.0)를 사용합니다. , 원격 저장소의 가용성이 높아야 함)

b. 중앙 집중식 중앙 노드 자체의 하드웨어 시설에는 확장(확장) 및 쿼리 기반 주소 지정 방법에 대한 상한이 있습니다. 클라이언트가 메타데이터를 캐시하거나 캐시 클러스터를 사용하더라도 일부 시나리오(예: 대용량 소형 파일)에서는 이 문제가 여전히 존재합니다. 해결 방법: (1) 하드웨어를 최적화하고 업그레이드합니다. (2) 이 문제에 직면하면 분산 관리 메타데이터 솔루션 사용을 고려하십시오.

2. 메타데이터의 분산 관리

는 메타데이터가 샤딩되고 분산 노드를 사용하여 스토리지를 관리한다는 점을 제외하면 중앙 노드 솔루션과 유사합니다. 중앙 노드 솔루션의 장점을 유지하면서 상한 문제를 해결합니다.

단점

이러한 시스템은 상대적으로 드물고 시스템 자체가 복잡하며,

a 시스템에는 메타데이터 노드와 데이터 노드라는 두 개의 분산 노드가 포함되어 있습니다. 각 노드로 구성된 분산 모듈은 분산 CAP 원칙의 절충점에 직면해야 합니다. 특히 메타데이터의 일관성이 요구됩니다.

b. 메타데이터 노드는 데이터 노드의 상태를 공동으로 유지하고 상태가 변경될 때 일관된 결정을 내려야 합니다.

c. 또한, 대량의 메타데이터에 필요한 저장 장비도 무시할 수 없는 비용입니다.

위의 두 솔루션에는 데이터(즉, 메타데이터)의 상태를 기록하고 유지한다는 공통점이 있습니다. , 데이터를 처리할 때 먼저 메타데이터 서버에 쿼리한 다음 실제 데이터에 액세스합니다.

3. 메타데이터 없는 디자인

주로 ceph를 예로 들며 이는 위의 두 가지 아이디어와 다릅니다. ​이 유형의 시스템은 알고리즘을 사용하여 주소 지정을 계산하고 주소 지정 알고리즘의 입력 매개변수 중 하나는 클러스터 상태(예: 데이터 노드 분포 토폴로지, 가중치, 프로세스 상태 등)에 대한 설명 형식입니다. 이러한 일반적인 알고리즘에는 Ceph RADOS 시스템의 일관된 해싱 및 CRUSH 알고리즘이 포함됩니다. 이러한 유형의 알고리즘은 일반적으로 사용자 데이터를 직접 관리하지 않고 대신 논리적 샤딩 구조의 중간 계층(예: 일관된 해싱의 링 세그먼트 및 배치 그룹)을 사용합니다. ceph)가 도입되었으며, 그 수는 제한되어 있고 상대적으로 고정되어 있으며, 사용자가 액세스하는 데이터는 샤드 중 유일한 샤드에 속하며, 시스템은 이러한 샤드를 관리하고 유지합니다. 일부 시스템에는 클러스터 및 샤드와 같은 중요한 상태의 관리 및 유지 관리만 제공하고 메타데이터 저장 기능을 제공하지 않는 중앙 구성 관리 노드(예: ceph rados 모니터)도 있습니다. 위에서 언급한 것처럼 시스템은 논리적 샤딩, 클러스터 상태 등의 정보만 관리하고 유지하면 되며, 사용자 데이터를 관리하기 위한 메타데이터는 저장하지 않습니다. 이는 데이터 시나리오에서 특히 분명합니다.

B 주소 지정 알고리즘에 필요한 매개변수 데이터의 양은 적고 상대적으로 고정되어 있습니다. 성능 병목 현상

단점 분석:

a. 클러스터가 확장되면(또는 가중치가 변경되는 경우에도) 특히 데이터 규모가 큰 클러스터(PB 수준 이상)의 경우 재조정을 수행해야 합니다. 이로 인해 발생하는 대량의 데이터 마이그레이션으로 인해 클러스터가 높은 상태로 유지됩니다. -로드 상태로 인해 일반 비즈니스 요청의 지연 시간 및 iops와 같은 성능 지표가 감소하지만 클러스터 확장을 수행할 때 일부 시나리오에서는 재조정이 바람직하지 않습니다(예: 클러스터 용량이 부족함). 일반적인 전략은 각 클러스터의 성능과 용량을 미리 평가하는 것입니다. 확장이 필요한 경우 단일 클러스터를 재조정해야 하는 경우 기본적으로는 수동 개입 및 전류 제한을 통해 클러스터 부하를 줄입니다. 재조정 이유는 확장으로 인해 클러스터 상태가 변경되어 주소 지정 알고리즘 및 최종 데이터의 결과가 변경될 것이라고 생각합니다.

b. 데이터는 주소 지정 알고리즘을 통해 계산되며 위치는 거의 수동으로 조정할 수 없지만 일반적으로 데이터의 전체 분포는 가중치를 변경하여 변경할 수 있습니다.

c 중앙 구성 관리 노드는 샤드 정보만 관리합니다. 개별 사용자 데이터의 정보를 알지 못하므로, 정기적으로 데이터 노드 정보를 수집하고 이를 저장 및 유지함으로써 통계 분석에 대한 요구 사항을 실현해야 합니다.

요약: 위의 비교 분석을 통해 세 가지 유형의 시스템의 주소 지정 전략은 시스템 자체에 해당하는 장단점을 갖게 하지만 완벽하지는 않지만 시스템 설계 및 비즈니스 측면에서 모두 적합합니다. 선택 시에는 종합적인 고려가 필요합니다.

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.