현재 메타데이터 관리를 위해 일반적으로 사용되는 몇 가지 솔루션-헤드라인-php.cn

집

헤드라인

현재 메타데이터 관리를 위해 일반적으로 사용되는 몇 가지 솔루션

Mar 12, 2018 am 09:16 AM

메타데이터관리하다해결책

메타데이터는 데이터를 설명하는 데이터, 데이터에 대한 설명 정보 및 정보 리소스로 정의됩니다.

메타데이터는 다른 데이터에 대한 데이터 또는 특정 리소스에 대한 정보를 제공하는 데 사용되는 구조화된 데이터입니다. 메타데이터는 정보 자원 또는 데이터와 같은 객체를 설명하는 데이터입니다. 자원을 식별하고, 사용 중 자원의 변화를 추적하고, 정보의 효과적인 발견을 실현합니다. 자원 발굴, 조직화, 활용 자원의 효과적인 관리 등을 수행합니다.

현재 메타데이터 관리에 일반적으로 사용되는 솔루션은 중앙 노드 관리 메타데이터, 분산 관리 메타데이터, 메타데이터 없는 디자인 등이 있습니다. 이 문서에서는 세 가지 솔루션의 특징에 대해 설명합니다.

현재 메타데이터 관리를 위해 일반적으로 사용되는 몇 가지 솔루션

분산(저장) 시스템을 설계할 때 중앙 노드를 사용하는 것은 매우 간결하고 명확한 솔루션입니다. 중앙 노드에는 일반적으로 메타데이터 저장 및 쿼리, 클러스터 노드 상태 관리, 의사 결정 및 작업 처리 기능이 모두 있습니다. ;

장점:

A. 메타데이터를 중앙에서 관리하므로 클러스터 운영 및 유지 관리에 대한 통계 분석 요구 사항을 쉽게 처리할 수 있습니다.

B. 메타데이터) 확장 시 재조정 작업을 수행하지 않도록 선택할 수 있으며(재조정으로 인한 데이터 마이그레이션은 막대한 성능 오버헤드를 가져올 수 있음) 여전히 정상적으로 해결할 수 있습니다.

단점 및 해결 방법:

a. 분산 시스템 설계에서 가장 금기시되는 문제 중 하나는 중앙 노드의 단순한 설계로 인해 HA를 구현하는 방법이기도 합니다. 해결 방법: (1) 활성-대기 모델을 사용하거나, 증분 또는 전체 데이터 동기화를 위해 동기식 또는 비동기식 방법(예: TFS, mfs, HDFS2.0 등)을 사용하거나, 원격 공유 저장소(예: HDFS2.0)를 사용합니다. , 원격 저장소의 가용성이 높아야 함)

b. 중앙 집중식 중앙 노드 자체의 하드웨어 시설에는 확장(확장) 및 쿼리 기반 주소 지정 방법에 대한 상한이 있습니다. 클라이언트가 메타데이터를 캐시하거나 캐시 클러스터를 사용하더라도 일부 시나리오(예: 대용량 소형 파일)에서는 이 문제가 여전히 존재합니다. 해결 방법: (1) 하드웨어를 최적화하고 업그레이드합니다. (2) 이 문제에 직면하면 분산 관리 메타데이터 솔루션 사용을 고려하십시오.

2. 메타데이터의 분산 관리

는 메타데이터가 샤딩되고 분산 노드를 사용하여 스토리지를 관리한다는 점을 제외하면 중앙 노드 솔루션과 유사합니다. 중앙 노드 솔루션의 장점을 유지하면서 상한 문제를 해결합니다.

단점

이러한 시스템은 상대적으로 드물고 시스템 자체가 복잡하며,

a 시스템에는 메타데이터 노드와 데이터 노드라는 두 개의 분산 노드가 포함되어 있습니다. 각 노드로 구성된 분산 모듈은 분산 CAP 원칙의 절충점에 직면해야 합니다. 특히 메타데이터의 일관성이 요구됩니다.

b. 메타데이터 노드는 데이터 노드의 상태를 공동으로 유지하고 상태가 변경될 때 일관된 결정을 내려야 합니다.

c. 또한, 대량의 메타데이터에 필요한 저장 장비도 무시할 수 없는 비용입니다.

위의 두 솔루션에는 데이터(즉, 메타데이터)의 상태를 기록하고 유지한다는 공통점이 있습니다. , 데이터를 처리할 때 먼저 메타데이터 서버에 쿼리한 다음 실제 데이터에 액세스합니다.

3. 메타데이터 없는 디자인

주로 ceph를 예로 들며 이는 위의 두 가지 아이디어와 다릅니다. 이 유형의 시스템은 알고리즘을 사용하여 주소 지정을 계산하고 주소 지정 알고리즘의 입력 매개변수 중 하나는 클러스터 상태(예: 데이터 노드 분포 토폴로지, 가중치, 프로세스 상태 등)에 대한 설명 형식입니다. 이러한 일반적인 알고리즘에는 Ceph RADOS 시스템의 일관된 해싱 및 CRUSH 알고리즘이 포함됩니다. 이러한 유형의 알고리즘은 일반적으로 사용자 데이터를 직접 관리하지 않고 대신 논리적 샤딩 구조의 중간 계층(예: 일관된 해싱의 링 세그먼트 및 배치 그룹)을 사용합니다. ceph)가 도입되었으며, 그 수는 제한되어 있고 상대적으로 고정되어 있으며, 사용자가 액세스하는 데이터는 샤드 중 유일한 샤드에 속하며, 시스템은 이러한 샤드를 관리하고 유지합니다. 일부 시스템에는 클러스터 및 샤드와 같은 중요한 상태의 관리 및 유지 관리만 제공하고 메타데이터 저장 기능을 제공하지 않는 중앙 구성 관리 노드(예: ceph rados 모니터)도 있습니다. 위에서 언급한 것처럼 시스템은 논리적 샤딩, 클러스터 상태 등의 정보만 관리하고 유지하면 되며, 사용자 데이터를 관리하기 위한 메타데이터는 저장하지 않습니다. 이는 데이터 시나리오에서 특히 분명합니다.

B 주소 지정 알고리즘에 필요한 매개변수 데이터의 양은 적고 상대적으로 고정되어 있습니다. 성능 병목 현상

단점 분석:

a. 클러스터가 확장되면(또는 가중치가 변경되는 경우에도) 특히 데이터 규모가 큰 클러스터(PB 수준 이상)의 경우 재조정을 수행해야 합니다. 이로 인해 발생하는 대량의 데이터 마이그레이션으로 인해 클러스터가 높은 상태로 유지됩니다. -로드 상태로 인해 일반 비즈니스 요청의 지연 시간 및 iops와 같은 성능 지표가 감소하지만 클러스터 확장을 수행할 때 일부 시나리오에서는 재조정이 바람직하지 않습니다(예: 클러스터 용량이 부족함). 일반적인 전략은 각 클러스터의 성능과 용량을 미리 평가하는 것입니다. 확장이 필요한 경우 단일 클러스터를 재조정해야 하는 경우 기본적으로는 수동 개입 및 전류 제한을 통해 클러스터 부하를 줄입니다. 재조정 이유는 확장으로 인해 클러스터 상태가 변경되어 주소 지정 알고리즘 및 최종 데이터의 결과가 변경될 것이라고 생각합니다.

b. 데이터는 주소 지정 알고리즘을 통해 계산되며 위치는 거의 수동으로 조정할 수 없지만 일반적으로 데이터의 전체 분포는 가중치를 변경하여 변경할 수 있습니다.

c 중앙 구성 관리 노드는 샤드 정보만 관리합니다. 개별 사용자 데이터의 정보를 알지 못하므로, 정기적으로 데이터 노드 정보를 수집하고 이를 저장 및 유지함으로써 통계 분석에 대한 요구 사항을 실현해야 합니다.

요약: 위의 비교 분석을 통해 세 가지 유형의 시스템의 주소 지정 전략은 시스템 자체에 해당하는 장단점을 갖게 하지만 완벽하지는 않지만 시스템 설계 및 비즈니스 측면에서 모두 적합합니다. 선택 시에는 종합적인 고려가 필요합니다.

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

修复：Sysprep 无法验证 Windows 11 安装May 19, 2023 am 10:15 AM

Sysprep问题可能出现在Windows11、10和8平台上。出现该问题时，Sysprep命令不会按预期运行和验证安装。如果您需要修复Sysprep问题，请查看下面的Windows11/10解决方案。Sysprep错误是如何在Windows中出现的？Sysprep无法验证您的Windows安装错误自Windows8以来一直存在。该问题通常是由于用户安装的UWP应用程序而出现的。许多用户已确认他们通过卸载从MSStore安装的某些UWP应用程序解决了此问题。如果缺少应该与Windows一起预安装

重置管理员权限: 如何重新获得管理员权限？Apr 23, 2023 pm 10:10 PM

您将找到多个用户报告，确认NETHELPMSG2221错误代码。当您的帐户不再是管理员时，就会显示此信息。根据用户的说法，他们的帐户自动被撤销了管理员权限。如果您也遇到此问题，我们建议您应用指南中的解决方案并修复NETHELPMSG2221错误。您可以通过多种方式将管理员权限恢复到您的帐户。让我们直接进入它们。什么是NETHELPMSG2221错误？当您不是PC的管理员时，无法使用提升的程序。因此，例如，你将无法在电脑上运行命令提示符、WindowsPowerShell或任

如何解决Windows更新错误代码0x8024800c？Apr 21, 2023 am 09:55 AM

什么原因导致WindowsUpdate错误0x8024800c？导致WindowsUpdate错误的原因0x8024800c尚不完全清楚。但是，此问题可能与其他更新错误具有类似的原因。以下是一些潜在的0x8024800c错误原因：损坏的系统文件–某些系统文件需要修复。不同步的软件分发缓存–软件分发数据存储不同步，这意味着此错误是超时问题（它有一个WU_E_DS_LOCKTIMEOUTEXPIRED结果字符串）。损坏的WindowsUpdate组件-错误0x8024800c是由错误的Win

利用纽约时报API进行元数据爬取Sep 02, 2023 pm 10:13 PM

简介上周，我写了一篇关于抓取网页以收集元数据的介绍，并提到不可能抓取《纽约时报》网站。《纽约时报》付费墙会阻止您收集基本元数据的尝试。但有一种方法可以使用纽约时报API来解决这个问题。最近我开始在Yii平台上构建一个社区网站，我将在以后的教程中发布该网站。我希望能够轻松添加与网站内容相关的链接。虽然人们可以轻松地将URL粘贴到表单中，但提供标题和来源信息却非常耗时。因此，在今天的教程中，我将扩展我最近编写的抓取代码，以在添加《纽约时报》链接时利用《纽约时报》API来收集头条新闻。请记住，我参与了

如何解决您的 Office 许可证有问题May 20, 2023 pm 02:08 PM

MSOffice产品是任何Windows系统上用于创建Word、Excel表格等文档的应用程序的绝佳选择。但是您需要从Microsoft购买Office产品的有效许可证，并且必须激活它才能使其有效工作.最近，许多Windows用户报告说，每当他们启动任何Office产品（如Word、Excel等）时，他们都会收到一条警告消息，上面写着“您的Office许可证存在问题，并要求用户获取正版Office许可证”。一些用户不假思索，就去微软购买了Office产品的许可证

使用Python访问各种音频和视频文件的元数据Sep 05, 2023 am 11:41 AM

我们可以使用Mutagen和Python中的eyeD3模块访问音频文件的元数据。对于视频元数据，我们可以使用电影和Python中的OpenCV库。元数据是提供有关其他数据（例如音频和视频数据）的信息的数据。音频和视频文件的元数据包括文件格式、文件分辨率、文件大小、持续时间、比特率等。通过访问这些元数据，我们可以更有效地管理媒体并分析元数据以获得一些有用的信息。在本文中，我们将了解Python提供的一些用于访问音频和视频文件元数据的库或模块。访问音频元数据一些用于访问音频文件元数据的库是-使用诱变

WWAHost.exe 进程高磁盘、CPU 或内存使用修复Apr 14, 2023 pm 04:43 PM

许多用户在系统变慢时报告任务管理器中存在WWAHost.exe进程。WWAHost.exe进程会占用大量系统资源，例如内存、CPU或磁盘，进而降低PC的速度。因此，每当您发现您的系统与以前相比变得缓慢时，请打开任务管理器，您会在那里找到这个WWAHost.exe进程。通常，已观察到启动任何应用程序（如Mail应用程序）会启动WWAHost.exe进程，或者它可能会自行开始执行，而无需在您的WindowsPC上进行任何外部输入。此进程是安全有效的Microsoft程序，是Wi

微软为 Power BI 推出新的表格模型定义语言Apr 13, 2023 pm 04:13 PM

Microsoft宣布了Windows 8.1 上 Power BI Desktop 的终止支持日期。最近，这家科技巨头的首屈一指的数据分析平台也引入了 TypeScript 支持和其他新功能。今天，为 Power BI推出了一种新的表格模型定义语言 (TMDL)，现已提供公共预览版。由于从使用 Power BI 创建的巨大语义数据模型中提取了高度复杂的 BIM 文件，因此需要 TMDL。传统上包含表格模型脚本语言 (TMSL) 中的模型元数据，此文件被认为很难进一步处理。此外，以多个开发人员在