>  기사  >  운영 및 유지보수  >  아파치 하둡이 뭐야?

아파치 하둡이 뭐야?

(*-*)浩
(*-*)浩원래의
2019-06-11 15:02:444135검색

Apache Hadoop은 범용 하드웨어에 구축된 대규모 클러스터에서 애플리케이션을 실행하기 위한 프레임워크입니다. 이는 컴퓨팅 작업이 작은 덩어리(여러 번)로 나누어져 다른 노드에서 실행되는 Map/Reduce 프로그래밍 패러다임을 구현합니다.

아파치 하둡이 뭐야?

또한 데이터가 컴퓨팅 노드에 저장되어 매우 높은 데이터 센터 간 집계 대역폭을 제공하는 분산 파일 시스템(HDFS)도 제공합니다.

프레임워크의 역할

Apache Hadoop 빅데이터 소유권을 위한 새로운 선택

물리적 DAS는 여전히 Apache Hadoop을 위한 최고의 저장 매체입니다. 관련 고위 전문가 및 비즈니스 기업이 연구하고 실습해왔기 때문입니다. 저장 매체를 결정하는 것입니다. 그러나 HDFS 기반의 Apache Hadoop 데이터 저장에는 큰 문제가 있습니다.

우선, 기본 솔루션은 모든 Apache Hadoop 데이터를 복사, 이동 및 백업하는 것입니다. HDFS는 Apache Hadoop 대규모 데이터 블록의 I/O 최적화를 기반으로 하여 Apache Hadoop 데이터 상호 작용 시간을 절약합니다. 나중에 사용한다는 것은 일반적으로 Apache Hadoop 데이터를 복사하는 것을 의미합니다. 로컬 스냅샷이 있더라도 해당 시점에 완전히 일관성이 없거나 완전히 복구할 수는 없습니다.

이러한 이유로 엔터프라이즈 스토리지 공급업체는 HDFS를 변경할 만큼 똑똑하고 일부 괴짜 빅 데이터 전문가는 Apache Hadoop 계산에서 외부 스토리지를 활용하고 있습니다. 그러나 많은 기업에게 Apache Hadoop은 좋은 절충안을 제공합니다. 유지 관리가 많이 필요한 스토리지나 비용이 많이 드는 스토리지를 유지 관리하는 새로운 방법을 적용할 필요가 없습니다.

많은 Apache Hadoop 공급업체는 Apache Hadoop 클러스터에 원격 HDFS 인터페이스를 제공하며 비즈니스 규모가 큰 Apache Hadoop 기업이 가장 먼저 선택하는 업체입니다. 그들은 격리되어 있기 때문에 Apache Hadoop 보안 및 기타 문제를 포함하여 다른 모든 Apache Hadoop 데이터 처리 빅 데이터 보호가 이루어집니다. 또 다른 이점은 외부에 저장된 데이터를 다른 Apache Hadoop 프로토콜 저장소에서 액세스할 수 있어 워크플로를 지원하고 기업 내에서 필요에 따라 데이터 및 데이터 복사본의 전송을 제한할 수 있다는 것입니다. Apache Hadoop은 또한 결합된 스토리지 솔루션과 결합된 빅 데이터 참조 아키텍처인 이 원칙을 기반으로 빅 데이터를 Apache Hadoop 클러스터로 직접 처리합니다.

가상화된 Apache Hadoop 빅데이터 분석도 언급할 가치가 있습니다. 이론적으로는 모든 컴퓨팅 및 스토리지 노드를 가상화할 수 있습니다. VMware 및 RedHat/OpenStack에는 Hadoop용 가상화 솔루션이 있습니다. 그러나 거의 모든 Apache Hadoop 호스트 노드는 엔터프라이즈 스토리지 문제를 해결할 수 없습니다. 이는 Apache Hadoop의 컴퓨팅 측면을 에뮬레이션하여 기업이 기존 데이터 세트(SAN/NAS)를 가속화하고 Apache Hadoop이 포함된 HDFS 오버레이에 덤프할 수 있도록 합니다. 이러한 방식으로 Apache Hadoop 빅 데이터 분석은 아무런 변경 없이 데이터 센터의 데이터에 대한 모든 변경을 수행할 수 있으므로 새로운 Apache Hadoop 스토리지 아키텍처와 새로운 데이터 흐름 또는 데이터 관리를 사용합니다.

대부분의 Apache Hadoop 배포판은 Apache Hadoop 근처의 오픈 소스 HDFS(현재 소프트웨어 정의 빅 데이터 스토리지)에서 시작됩니다. 차이점은 Apache Hadoop이 다른 접근 방식을 취한다는 것입니다. 이는 기본적으로 기업 Apache Hadoop이 Apache Hadoop HDFS 위에 자체 호환 스토리지 계층을 구축하는 데 필요한 스토리지입니다. MAPR 버전은 스냅샷 복제를 위한 I/O 지원을 완벽하게 처리할 수 있으며 Apache Hadoop은 NFS와 같이 기본적으로 지원되는 다른 프로토콜과도 호환됩니다. Apache Hadoop은 또한 매우 효과적이며 기록 및 실시간 정보를 얻기 위해 빅 데이터를 사용하는 의사 결정 지원 솔루션을 실행하는 주로 엔터프라이즈 비즈니스 인텔리전스 애플리케이션을 제공하는 데 도움이 됩니다. 이 아이디어와 유사하게 IBM은 HDFS의 대안으로 Apache Hadoop 배포용 고성능 컴퓨팅 시스템 스토리지 API를 출시했습니다.

데이터 문제를 해결하는 데 도움이 될 수 있는 Apache Hadoop의 또 다른 흥미로운 솔루션입니다. 하나는 Apache Hadoop의 대규모 데이터 세트 중 일부 고유 IP를 효과적으로 보호할 수 있는 데이터 보안 스타트업인 Dataguise입니다. Apache Hadoop은 대규모 데이터 클러스터의 민감한 정보를 자동으로 식별하고 전역적으로 커버하거나 암호화할 수 있습니다. 수평적 데이터 과학은 이 분야에서 새롭게 떠오르는 기술입니다. 데이터 파일을 Apache Hadoop에 연결하면 데이터가 어디에 있든, 심지어 HDFS라도 Apache Hadoop이 자동으로 저장합니다. Apache Hadoop 빅 데이터가 제공하는 출력은 데이터 소스와 위치를 사용하여 비즈니스에 필요한 정보를 수집함으로써 비즈니스 애플리케이션을 신속하게 구축하는 데 도움이 됩니다.

Apache Hadoop 관리 또는 엔터프라이즈 데이터 센터 스토리지에 항상 관심이 있었다면 지금이 Apache Hadoop 빅 데이터에 대한 이해를 업데이트할 좋은 기회입니다. Apache Hadoop 빅 데이터의 속도를 따라가고 싶다면 지금이 바로 기회입니다. 아닙니다. Apache Hadoop에 새로운 기술을 적용하는 것은 거부되어야 합니다.

더 많은 Apache 관련 기술 기사를 보려면 Apache 사용 튜토리얼 칼럼을 방문하여 알아보세요!

위 내용은 아파치 하둡이 뭐야?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.