>  기사  >  웹 프론트엔드  >  Hadoop이 무엇인지와 학습 경로에 대한 간략한 토론

Hadoop이 무엇인지와 학습 경로에 대한 간략한 토론

巴扎黑
巴扎黑원래의
2017-03-14 09:46:291471검색

Hadoop은 분산 파일 시스템(HadoopDistributed파일시스템)을 구현합니다. ), HDFS라고 합니다. HDFS는 높은 내결함성을 가지며 저렴한 하드웨어에 배포되도록 설계되었으며 애플리케이션 데이터에 액세스하기 위한 높은 처리량을 제공하므로 대규모 데이터 세트(대형 데이터 세트)가 있는 애플리케이션에 적합합니다. HDFS는 POSIX 요구 사항을 완화하고 스트리밍 액세스 형식으로 파일 시스템의 데이터에 액세스할 수 있습니다. 핵심 설계는 HDFS 및
MapHDFS입니다. 하둡은 한마디로 저장+계산이다. 🎜> 하둡이라는 이름은 약자가 아닌 가상의 이름이다. 프로젝트 창시자인 더그 커팅(Doug Cutting)이 하둡이라는 이름을 갖게 된 이유를 설명했다. : "우리 아이가 갈색 코끼리 장난감에 이름을 지어줬어요. Hadoop은 사용자가 쉽게 구성하고 사용할 수 있는 분산 컴퓨팅 플랫폼입니다. 사용자는 Hadoop에서 대량의 데이터를 처리하는 애플리케이션을 쉽게 개발하고 실행할 수 있습니다. 주로 다음과 같은 장점이 있습니다.
1. 높은 신뢰성 Hadoop의 데이터를 비트 단위로 저장하고 처리하는 능력은 사람들의 신뢰를 받을 만합니다.
2. 확장성이 뛰어난 Hadoop은 사용 가능한 컴퓨터 클러스터 간에 데이터를 분산하고 컴퓨팅 작업을 완료합니다. 이러한 클러스터는 수천 개의 노드로 쉽게 확장될 수 있습니다. 3. 효율성 Hadoop은 노드 간에 데이터를 동적으로 이동하고 각 노드의 동적 균형을 보장하므로 처리 속도가 매우 빠릅니다. 4. 내결함성이 뛰어난 Hadoop은 여러 데이터 복사본을 자동으로 저장하고 실패한 작업을 자동으로 재배포할 수 있습니다.
5. 저렴한 비용 QlikView, YonghongZ-Suite 등 올인원 머신, 상용 데이터 웨어하우스, 데이터 마트에 비해 hadoop은 오픈 소스이므로 프로젝트의 소프트웨어 비용이 크게 절감됩니다.
Hadoop은 Java 언어로 작성된 프레임워크와 함께 제공되므로
Linux
프로덕션 플랫폼에서 실행하는 데 이상적입니다. Hadoop의 애플리케이션은 C++와 같은 다른 언어로도 작성할 수 있습니다.
Hadoop 빅 데이터 처리의 중요성
빅 데이터 처리 애플리케이션에서 Hadoop을 폭넓게 적용하는 것은 데이터 추출, 변환 및 로드(ETL)에서의 자연스러운 이점을 활용합니다. Hadoop의 분산 아키텍처는 빅데이터 처리 엔진을 스토리지에 최대한 가깝게 배치하는데, 이는 ETL과 같은 일괄 처리 작업에 상대적으로 적합합니다. 이러한 작업의 일괄 처리 결과가 직접 스토리지로 이동할 수 있기 때문입니다. Hadoop의 MapReduce 기능은 단일 작업을 여러 조각으로 나누고 조각난 작업(Map)을 여러 노드로 보낸 후 이를 단일 데이터 세트 형태로 데이터 웨어하우스에 로드(Reduce)합니다. PHP 중국어 웹사이트 Hadoop 학습 경로 정보: 1. HadoopCommon: Hadoop 시스템 하단에 있는 모듈로, Hadoop 하위 프로젝트를 위한 다양한 도구를 제공합니다.
구성 파일
및 로그 운영 등..
2. HDFS: 처리량이 높은 애플리케이션 데이터 액세스를 제공하는 분산 파일 시스템입니다. 외부 클라이언트에게 HDFS는 전통적인 계층적 파일 시스템과 같습니다. 파일 생성,
삭제, 이동 또는 이름 변경 등의 작업을 수행할 수 있습니다. 그러나 HDFS의 아키텍처는 고유한 특성에 따라 결정되는 특정 노드 집합(그림 1 참조)을 기반으로 구축됩니다. 이러한 노드에는 HDFS 내부에 메타데이터 서비스를 제공하는 NameNode(단 하나)와 HDFS에 스토리지 블록을 제공하는 DataNode가 포함됩니다. NameNode가 하나만 존재하므로 이는 HDFS의 단점(단일 실패 지점)입니다. HDFS에 저장된 파일은 블록으로 나누어지고, 이 블록은 여러 컴퓨터(DataNode)에 복사됩니다. 이는 기존 RAID 아키텍처와 매우 다릅니다. 블록 크기(보통 64MB)와 복사된 블록 수는 파일이 생성될 때 클라이언트에 의해 결정됩니다. NameNode는 모든 파일 작업을 제어할 수 있습니다. HDFS 내의 모든 통신은 표준
TCP/IP 프로토콜을 기반으로 합니다. 3. MapReduce: 분산형 대용량 데이터 처리 컴퓨팅 클러스터를 위한 소프트웨어 프레임워크입니다.
4. Avro: dougcutting이 호스팅하는 RPC 프로젝트로 주로 데이터 직렬화를 담당합니다. Google의 protobuf 및 Facebook의 thr
if
t와 다소 유사합니다. avro는 향후 Hadoop의 RPC에 사용될 예정이므로 Hadoop의 RPC 모듈 통신이 더 빨라지고 데이터 구조가 더 컴팩트해집니다. 5. Hive: CloudBase와 마찬가지로 데이터웨어하우스의 SQL 기능을 제공하는 Hadoop 분산 컴퓨팅 플랫폼 기반 소프트웨어 세트입니다. Hadoop에 저장된 대용량 데이터의 요약 및 임시 쿼리를 단순화합니다. hive는 사용하기 매우 편리한 SQL 기반의 QL 쿼리 언어 세트를 제공합니다.
 6. HBase: HadoopDistributedFileSystem을 기반으로 하는 오픈소스 확장형 분산 데이터베이스로 컬럼 스토리지모델을 기반으로 하며, 대용량 테이블에 구조화된 데이터의 저장을 지원합니다.
7. Pig: 병렬 컴퓨팅을 위한 고급 데이터 흐름 언어 및 실행 프레임워크입니다. SQL과 유사한 언어는 MapReduce를 기반으로 구축된 고급 쿼리 언어로, MapReduce 모델의 Map 및 Reduce로 컴파일됩니다. 사용자는 자신의 기능을 정의할 수 있습니다.
8. ZooKeeper: Google Chubby의 오픈 소스 구현입니다. 대규모 분산 시스템을 위한 안정적인 조정 시스템으로 구성 유지 관리, 이름 서비스, 분산 동기화, 그룹 서비스 등을 포함한 기능을 제공합니다. ZooKeeper의 목표는 복잡하고 오류가 발생하기 쉬운 주요 서비스를 캡슐화하여 사용자에게 간단하고 사용하기 쉬운 인터페이스와 효율적인 성능과 안정적인 기능을 갖춘 시스템을 제공하는 것입니다.
9. Chukwa: Yahoo에서 제공하는 대규모 분산 시스템 관리용 데이터 수집 시스템입니다.
 10. Cassandra: 단일 장애 지점이 없는 확장 가능한 다중 마스터 데이터베이스입니다.
 11. Mahout: 확장 가능한 기계 학습 및 데이터 마이닝 라이브러리입니다.
Hadoop의 초기 설계 목표는 높은 신뢰성, 높은 확장성, 높은 내결함성 및 높은 효율성이었습니다. Hadoop이 등장하자마자 많은 대기업에서 인기를 얻었고 널리 관심을 끌었던 것은 바로 이러한 고유한 설계 장점 때문이었습니다. 연구계의 주목을 받고 있습니다. 지금까지 Hadoop 기술은 인터넷 분야에서 널리 사용되어 왔습니다.
위 내용은 Hadoop이 무엇인지, Hadoop 학습 경로에 대한 자세한 소개입니다. Hadoop에 대한 더 많은 소식과 정보를 알고 싶다면 플랫폼 공식 웹사이트인 WeChat 및 기타 플랫폼을 주목하시기 바랍니다. 경력 온라인 학습 및 교육 플랫폼은 귀하에게 권위를 제공합니다. 빅 데이터 Hadoop 교육 과정과 동영상 튜토리얼 시스템은 대형 플랫폼에서 금메달 강사가 온라인으로 녹화한 최초의 적응형 Hadoop 온라인 동영상 교육 시스템입니다. 빅데이터 개발 입문부터 숙달까지 Hadoop의 실무 기술을 빠르게 습득합니다.

위 내용은 Hadoop이 무엇인지와 학습 경로에 대한 간략한 토론의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.