하둡이란 무엇인가요?
(1)Hadoop은 분산 애플리케이션을 작성하고 실행하여 대규모 데이터를 처리할 수 있는 오픈 소스 프레임워크입니다. 오프라인 및 대규모 데이터 분석을 위해 특별히 설계되었으며 이러한 종류의 작업에는 적합하지 않습니다. 여러 레코드 분석 무작위 읽기 및 쓰기를 위한 온라인 트랜잭션 처리 모드. (추천 학습: 웹 프론트엔드 동영상 튜토리얼 )
Hadoop = HDFS(파일 시스템, 데이터 저장 기술 관련) + Mapreduce(데이터 처리), Hadoop의 데이터 소스는 반정형 및 비정형 처리 등 모든 형태가 가능합니다. 관계형 데이터베이스에 비해 화학적 데이터 측면에서 더 나은 성능과 더 유연한 처리 능력을 갖추고 있으며, 어떤 데이터 형식이든 결국 키/값으로 변환되며, 키/값은 기본 데이터 단위입니다.
SQL 대신 함수식을 사용하세요. SQL은 쿼리문인 반면, Mapreduce는 관계형 데이터베이스의 경우 SQL에 익숙한 Hadoop이 대신 오픈 소스 도구 하이브를 사용합니다.
(2)Hadoop은 분산 컴퓨팅 솔루션입니다.
Hadoop은 무엇을 할 수 있나요?
Hadoop은 로그 분석에 능숙합니다. 2009년에는 Facebook의 프로그래머가 아닌 사람 중 30%가 데이터 분석에 HiveQL을 사용했습니다.
Taobao 검색의 사용자 정의 필터링도 Hive를 사용할 수 있습니다. Twitter 및 LinkedIn에서 알 수 있는 사람을 찾는 등 고급 데이터 처리를 위해 Amazon.com의 협업 필터링과 유사한 추천 효과를 얻을 수 있습니다.
타오바오 상품 추천도! 야후! Hadoop 작업의 40%는 스팸 식별 및 필터링, 사용자 기능 모델링을 포함하여 pig를 사용하여 실행됩니다.
Hadoop은 많은 요소로 구성됩니다.
하단에는 Hadoop 클러스터의 모든 스토리지 노드에 파일을 저장하는 HDFS(Hadoop 분산 파일 시스템)가 있습니다.
HDFS의 상위 계층은 JobTracker와 TaskTracker로 구성된 MapReduce 엔진입니다. Hadoop 분산 컴퓨팅 플랫폼의 핵심 분산 파일 시스템 HDFS 및 MapReduce 처리는 물론 데이터웨어 하우스 도구 Hive 및 분산 데이터베이스 Hbase의 도입을 통해 기본적으로 Hadoop 분산 플랫폼의 모든 기술 핵심을 포괄합니다.
위 내용은 Hadoop은 분산 컴퓨팅에 사용됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!