찾다
일반적인 문제빅데이터 학습 루트

빅데이터 학습 루트

Jun 05, 2019 am 10:59 AM
빅데이터

빅 데이터 학습 경로

빅데이터 학습 루트

java(Java se,[mysql])

Linux(셸, 동시성 아키텍처, lucene, solr)

Hadoop(Hadoop, HDFS, Mapreduce, Yarn, Hive , hbase, sqoop, Zookeeper, flume)

기계 학습(R, mahout)

Storm(Storm, kafka, redis)

Spark(scala, Spark, Spark Core, Spark SQL, Spark Streaming, Spark mllib, Spark Graphx) )

Python(python, Spark Python)(추천 학습: Python 동영상 튜토리얼)

컴퓨팅 플랫폼(docker, kvm, openstack)

용어 설명

초보자가 주의할 점 빅데이터를 배우는 일이 많지만, 어찌 됐든 빅데이터 업계에 입문하기로 결정했으니 우여곡절만 잘 챙기세요. 원래 의도를 잊지 말라. 그러면 반드시 성공할 것이라는 말이 있듯이, 빅데이터를 배울 때 가장 필요한 것은 인내이다.

javase 기본 [mysql 포함], javaee가 아닌 javase임을 참고해주세요. 빅 데이터 엔지니어에게는 javaweb에 대한 지식이 필요하지 않습니다

Linux

lucene: 전체 텍스트 검색 엔진의 아키텍처

solr: 구성 가능하고 확장 가능하며 쿼리를 구현하는 lucene 기반의 전체 텍스트 검색 서버 성능이 최적화되었으며 포괄적인 기능 관리 인터페이스가 제공되었습니다.

Hadoop

HDFS: NameNode, DataNode를 포함한 분산 스토리지 시스템. NameNode: 메타데이터, DataNode. DataNode: 데이터를 저장합니다.

yarn: 본질적으로 Hadoop의 처리 및 분석 메커니즘인 MapReduce의 조정 메커니즘으로 이해될 수 있으며 ResourceManager와 NodeManager로 구분됩니다.

MapReduce: 프로그램 작성을 위한 소프트웨어 프레임워크입니다.

Hive: 데이터 웨어하우스는 SQL로 쿼리할 수 있으며 Map/Reduce 프로그램을 실행할 수 있습니다. 동향이나 웹사이트 로그를 계산하는 데 사용되며, 결과를 반환하는 데 시간이 오래 걸리므로 실시간 쿼리에는 사용해서는 안 됩니다.

HBase: 데이터베이스. 빅데이터의 실시간 조회에 매우 적합합니다. Facebook은 Hbase를 사용하여 메시지 데이터를 저장하고 메시지의 실시간 분석을 수행합니다.

ZooKeeper: 대규모 분산을 위한 안정적인 조정 시스템입니다. 여러 NameNode 및 활성 대기 전환과 같은 Hadoop의 분산 동기화는 Zookeeper에 의해 구현됩니다.

Sqoop: 데이터베이스를 서로 전송하고, 관계형 데이터베이스와 HDFS를 서로 전송합니다.

Mahout: 확장 가능한 기계 학습 및 데이터 마이닝 라이브러리. 추천 마이닝, 집계, 분류, 빈번한 항목 집합 마이닝에 사용됩니다.

Chukwa: HDFS 및 Map/Reduce 프레임워크를 기반으로 구축된 대규모 분산 시스템을 모니터링하는 오픈 소스 수집 시스템입니다. 결과를 표시, 모니터링 및 분석합니다.

Ambari: 웹 기반의 친숙한 인터페이스인 Hadoop 클러스터를 구성, 관리 및 모니터링하는 데 사용됩니다.

Cloudera

Cloudera Manager: 관리 모니터링 진단 통합

Cloudera CDH: (Apache Hadoop을 포함한 Cloudera의 배포판) Cloudera는 Hadoop에 해당 변경 사항을 적용했으며 배포 버전을 CDH라고 합니다.

Cloudera Flume: 데이터 수집을 위해 로그 시스템의 다양한 데이터 전송자를 사용자 정의할 수 있도록 지원하는 로그 수집 시스템입니다.

Cloudera Impala: Apache Hadoop의 HDFS 및 HBase에 저장된 데이터에 대한 직접 쿼리 및 대화형 SQL을 제공합니다.

Clouderahue: Hui ui, hui 서버, hui db를 포함한 웹 관리자. Hue는 모든 CDH 구성 요소에 대한 셸 인터페이스 인터페이스를 제공하며 mr은 Hue로 작성할 수 있습니다.

Machine Learning/R

R: 통계 분석 및 그래픽을 위한 언어 및 운영 환경, 현재 Hadoop-R

mahout: 클러스터링 및 분류, 추천 필터링을 포함하여 기계 학습 분야의 기존 알고리즘의 확장 가능한 구현을 제공합니다. , 빈번한 하위 항목 마이닝 등을 수행하며 Hadoop을 통해 클라우드로 확장할 수 있습니다.

storm

Storm: 실시간 분석, 온라인 기계 학습, 정보 흐름 처리, 연속 컴퓨팅, 분산 RPC, 실시간 처리에 사용할 수 있는 분산형 내결함성 실시간 스트리밍 컴퓨팅 시스템입니다. 메시지 및 데이터베이스 업데이트.

Kafka: 소비자 규모 웹사이트에서 모든 작업 스트리밍 데이터(탐색, 검색 등)를 처리할 수 있는 처리량이 높은 분산 게시-구독 메시징 시스템입니다. Hadoop의 로그 데이터 및 오프라인 분석과 비교하여 실시간 처리가 가능합니다. 현재 Hadoop의 병렬 로딩 메커니즘은 온라인과 오프라인 메시지 처리를 통합하는 데 사용됩니다.

Redis: C 언어로 작성되었으며 네트워크를 지원하며 메모리 기반 및 영구화가 가능한 로그 유형의 키-값 데이터베이스입니다.

Spark

Scala: Java와 유사한 완전한 객체 지향 프로그래밍 언어입니다.

jblas: 빠른 선형 대수학 라이브러리(JAVA). ATLAS ART 구현은 행렬 계산의 사실상 업계 표준인 BLAS 및 LAPACK을 기반으로 하며 모든 계산 절차에 고급 인프라를 사용하므로 속도가 매우 빠릅니다.

Spark: Spark는 Scala 언어로 구현된 Hadoop MapReduce와 유사한 일반적인 병렬 프레임워크입니다. Hadoop MapReduce의 장점 외에도 MapReduce와는 달리 작업의 중간 출력 결과를 메모리에 저장할 수 있으므로 HDFS를 읽고 쓸 필요가 없으므로 Spark는 데이터 마이닝 및 기계 학습과 같은 반복이 필요한 MapReduce 알고리즘에 더 적합할 수 있습니다. Mesos를 사용하는 타사 클러스터 프레임워크는 Hadoop 파일 시스템과 병렬로 작동할 수 있습니다.

Spark SQL: Apache Spark 빅 데이터 프레임워크의 일부로 구조화된 데이터 처리에 사용할 수 있으며 SQL과 유사한 Spark 데이터 쿼리를 수행할 수 있습니다.

Spark Streaming: 구축된 실시간 솔루션 Spark 컴퓨팅 프레임워크는 Spark의 빅 데이터 스트리밍 데이터 처리 기능을 확장합니다.

Spark MLlib: MLlib는 일반적으로 사용되는 기계 학습 알고리즘을 위한 Spark의 구현 라이브러리입니다. 현재(2014.05) 이진 분류, 회귀, 클러스터링 및 협업 필터링을 지원합니다. 또한 낮은 수준의 경사하강법 최적화 기본 알고리즘도 포함되어 있습니다. MLlib는 jblas 선형 대수 라이브러리에 의존하고 jblas 자체는 원격 Fortran 프로그램에 의존합니다.

Spark GraphX: GraphX는 Spark의 그래프 및 그래프 병렬 컴퓨팅을 위한 API로 Spark 위에 원스톱 데이터 솔루션을 제공할 수 있으며 완전한 그래프 컴퓨팅 파이프라인 세트를 완성할 수 있습니다. 편리하고 효율적으로 운영됩니다.

Fortran: 과학 및 엔지니어링 컴퓨팅 분야에서 널리 사용되는 최초의 고급 컴퓨터 프로그래밍 언어입니다.

BLAS: 선형 대수 연산을 위해 이미 작성된 다수의 프로그램이 포함된 기본 선형 대수 서브루틴 라이브러리입니다.

LAPACK: 선형 방정식, 선형 최소 제곱 문제, 고유값 문제 및 특이값 문제 해결과 같은 과학 및 공학 계산에서 가장 일반적인 수치 선형 대수 문제 해결을 포함하는 잘 알려진 개방형 소프트웨어가 기다리고 있습니다.

ATLAS: BLAS 선형 알고리즘 라이브러리의 최적화된 버전입니다.

Spark Python: Spark는 스칼라 언어로 작성되었지만 홍보와 호환성을 위해 Java 및 Python 인터페이스가 제공됩니다.

Python

Python: 객체 지향 해석 컴퓨터 프로그래밍 언어입니다.

클라우드 컴퓨팅 플랫폼

Docker: 오픈 소스 애플리케이션 컨테이너 엔진

kvm: (키보드 비디오 마우스)# 🎜🎜#

openstack: 오픈 소스 클라우드 컴퓨팅 관리 플랫폼 프로젝트

더 많은 Python 관련 기술 기사를 보려면

Python tutorial 열을 방문하여 알아보세요!

위 내용은 빅데이터 학습 루트의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구