빅데이터 학습 경로는 무엇인가요?-일반적인 문제-php.cn

집

일반적인 문제

빅데이터 학습 경로는 무엇인가요?

爱喝马黛茶的安东尼

Jul 25, 2019 pm 05:34 PM

빅데이터학습 경로

빅 데이터 학습 경로

java(Java se,javaweb)

Linux(셸, 동시성 아키텍처, lucene, solr)

Hadoop(Hadoop, HDFS, Mapreduce, Yarn, hive, hbase , sqoop, Zookeeper, flume)

기계 학습(R, mahout)

Storm(Storm, kafka, redis)

Spark(scala, Spark, Spark Core, Spark SQL, Spark Streaming, Spark mllib, Spark Graphx)

Python(python, Spark Python)

클라우드 컴퓨팅 플랫폼(docker, kvm, openstack)

용어 설명:

1. Linux

lucene: 전체 텍스트 검색 엔진 아키텍처

solr: 기반 lucene에서 전체 텍스트 검색 서버는 구성 및 확장이 가능하고 쿼리 성능을 최적화하며 완전한 기능 관리 인터페이스를 제공합니다.

2. Hadoop

HDFS: NameNode, DataNode를 포함한 분산 스토리지 시스템. NameNode: 메타데이터, DataNode. DataNode: 데이터를 저장합니다.

yarn: 본질적으로 Hadoop의 처리 및 분석 메커니즘인 MapReduce의 조정 메커니즘으로 이해될 수 있으며 ResourceManager와 NodeManager로 구분됩니다.

MapReduce: 프로그램 작성을 위한 소프트웨어 프레임워크입니다.

Hive: 데이터 웨어하우스는 SQL로 쿼리할 수 있으며 Map/Reduce 프로그램을 실행할 수 있습니다. 동향이나 웹사이트 로그를 계산하는 데 사용되며, 결과를 반환하는 데 시간이 오래 걸리므로 실시간 쿼리에는 사용해서는 안 됩니다.

HBase: 데이터베이스. 빅데이터의 실시간 조회에 매우 적합합니다. Facebook은 Hbase를 사용하여 메시지 데이터를 저장하고 메시지의 실시간 분석을 수행합니다.

ZooKeeper: 대규모 분산을 위한 안정적인 조정 시스템입니다. 여러 NameNode 및 활성 대기 전환과 같은 Hadoop의 분산 동기화는 Zookeeper에 의해 구현됩니다.

Sqoop: 데이터베이스를 서로 전송하고, 관계형 데이터베이스와 HDFS를 서로 전송합니다.

Mahout: 확장 가능한 기계 학습 및 데이터 마이닝 라이브러리. 추천 마이닝, 집계, 분류, 빈번한 항목 집합 마이닝에 사용됩니다.

Chukwa: HDFS 및 Map/Reduce 프레임워크를 기반으로 구축된 대규모 분산 시스템을 모니터링하는 오픈 소스 수집 시스템입니다. 결과를 표시, 모니터링 및 분석합니다.

Ambari: 웹 기반의 친숙한 인터페이스인 Hadoop 클러스터를 구성, 관리 및 모니터링하는 데 사용됩니다.

관련 권장사항: "FAQ"

3. Cloudera

Cloudera Manager: 관리, 모니터링 및 진단 통합

Cloudera CDH: (Apache Hadoop을 포함한 Cloudera의 배포판) Cloudera는 Hadoop에 상응하는 변경 사항을 적용했습니다. 버전은 CDH라고 합니다.

Cloudera Flume: 데이터 수집을 위해 로그 시스템의 다양한 데이터 전송자를 사용자 정의할 수 있도록 지원하는 로그 수집 시스템입니다.

Cloudera Impala: Apache Hadoop의 HDFS 및 HBase에 저장된 데이터에 대한 직접 쿼리 및 대화형 SQL을 제공합니다.

Clouderahue: Hui ui, hui 서버, hui db를 포함한 웹 관리자. Hue는 모든 CDH 구성 요소에 대한 셸 인터페이스 인터페이스를 제공하며 mr은 Hue로 작성할 수 있습니다.

4. 기계 학습/R

R: 통계 분석 및 그래픽을 위한 언어 및 운영 환경, 현재 Hadoop-R

mahout: 클러스터링, 분류, 추천 필터링, 빈번한 하위 항목 마이닝 등을 지원하며 Hadoop을 통해 클라우드로 확장 가능합니다.

5. Storm

Storm: 실시간 분석, 온라인 기계 학습, 정보 흐름 처리, 연속 컴퓨팅, 분산 RPC, 실시간에 사용할 수 있는 분산형 내결함성 실시간 스트리밍 컴퓨팅 시스템 메시지 처리 및 데이터베이스 업데이트.

Kafka: 소비자 규모 웹사이트에서 모든 작업 스트리밍 데이터(탐색, 검색 등)를 처리할 수 있는 처리량이 높은 분산 게시-구독 메시징 시스템입니다. Hadoop의 로그 데이터 및 오프라인 분석과 비교하여 실시간 처리가 가능합니다. 현재 Hadoop의 병렬 로딩 메커니즘은 온라인과 오프라인 메시지 처리를 통합하는 데 사용됩니다.

Redis: C 언어로 작성되었으며 네트워크를 지원하며 메모리 기반 및 영구화가 가능한 로그 유형의 키-값 데이터베이스입니다.

5. Spark

Scala: Java와 유사한 완전한 객체 지향 프로그래밍 언어입니다.

jblas: 빠른 선형 대수학 라이브러리(JAVA). ATLAS ART 구현은 행렬 계산의 사실상 업계 표준인 BLAS 및 LAPACK을 기반으로 하며 모든 계산 절차에 고급 인프라를 사용하므로 속도가 매우 빠릅니다.

Spark: Spark는 Scala 언어로 구현된 Hadoop MapReduce와 유사한 일반적인 병렬 프레임워크입니다. Hadoop MapReduce의 장점 외에도 MapReduce와는 달리 작업의 중간 출력 결과를 메모리에 저장할 수 있으므로 HDFS를 읽고 쓸 필요가 없으므로 Spark는 데이터 마이닝 및 기계 학습과 같은 반복이 필요한 MapReduce 알고리즘에 더 적합할 수 있습니다. Mesos를 사용하는 타사 클러스터 프레임워크는 Hadoop 파일 시스템과 병렬로 작동할 수 있습니다.

Spark SQL: Apache Spark 빅 데이터 프레임워크의 일부로 구조화된 데이터 처리에 사용할 수 있으며 SQL과 유사한 Spark 데이터 쿼리를 수행할 수 있습니다.

Spark 스트리밍: Spark의 기능을 확장하는 Spark 기반의 실시간 컴퓨팅 프레임워크입니다. 빅데이터를 처리하는 능력 데이터를 스트리밍하는 능력.

Spark MLlib: MLlib는 일반적으로 사용되는 기계 학습 알고리즘을 위한 Spark의 구현 라이브러리입니다. 현재(2014.05) 이진 분류, 회귀, 클러스터링 및 협업 필터링을 지원합니다. 또한 낮은 수준의 경사하강법 최적화 기본 알고리즘도 포함되어 있습니다. MLlib는 jblas 선형 대수 라이브러리에 의존하고 jblas 자체는 원격 Fortran 프로그램에 의존합니다.

Spark GraphX: GraphX는 Spark의 그래프 및 그래프 병렬 컴퓨팅을 위한 API로 Spark 위에 원스톱 데이터 솔루션을 제공할 수 있으며 그래프 컴퓨팅을 위한 전체 파이프라인 작업 세트를 편리하고 효율적으로 완료할 수 있습니다.

Fortran: 과학 및 엔지니어링 컴퓨팅 분야에서 널리 사용되는 최초의 고급 컴퓨터 프로그래밍 언어입니다.

BLAS: 선형 대수 연산을 위해 이미 작성된 다수의 프로그램이 포함된 기본 선형 대수 서브루틴 라이브러리입니다.

LAPACK: 유명한 공개 소프트웨어에는 선형 방정식, 선형 최소 제곱 문제, 고유값 문제 및 특이값 문제 등과 같은 과학 및 공학 계산에서 가장 일반적인 수치 선형 대수 문제를 해결하는 기능이 포함되어 있습니다.

ATLAS: BLAS 선형 알고리즘 라이브러리의 최적화된 버전입니다.

Spark Python: Spark는 스칼라 언어로 작성되었지만 홍보 및 호환성을 위해 Java 및 Python 인터페이스가 제공됩니다.

6. Python

Python: 객체 지향, 해석형 컴퓨터 프로그래밍 언어입니다.

7. 클라우드 컴퓨팅 플랫폼

Docker: 오픈 소스 애플리케이션 컨테이너 엔진

kvm: (키보드 비디오 마우스)

openstack: 오픈 소스 클라우드 컴퓨팅 관리 플랫폼 프로젝트

위 내용은 빅데이터 학습 경로는 무엇인가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Deepseek 웹 버전 공식 입구Mar 12, 2025 pm 01:42 PM

국내 AI Dark Horse Deepseek은 글로벌 AI 산업에 충격을 주면서 강력하게 증가했습니다! 1 년 반 동안 단지 설립 된이 중국 인공 지능 회사는 무료 및 오픈 소스 모형 인 DeepSeek-V3 및 DeepSeek-R1에 대해 글로벌 사용자로부터 광범위한 칭찬을 받았습니다. DeepSeek-R1은 이제 OpenAIO1의 공식 버전과 비교할 수있는 성능으로 완전히 출시되었습니다! 웹 페이지, 앱 및 API 인터페이스에서 강력한 기능을 경험할 수 있습니다. 다운로드 방법 : iOS 및 Android 시스템을 지원하면 사용자가 App Store를 통해 다운로드 할 수 있습니다. Deepseek 웹 버전 공식 입구 : HT

DeepSeek의 바쁜 서버 문제를 해결하는 방법Mar 12, 2025 pm 01:39 PM

DeepSeek : 서버와 혼잡 한 인기있는 AI를 처리하는 방법은 무엇입니까? 2025 년 핫 AI로서 DeepSeek은 무료이며 오픈 소스이며 OpenAIO1의 공식 버전과 비교할 수있는 성능을 가지고 있으며, 이는 인기를 보여줍니다. 그러나 높은 동시성은 서버 바쁜 문제를 가져옵니다. 이 기사는 이유를 분석하고 대처 전략을 제공합니다. DeepSeek 웹 버전 입구 : https://www.deepseek.com/deepseek 서버 바쁜 이유 : 높은 동시 액세스 : DeepSeek의 무료 및 강력한 기능은 동시에 많은 사용자를 유치하여 과도한 서버로드를 초래합니다. 사이버 공격 : DeepSeek은 미국 금융 산업에 영향을 미친다 고보고되었습니다.

심층적 인 검색 DeepSeek 공식 웹 사이트 입학Mar 12, 2025 pm 01:33 PM

2025 년 초, 국내 AI "Deepseek"은 놀라운 데뷔를했습니다! 이 무료 및 오픈 소스 AI 모델은 OpenAI의 O1의 공식 버전과 비교할 수있는 성능을 가지고 있으며 웹 측, 앱 및 API에서 완전히 출시되어 iOS, Android 및 웹 버전의 다중 터미널 사용을 지원합니다. DeepSeek 공식 웹 사이트 및 사용 지침의 심도있는 검색 : 공식 웹 사이트 주소 : https://www.deepseek.com/using 웹 버전 : 위의 링크를 클릭하여 DeepSeek 공식 웹 사이트를 입력하십시오. 홈페이지에서 "대화 시작"버튼을 클릭하십시오. 먼저 사용하려면 휴대폰 확인 코드와 함께 로그인해야합니다. 로그인 한 후 대화 인터페이스를 입력 할 수 있습니다. DeepSeek은 강력하고 코드를 작성하고 파일을 읽고 코드를 만들 수 있습니다.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.