빅데이터를 시작하기 위한 네 가지 필수 상식
빅데이터 엔지니어에게 매우 중요한 일은 데이터를 분석하여 과거 사건의 특징을 찾아내는 것입니다. 예를 들어, Tencent의 데이터 팀은 회사의 모든 네트워크 플랫폼에 있는 크고 불규칙한 데이터 정보를 분류하고 광고 게재를 포함하여 회사의 다양한 비즈니스의 데이터 요구를 지원하기 위해 쿼리할 수 있는 특성을 요약하기 위해 데이터 창고를 구축하고 있습니다. 게임 개발, 소셜 네트워킹 등
1. 빅데이터 분석의 5가지 기본 측면
1. 시각적 분석
빅데이터 분석의 사용자에는 빅데이터 분석 전문가와 일반 사용자가 포함되지만, 둘 다 빅데이터 분석에 있어 가장 기본입니다. 요구사항은 시각적 분석이다. 시각적 분석은 빅데이터의 특징을 직관적으로 제시할 수 있음과 동시에 그림을 통해 말하는 것처럼 간단하고 명확하게 독자에게 쉽게 받아들여질 수 있기 때문이다.
2. 데이터 마이닝 알고리즘
빅데이터 분석의 이론적 핵심은 데이터 마이닝 알고리즘이 다양한 데이터 유형과 형식을 기반으로 데이터 자체의 특성을 보다 과학적으로 나타내기 때문입니다. 전 세계 통계학자들이 인정한 다양한 통계 방법(진리라고 할 수 있음)만이 데이터에 깊이 파고들어 인정된 가치를 발굴할 수 있습니다. 또 다른 측면은 이러한 데이터 마이닝 알고리즘이 빅데이터를 더 빠르게 처리할 수 있다는 것입니다. 알고리즘이 결론에 도달하는 데 수년이 걸린다면 빅데이터의 가치를 말할 수 없게 됩니다.
3. 예측 분석 능력
빅데이터 분석의 최종 응용 분야 중 하나는 예측 분석입니다. 빅데이터로부터 특성을 추출하고, 과학적으로 모델을 구축하면, 그 모델을 통해 새로운 데이터를 가져올 수 있습니다.
4. 의미 엔진
빅 데이터 분석은 사용자의 검색 키워드, 태그 키워드 또는 기타 입력 의미를 분석하고 판단하여 더 나은 사용자 경험과 광고 일치를 달성할 수 있습니다.
5. 데이터 품질 및 데이터 관리
빅 데이터 분석은 데이터 품질 및 데이터 관리와 불가분의 관계에 있습니다. 고품질 데이터와 효과적인 데이터 관리는 학문적 연구이든 상업적 응용이든 분석 결과를 보장할 수 있습니다. 빅데이터 분석의 기본은 위의 5가지 측면입니다. 물론, 빅데이터 분석을 좀 더 깊이 들어가 보면 더 독특하고 심층적이며 전문적인 빅데이터 분석 방법이 많이 있습니다.
2. 적합한 데이터 분석 도구를 선택하는 방법
분석할 데이터를 이해하기 위해 빅데이터로 분석할 수 있는 주요 데이터 유형은 네 가지가 있습니다.
트랜잭션 데이터
빅 데이터 플랫폼은 더 큰 범위를 얻을 수 있습니다. POS나 전자상거래 쇼핑 데이터뿐만 아니라 웹 서버 로그에 기록된 인터넷 클릭 스트림 데이터와 같은 행동 거래 데이터까지 포함하여 더 넓은 범위의 거래 데이터 유형을 분석할 수 있도록 더욱 대규모로 구조화된 거래 데이터를 제공합니다.
인간 생성 데이터
비정형 데이터는 블로그, 위키, 특히 소셜 미디어를 통해 생성된 이메일, 문서, 사진, 오디오, 비디오 및 데이터 스트림에 널리 존재합니다. 이 데이터는 텍스트 분석 기능을 사용하여 분석할 수 있는 풍부한 데이터 소스를 제공합니다.
MOBILE DATA
인터넷 접속이 가능한 스마트폰과 태블릿이 점점 더 일반화되고 있습니다. 이러한 모바일 장치의 앱은 인앱 거래 데이터(예: 제품 검색 기록)부터 프로필 또는 상태 보고 이벤트(예: 새 지역 코드를 보고하는 위치 변경)에 이르기까지 수많은 이벤트를 추적하고 전달할 수 있습니다.
기계 및 센서 데이터
여기에는 스마트 계량기, 스마트 온도 조절기, 공장 기계 및 인터넷에 연결된 가전제품과 같은 기능 장치에서 생성되거나 생성된 데이터가 포함됩니다. 이러한 장치는 인터네트워크의 다른 노드와 통신하도록 구성할 수 있으며 데이터를 분석할 수 있도록 자동으로 중앙 서버에 데이터를 전송할 수도 있습니다. 기계 및 센서 데이터는 새롭게 떠오르는 사물 인터넷(IoT)에서 발생하는 대표적인 예입니다. IoT의 데이터는 분석 모델을 구축하고, 예측 동작을 지속적으로 모니터링하고(예: 센서 값이 문제를 나타내는 시기 식별) 규정된 지침을 제공(예: 실제 문제가 발생하기 전에 장비를 검사하도록 기술자에게 경고)하는 데 사용될 수 있습니다.
관련 추천: "FAQ"
3. 세 가지 인기 있는 빅 데이터 직업을 구별하는 방법 - 데이터 과학자, 데이터 엔지니어, 데이터 분석가
빅 데이터가 점점 대중화됨에 따라 관련 빅 데이터 직업도 늘어나고 있습니다. 또한 인기를 끌면서 인재 개발의 기회를 많이 가져옵니다. 데이터 과학자, 데이터 엔지니어, 데이터 분석가는 빅데이터 업계에서 가장 인기 있는 직위가 되었습니다. 어떻게 정의되나요? 정확히 어떤 기능이 필요한가요?
이 세 가지 직업은 어떻게 포지셔닝되어 있나요?
데이터 사이언티스트란 어떤 존재인가요
데이터 과학자란 과학적 방법과 데이터 마이닝 도구를 사용하여 복잡하고 대량의 숫자, 기호, 텍스트, URL, 오디오 또는 비디오 정보를 디지털 방식으로 재현하고 이해하며 새로운 데이터 통찰력을 찾을 수 있는 엔지니어 또는 전문가를 말합니다(통계학자와 달리) 또는 분석가).
데이터 엔지니어는 어떻게 정의되나요?
데이터 엔지니어는 일반적으로 "통계학 분야에 대한 깊은 이해를 갖춘 스타 소프트웨어 엔지니어"로 정의됩니다. 비즈니스 문제로 어려움을 겪고 있다면 데이터 엔지니어가 필요합니다. 이들의 핵심 가치는 깨끗한 데이터에서 데이터 파이프라인을 생성하는 능력에 있습니다. 파일 시스템, 분산 컴퓨팅 및 데이터베이스를 완전히 이해하는 것은 훌륭한 데이터 엔지니어가 되기 위해 필요한 기술입니다.
데이터 엔지니어는 알고리즘을 꽤 잘 이해하고 있습니다. 따라서 데이터 엔지니어는 기본적인 데이터 모델을 실행할 수 있어야 합니다. 고급 비즈니스 요구로 인해 매우 복잡한 계산이 필요해졌습니다. 이러한 요구 사항은 데이터 엔지니어의 지식 범위를 초과하는 경우가 많습니다. 이때 데이터 과학자에게 도움을 요청해야 합니다.
데이터 분석가를 이해하는 방법
데이터 분석가는 업계 데이터를 수집, 구성 및 분석하고 데이터를 기반으로 업계 조사, 평가 및 예측을 전문으로 하는 다양한 업계의 전문가를 말합니다. 그들은 올바른 질문을 하는 방법을 알고 있으며 데이터 분석, 데이터 시각화 및 데이터 프레젠테이션에 매우 능숙합니다.
이 세 가지 직업의 구체적인 책임은 무엇입니까?
데이터 과학자의 직무
데이터 과학자는 데이터를 탐색하여 주변 세계를 살펴보는 경향이 있습니다. 흩어져 있는 대량의 데이터를 분석 가능한 구조화된 데이터로 변환하려면 풍부한 데이터 소스를 찾고, 불완전할 수 있는 다른 데이터 소스를 통합하고, 결과 데이터 세트를 정리하는 것도 필요합니다. 새로운 경쟁 환경에서는 과제가 끊임없이 변화하고 새로운 데이터가 끊임없이 유입됩니다. 데이터 과학자는 의사 결정자가 임시 데이터 분석부터 지속적인 데이터 상호 작용 분석에 이르기까지 다양한 분석을 진행하도록 도와야 합니다. 그들은 발견한 내용을 전달하고 새로운 비즈니스 방향을 제시합니다. 시각적 정보를 창의적으로 표현하고 자신이 찾은 패턴을 명확하고 설득력 있게 만듭니다. 데이터에 포함된 패턴을 상사에게 제안하여 제품, 프로세스 및 의사 결정에 영향을 줍니다.
데이터 엔지니어의 업무 책임
역사 분석, 미래 예측, 선택 최적화는 빅 데이터 엔지니어가 '데이터를 가지고 놀 때' 가장 중요한 세 가지 작업입니다. 이 세 가지 작업 라인을 통해 회사는 더 나은 비즈니스 결정을 내릴 수 있습니다.
빅데이터 엔지니어의 매우 중요한 임무는 데이터를 분석하여 과거 사건의 특징을 찾아내는 것입니다. 예를 들어, Tencent의 데이터 팀은 회사의 모든 네트워크 플랫폼에 있는 크고 불규칙한 데이터 정보를 분류하고 광고 게재를 포함하여 회사의 다양한 비즈니스의 데이터 요구를 지원하기 위해 쿼리할 수 있는 특성을 요약하기 위해 데이터 창고를 구축하고 있습니다. 게임 개발, 소셜 네트워킹 등
과거 이벤트의 특징을 알아내는 가장 큰 역할은 기업이 소비자를 더 잘 이해할 수 있도록 돕는 것입니다. 사용자의 과거 행동 궤적을 분석하면 이 사람을 이해하고 그의 행동을 예측할 수 있습니다.
핵심 요소를 도입함으로써 빅데이터 엔지니어는 미래 소비 트렌드를 예측할 수 있습니다. Alimama의 마케팅 플랫폼에서 엔지니어들은 날씨 데이터를 도입하여 Taobao 판매자의 비즈니스를 돕기 위해 노력하고 있습니다. 예를 들어 올 여름이 덥지 않다면 지난해만큼 잘 팔리지 않을 가능성이 크다. 에어컨과 선풍기 외에 조끼, 수영복 등도 영향을 받을 가능성이 크다. 그런 다음 날씨 데이터와 판매 데이터 간의 관계를 설정하고 관련 카테고리를 찾아 판매자에게 사전에 재고를 넘기도록 경고합니다.
다양한 기업의 비즈니스 성격에 따라 빅데이터 엔지니어는 데이터 분석을 통해 다양한 목적을 달성할 수 있습니다. Tencent의 경우 빅데이터 엔지니어의 작업을 반영하는 가장 간단하고 직접적인 예는 제품 관리자가 대안 A와 B 중에서 선택할 수 있도록 돕는 옵션 테스트(AB 테스트)입니다. 과거에는 의사결정자가 경험을 바탕으로만 판단을 내릴 수 있었지만 이제는 빅데이터 엔지니어가 대규모 실시간 테스트를 수행할 수 있습니다. 예를 들어 소셜 네트워크 제품의 경우 사용자 중 절반이 인터페이스 A를 보게 하고 나머지 절반은 인터페이스 B를 사용하고 일정 기간 동안의 클릭률 및 전환율 통계를 관찰하면 마케팅 부서가 최종 선택을 내리는 데 도움이 됩니다.
데이터 분석가의 직무 책임
인터넷 자체는 디지털 및 대화형 특성을 갖고 있어 데이터 수집, 구성 및 연구에 혁명적인 돌파구를 가져왔습니다. 과거에 "원자 세계"의 데이터 분석가는 연구 및 분석을 지원하는 데이터를 얻기 위해 더 많은 비용(자금, 자원 및 시간)을 소비해야 했습니다. 데이터의 풍부함, 포괄성, 연속성 및 적시성은 인터넷보다 훨씬 나빴습니다. 연대.
전통적인 데이터 분석가에 비해 인터넷 시대의 데이터 분석가가 직면하는 것은 데이터 부족이 아니라 데이터 과잉입니다. 따라서 인터넷 시대의 데이터 분석가는 효율적인 데이터 처리를 수행하기 위해 기술적 수단을 사용하는 방법을 배워야 합니다. 더 중요한 것은 인터넷 시대의 데이터 분석가는 데이터 연구 방법론에서 지속적으로 혁신하고 획기적인 발전을 이뤄야 한다는 것입니다.
산업 측면에서 데이터 분석가의 가치는 이와 비슷합니다. 뉴스 출판 산업에 있어서는 어느 시대를 막론하고 미디어 사업자가 독자의 상황과 변화하는 추세를 정확하고 상세하며 시의적절하게 이해할 수 있는지 여부가 미디어의 성공과 실패의 열쇠입니다.
또한 뉴스, 출판 등 콘텐츠 산업에서는 데이터 분석가가 콘텐츠 소비자 데이터 분석 역할을 수행할 수 있다는 것이 더욱 중요합니다. 이는 뉴스 및 출판 조직의 고객 서비스 개선을 지원하는 핵심 기능입니다.
이 3가지 직업에 종사하려면 어떤 기술을 습득해야 하나요?
A. 데이터 과학자가 습득해야 할 기술
1. 컴퓨터 과학
일반적으로 대부분의 데이터 과학자는 프로그래밍 및 컴퓨터 관련 전공을 요구합니다. 과학 배경입니다. 쉽게 말하면 빅데이터 처리에 필요한 하둡(Hadoop), 머하웃(Mahout) 등 대규모 병렬처리 기술과 머신러닝과 관련된 기술이다.
2. 수학, 통계, 데이터 마이닝 등
수학과 통계에 대한 소양 외에도 SPSS, SAS 등 주류 통계분석 소프트웨어를 사용할 수 있는 능력도 필요합니다. 그 중 최근 통계 분석을 위한 오픈소스 프로그래밍 언어와 그 운영 환경인 'R'이 많은 주목을 받고 있다. R의 강점은 풍부한 통계 분석 라이브러리를 포함하고 있을 뿐만 아니라 간단한 명령을 통해 실행할 수 있는 결과 시각화를 위한 고품질 차트 생성 기능을 갖추고 있다는 것입니다. 또한 CRAN(The Comprehensive R Archive Network)이라는 패키지 확장 메커니즘도 있습니다. 확장 패키지를 가져오면 표준 상태에서 지원되지 않는 기능과 데이터 세트를 사용할 수 있습니다.
3. 데이터 시각화(Visualization)
정보의 질은 표현에 따라 크게 좌우됩니다. 숫자 목록으로 구성된 데이터에 담긴 의미를 분석하고, 웹 프로토타입을 개발하며, 외부 API를 이용해 차트, 지도, 대시보드 등의 서비스를 통합해 분석 결과를 시각화하는 것은 데이터 사이언티스트에게 매우 중요한 기술 중 하나이다.
B. 데이터 엔지니어가 습득해야 할 기술
1. 수학과 통계 관련 배경
빅 데이터 엔지니어의 요구 사항은 모두 통계 및 수학 배경이 있는 석사 또는 박사 학위를 희망합니다. 이론적 배경이 부족한 데이터 작업자는 기술적 위험 영역(위험 영역)에 들어갈 가능성이 더 높습니다. 숫자의 무리는 항상 다양한 데이터 모델 및 알고리즘에 따라 일부 결과를 생성할 수 있지만, 그 의미를 모르는 경우에는 실제로 의미 있는 결과는 아니며 그러한 결과는 쉽게 오해를 불러일으킬 수 있습니다. 특정 이론적 지식이 있어야만 모델을 이해하고, 모델을 재사용하고, 모델을 혁신하여 실제 문제를 해결할 수 있습니다.
2. 컴퓨터 코딩 능력
실제 개발 능력과 대규모 데이터 처리 능력은 빅데이터 엔지니어에게 필요한 요소 중 하나입니다. 많은 데이터의 가치는 채굴 과정에서 나오기 때문에, 금의 가치를 발견하려면 직접 채굴을 해봐야 합니다. 예를 들어, 소셜 네트워크에서 사람들이 생성한 많은 기록은 이제 구조화되지 않은 데이터입니다. 이러한 단서 없는 텍스트, 음성, 이미지, 심지어 비디오에서도 의미 있는 정보를 추출하려면 빅 데이터 엔지니어가 직접 파헤쳐야 합니다. 일부 팀에서도 빅 데이터 엔지니어의 책임은 주로 비즈니스 분석이지만 컴퓨터가 빅 데이터를 처리하는 방식에도 익숙해야 합니다.
3. 특정 응용 분야 또는 산업에 대한 지식
빅 데이터 엔지니어의 역할에서 매우 중요한 점은 시장과 분리될 수 없다는 것입니다. 빅 데이터는 특정 분야의 응용과 결합되어야만 가치를 창출할 수 있기 때문입니다. 따라서 하나 이상의 업종에 대한 경험은 지원자가 해당 산업에 대한 지식을 축적하는 데 도움이 될 수 있으며 이는 향후 빅데이터 엔지니어가 되는 데 큰 도움이 될 수 있으므로 이 직위를 지원할 때 더욱 설득력 있는 보너스가 됩니다.
C. 데이터 분석가가 마스터해야 할 기술
1. 비즈니스를 이해합니다. 데이터 분석 업무에 참여하기 위한 전제조건은 비즈니스에 대한 이해, 즉 업계 지식, 회사 비즈니스 및 프로세스에 대한 숙지이며, 업계 지식 및 회사 비즈니스 배경과 동떨어져 있다면 자신만의 고유한 통찰력을 갖는 것이 가장 좋습니다. , 분석 결과는 오프라인에만 있을 뿐입니다. 연은 그다지 사용 가치가 없습니다.
2. 경영을 이해한다. 한편으로는 데이터 분석 프레임워크를 구축하는 것이 요구됩니다. 예를 들어 분석 아이디어를 결정하려면 경영 이론에 익숙하지 않은 경우 마케팅, 경영 및 기타 이론적 지식을 활용해야 합니다. 데이터 분석 프레임워크를 구축하는 것도 어려울 것이며, 후속 데이터 분석도 수행하기 어려울 것입니다. 한편, 데이터 분석 결론을 바탕으로 유익한 분석 제안을 제공하는 역할이 있습니다.
3. 분석을 이해하세요. 데이터 분석의 기본 원리와 효과적인 데이터 분석 방법을 숙지하고, 이를 실무에 유연하게 적용하여 데이터 분석을 효과적으로 수행할 수 있는 능력을 말합니다. 기본 분석방법으로는 비교분석, 그룹분석, 교차분석, 구조분석, 깔대기형 분석, 종합평가분석, 요인분석, 행렬상관분석 등이 있습니다. 고급 분석 방법에는 상관 분석, 회귀 분석, 군집 분석, 판별 분석, 주성분 분석, 요인 분석, 대응 분석, 시계열 등이 있습니다.
4. 도구를 이해하세요. 데이터 분석과 관련된 일반적인 도구를 익히는 것을 말합니다. 데이터 분석 방법은 이론이고 데이터 분석 도구는 데이터 분석 방법의 이론을 구현하는 도구입니다. 점점 더 많은 양의 데이터에 직면하면 분석을 위해 계산기에 의존할 수 없습니다. 일하다.
5. 디자인을 이해하세요. 디자인을 이해한다는 것은 분석 결과가 한눈에 알 수 있도록 데이터 분석가의 분석 견해를 차트를 이용해 효과적으로 표현하는 것을 의미합니다. 차트 디자인은 그래픽 선택, 레이아웃 디자인, 색상 매칭 등과 같은 주요 주제이며 모두 특정 디자인 원칙을 숙지해야 합니다.
4. 신인에서 데이터 사이언티스트가 되기 위한 9단계 육성 계획
우선, 회사마다 데이터 사이언티스트에 대한 정의가 다릅니다. 데이터 과학자는 현재 통일된 정의가 없습니다. 그러나 일반적으로 데이터 과학자는 소프트웨어 엔지니어의 기술과 통계학자의 기술을 결합하고 자신이 일하고 싶은 영역에 상당한 산업 지식을 투자했습니다.
데이터 과학자의 약 90%는 최소한 대학 교육, 심지어 박사 학위를 갖고 있으며, 물론 그들이 얻는 분야는 매우 광범위합니다. 일부 채용 담당자는 인문학 전공자가 다른 사람에게 중요한 기술을 가르치는 데 필요한 창의성을 갖추고 있음을 발견하기도 합니다.
그렇다면 (전 세계 명문 대학에 버섯처럼 생겨나는) 데이터 사이언스 학위 프로그램을 제외하고, 데이터 사이언티스트가 되려면 어떤 단계를 밟아야 할까요?
#🎜 🎜## 🎜🎜# 수학과 통계 기술을 연마하세요훌륭한 데이터 과학자는 데이터가 말하는 내용을 이해할 수 있어야 합니다. 기본 선형 대수학의 탄탄한 기초 알고리즘 및 통계 기술에 대한 이해. 특정 상황에서는 고급 수학이 필요할 수 있지만 여기서부터 시작하는 것이 좋습니다.
머신러닝의 개념 이해하기머신러닝은 차세대 신흥 단어이지만 빅데이터와 불가분의 관계에 있습니다. 기계 학습은 인공 지능 알고리즘을 사용하여 명시적인 프로그래밍 없이도 데이터를 가치로 변환합니다.
코드 배우기데이터 과학자는 컴퓨터에 데이터 분석 방법을 알려주기 위해 코드를 조정하는 방법을 알아야 합니다. Python과 같은 오픈 소스 언어로 시작하세요.
데이터베이스, 데이터 풀 및 분산 스토리지 이해데이터는 데이터베이스, 데이터 풀 또는 전체 분산 네트워크에 저장됩니다. 그리고 이 데이터의 저장소를 구축하는 방법은 이 데이터에 액세스하고, 사용하고, 분석하는 방법에 따라 달라집니다. 데이터 스토리지를 구축할 때 전반적인 아키텍처나 사전 계획이 없다면 그 결과는 엄청날 것입니다.
데이터 수정 및 데이터 정리 기술 알아보기데이터 수정은 원시 데이터를 더 쉽게 액세스하고 분석할 수 있는 다른 형식으로 변환하는 것입니다. 데이터 정리는 중복된 "불량" 데이터를 제거하는 데 도움이 됩니다. 둘 다 데이터 과학자의 도구 상자에 있는 필수 도구입니다. 그래픽 디자이너일 필요는 없지만 관리자나 CEO와 같은 일반인이 이해할 수 있도록 데이터 보고를 작성하는 방법을 알아야 합니다.
도구 상자에 더 많은 도구 추가위 팁을 숙지했다면 이제 Hadoop을 포함하여 데이터 과학 도구 상자를 확장할 차례입니다. , R 언어 및 Spark. 이러한 도구 사용에 대한 경험과 지식은 귀하를 대규모 데이터 과학 구직자 풀에서 앞서게 할 것입니다. 새로운 분야에 취업하기 전에 데이터 과학자가 되는 것을 어떻게 연습합니까? 오픈 소스 코드를 사용하여 좋아하는 프로젝트를 개발하고, 대회에 참여하고, 온라인으로 작업하고, 부트캠프에 참여하고, 자원 봉사 또는 인턴으로 일하는 데이터 과학자가 됩니다. 최고의 데이터 과학자는 데이터 분야에 대한 경험과 직관을 갖추고 자신의 업무를 입증해 후보자가 될 수 있습니다.
커뮤니티의 일원이 되세요업계의 사고 리더를 팔로우하고, 업계 블로그와 웹사이트를 읽고, 참여하고, 질문하고, 자유롭게 느끼세요. 최신 뉴스와 이론에 대해 알아보세요.
위 내용은 빅데이터를 시작하기 위한 4가지 필수 상식은 무엇인가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!