>일반적인 문제 >빅데이터의 핵심은 무엇인가

빅데이터의 핵심은 무엇인가

青灯夜游
青灯夜游원래의
2021-03-26 14:54:4831469검색

빅데이터의 핵심은 예측입니다. 빅데이터의 본질은 문제를 해결하는 것이고, 빅데이터의 핵심 가치는 예측입니다. 빅데이터는 대규모 데이터에 수학적 알고리즘을 적용하여 어떤 일이 일어날 가능성을 예측하는 것입니다. 그리고 어떤 일이 일어날 확률도 예측 모델입니다.

빅데이터의 핵심은 무엇인가

이 튜토리얼의 운영 환경: Windows 7 시스템, Dell G3 컴퓨터.

빅데이터의 핵심은 예측입니다. 이는 종종 인공 지능의 일부, 아니 오히려 기계 학습의 한 유형으로 간주됩니다. 그러나 이 정의는 오해의 소지가 있다. 빅데이터는 기계가 인간처럼 생각하도록 가르치는 것이 아닙니다.

반대로, 방대한 데이터에 수학적 알고리즘을 적용해 어떤 일이 일어날 가능성을 예측하는 것입니다. 이메일이 스팸으로 걸러질 확률, 입력한 "teh"가 "the"가 되어야 할 확률, 무단횡단하는 사람의 궤적과 속도를 바탕으로 제 시간에 길을 건널 수 있는 확률 등이 모두 있습니다. 빅데이터가 예측할 수 있는 범위 내에서. 물론, 사람이 제 시간에 길을 건널 수 있다면 무단횡단할 때 자동차의 속도를 약간만 줄여도 됩니다. 이러한 예측 시스템의 성공 열쇠는 방대한 양의 데이터를 기반으로 한다는 것입니다. 또한 시스템이 점점 더 많은 데이터를 수신함에 따라 자동으로 최상의 신호와 패턴을 검색하고 스스로 개선할 수 있을 만큼 스마트해질 수 있습니다.

빅데이터 예측(빅데이터 핵심 응용)

빅데이터 예측은 전통적인 예측을 "즉석 측정"으로 확장한 빅데이터의 핵심 응용입니다. 빅데이터 예측의 장점은 매우 어려운 예측 문제를 상대적으로 간단한 설명 문제로 변환한다는 것입니다. 이는 기존의 소규모 데이터 세트로는 불가능합니다. 예측의 관점에서 볼 때, 빅데이터 예측을 통해 얻은 결과는 실제 비즈니스를 다루는 데 사용되는 간단하고 객관적인 결론일 뿐만 아니라 비즈니스 운영 의사결정에도 도움이 될 수 있습니다.

1. 예측은 빅데이터의 핵심가치입니다

빅데이터의 본질은 문제 해결에 있으며, 예측을 바탕으로 올바른 판단을 내리는 것이 비즈니스 운영의 핵심입니다. . 빅데이터 활용을 이야기할 때 가장 많이 활용되는 사례는 '주식시장 예측', '독감 예측', '소비자 행동 예측' 등이다.

빅데이터 예측은 빅데이터와 예측 모델을 기반으로 미래에 일어날 일의 확률을 예측하는 것입니다. 빅데이터와 기존 데이터 분석의 가장 큰 차이점은 분석을 '이미 일어난 과거를 마주하는 것'에서 '곧 일어날 미래를 마주하는 것'으로 전환한다는 점이다.

빅데이터 예측의 논리적 근거는 모든 색다른 변화에는 사전에 징후가 있어야 하며 모든 것에는 따라야 할 흔적이 있다는 것입니다. 징후와 변화 사이의 패턴을 찾으면 예측이 가능합니다. 빅데이터 예측은 어떤 일이 반드시 일어날 것이라고 판단할 수는 없지만, 어떤 일이 일어날 확률을 주는 것이 더 중요합니다.

실험의 지속적인 반복과 빅데이터의 축적은 인간이 끊임없이 다양한 패턴을 발견하고 미래를 예측할 수 있게 해준다. 빅데이터를 활용해 재난을 예측하고, 빅데이터를 활용해 암의 원인을 분석하고 치료법을 찾는 것은 모두 미래 인류에게 도움이 될 수 있는 사업이다.

예를 들어, 로스앤젤레스 경찰국과 캘리포니아 대학에서는 범죄 발생을 예측하기 위해 빅데이터를 사용했습니다. Google Flu Trends는 검색 키워드를 사용하여 조류 독감의 확산을 예측합니다. 도시 계획을 위한 데이터, 기상청은 최근 기상 조건과 위성 구름 이미지를 대조하여 미래 기상 조건을 보다 정확하게 판단합니다.

2. 빅데이터 예측에 대한 사고의 변화

과거에는 사람들의 의사결정이 주로 구조화된 데이터의 20%에 의존했지만, 빅데이터 예측은 구조화되지 않은 데이터의 나머지 80%를 사용하여 의사결정을 내릴 수 있었습니다. 빅 데이터 예측은 더 많은 데이터 차원, 더 빠른 데이터 빈도 및 더 넓은 데이터 폭을 제공합니다. 스몰 데이터 시대에 비해 빅 데이터 예측에 대한 생각에는 세 가지 주요 변화가 있습니다. 즉, 샘플링 대신 실제 샘플, 인과 관계 대신 예측 효율성입니다.

1) 샘플링이 아닌 실제 샘플

스몰 데이터 시대, 모든 샘플을 얻을 수 있는 수단이 부족하여 사람들은 "무작위 조사 데이터"라는 방법을 고안했습니다. 이론적으로 표본을 더 무작위로 추출할수록 전체 표본을 더 잘 대표할 수 있습니다. 그러나 문제는 무작위 표본을 얻는 데 시간과 비용이 매우 많이 든다는 점이다. 인구조사가 대표적인 예다. 무작위 조사는 시간이 많이 걸리고 노동집약적이어서 매년 인구조사를 완료하기는 어렵다. 그러나 클라우드 컴퓨팅과 빅데이터 기술의 등장으로 대규모 인구조사가 가능해진다. 충분한 샘플 데이터와 전체 모집단 데이터도 가능해집니다.

2) 정확성보다는 효율성

작은 데이터 시대에는 샘플링 방법을 사용하기 때문에 데이터 샘플의 구체적인 작업에 매우 정밀성이 필요합니다. 그렇지 않으면 "약간의 차이, 수천 마일을 놓쳤습니다." 예를 들어, 전체 표본 1억 명 중에서 인구조사를 위해 무작위로 1,000명을 뽑았다면, 1,000명에 대한 계산에 오류가 있다면 이를 1억 명으로 확대하면 편차가 매우 커질 것입니다. 하지만 전체 샘플의 경우 편차가 있는 만큼, 증폭이 되지 않습니다.

빅데이터 시대에는 엄격한 정확성보다 대략적인 개요와 개발 맥락을 빠르게 파악하는 것이 훨씬 더 중요합니다. 때로는 새로운 유형의 데이터가 많아도 상황이 어떻게 진행되고 있는지 계속 파악할 수 있기 때문에 정확성이 덜 중요합니다. 빅데이터를 기반으로 한 단순한 알고리즘이 소규모 데이터를 기반으로 한 복잡한 알고리즘보다 더 효과적입니다. 데이터 분석의 목적은 단순한 데이터 분석이 아닌 의사결정을 위한 것이므로 적시성 역시 매우 중요합니다.

3) 인과관계보다는 상관관계

빅데이터 연구는 기존의 논리적 추론 연구와는 달리 엄청난 양의 데이터에 대한 통계적 검색, 비교, 군집화, 분류 등의 분석과 유도가 필요하며, 데이터 상관관계나 관련성. 상관관계는 둘 이상의 변수 값 사이에 일정한 규칙성이 있음을 의미합니다. 상관관계에는 절대적인 것은 없고 가능성만 있을 뿐입니다. 그러나 상관관계가 강하면 상관관계가 성공할 확률이 매우 높습니다.

상관관계는 현재를 포착하고 미래를 예측하는 데 도움이 될 수 있습니다. A와 B가 자주 함께 발생하는 경우 A도 발생할 것이라고 예측하려면 B가 발생한다는 점만 참고하면 됩니다.

상관관계에 따르면, 세상에 대한 우리의 이해는 더 이상 가정에 기초할 필요가 없습니다. 이 가정은 현상의 생산 메커니즘과 내부 메커니즘에 대해 확립된 가정을 의미합니다. 따라서 어떤 검색어가 독감이 언제 어디서 확산되는지, 항공사가 항공권 가격을 어떻게 책정하는지 또는 Walmart 고객의 요리 선호도가 무엇인지에 대해 가설을 세울 필요가 없습니다. 대신 빅데이터에 대한 상관 분석을 수행하여 어떤 검색어가 독감 확산을 가장 잘 나타내는지, 비행기표 가격이 급등할지, 허리케인 동안 집에 있는 사람들이 가장 원하는 음식이 무엇인지 알아볼 수 있습니다.

데이터 기반의 빅데이터 상관관계 분석은 가정에 기초하여 오류가 발생하기 쉬운 방법을 대체합니다. 빅데이터 상관관계 분석 방법은 더 정확하고 빠르며 편향에 덜 민감합니다. 상관분석을 기반으로 한 예측은 빅데이터의 핵심이다.

상관분석은 그 자체로 큰 의미가 있으며, 인과관계를 연구하는데 기초가 되기도 합니다. 관련될 수 있는 사항을 식별함으로써 이를 기반으로 추가 인과 분석을 수행할 수 있습니다. 인과관계가 있다면 한 단계 더 나아가 그 이유를 알아보세요. 이 편리한 메커니즘은 엄격한 실험을 통해 인과관계 분석 비용을 줄여줍니다. 또한 상관관계를 통해 몇 가지 중요한 변수를 찾을 수 있는데, 이는 인과관계를 검증하기 위한 실험에 사용될 수 있습니다.

3. 빅데이터 예측의 대표적인 응용 분야

인터넷이 빅데이터 예측 응용의 대중화에 편리함을 가져왔으며, 국내외 사례를 바탕으로 가장 유망한 빅데이터 예측 응용 분야는 다음과 같습니다. .

1) 일기예보

날씨예보는 대표적인 빅데이터 예측 응용 분야입니다. 일기 예보의 세분화가 며칠에서 몇 시간으로 단축되었으며 적시성 요구 사항이 엄격해졌습니다. 대용량 데이터를 기반으로 전통적인 방식으로 계산을 수행한다면 내일은 이미 도래했을 것이고 결론이 내려졌을 때 예측은 아무 가치도 없을 것입니다. 그러나 빅데이터 기술의 발전은 고속 컴퓨팅 능력을 제공하므로 효율성이 크게 향상됩니다. 그리고 일기예보의 정확성.

2) 스포츠 경기 예측

2014년 월드컵 기간 동안 구글, 바이두, 마이크로소프트, 골드만삭스 등 기업들은 모두 경기 결과 예측 플랫폼을 출시했습니다. 바이두의 예측 결과는 64경기 전체 예측 정확도 67%, 녹아웃 라운드 진입 후 정확도 94%로 가장 눈길을 끈다. 이는 미래의 스포츠 이벤트가 빅데이터 예측에 의해 제어된다는 것을 의미합니다.

Google 월드컵 예측은 Opta Sports의 대규모 이벤트 데이터를 기반으로 최종 예측 모델을 구축합니다. 바이두는 지난 5년간 전 세계 987개 팀(국가대표팀, 구단팀 포함) 3만7천개 게임 데이터를 검색해 중국 복권 사이트 르카이닷컴(Lecai.com)과 유럽 베트페어 지수 데이터 제공업체 SPdex와 함께 데이터를 가져왔다. 베팅 시장의 데이터를 바탕으로 199,972명의 플레이어와 1억 1,200만 개의 데이터를 포함하는 예측 모델을 구축하고 이를 기반으로 결과를 예측했습니다.

인터넷 기업의 성공 경험으로 판단하면 스포츠 이벤트의 역사적 데이터와 인덱스 기업과의 협력이 있는 한 챔피언스리그, NBA 등 기타 이벤트에 대한 예측도 가능합니다.

3) 주식시장 예측

지난해 영국 워릭 경영대학원과 미국 보스턴대 물리학과 연구 결과, 사용자들이 구글에서 검색한 금융 키워드를 통해 금융 흐름의 방향을 예측할 수 있다는 사실이 밝혀졌다. 시장 및 해당 투자 전략 수익률은 326%에 달했습니다. 앞서 일부 전문가들은 트위터 블로그 게시물의 정서를 통해 주식시장 변동성을 예측하려 했다.

4) 시장 가격 예측

CPI는 발생한 가격 변동을 파악하는 데 사용되지만 통계청의 데이터는 공신력이 없습니다. 빅데이터는 사람들이 미래 가격 추세를 이해하고 인플레이션이나 경제 위기를 사전에 예측하는 데 도움이 될 수 있습니다. 가장 대표적인 사례는 마윈이 알리바바 B2B 빅데이터를 통해 아시아 금융위기를 사전에 알게 된 것이다.

단일 상품의 가격을 예측하기가 더 쉽습니다. 특히 항공권과 같은 표준화된 상품의 경우 "Qunar"에서 제공하는 "항공권 캘린더"는 대략적인 항공권 가격을 알 수 있는 가격 예측입니다. 몇 달.

완전 경쟁 시장에서는 상품의 생산, 채널 비용 및 대략적인 총 이익이 상대적으로 안정적이기 때문에 가격과 관련된 변수는 상대적으로 고정되어 있으며 상품의 수요와 공급 관계를 전자상거래에서 실시간으로 모니터링할 수 있습니다. 플랫폼이므로 가격을 예측할 수 있습니다. 예측 결과를 바탕으로 구매 시기를 추천받거나, 가맹점을 안내해 역동적인 가격 조정과 마케팅 활동을 진행해 수익을 극대화할 수 있습니다.

5) 사용자 행동 예측

인터넷 사업자는 사용자 검색 행동, 브라우징 행동, 댓글 기록, 개인 정보 등의 데이터를 기반으로 소비자의 전반적인 요구 사항을 파악하고 타겟 제품 생산, 개선 및 마케팅을 수행할 수 있습니다. . '하우스 오브 카드'는 배우와 줄거리를 선정하고, 바이두는 사용자 선호도를 바탕으로 정밀한 광고와 마케팅을 진행하고, 알리바바는 티몰 사용자 특성을 바탕으로 생산 라인에 맞는 맞춤형 제품을 포장하고, 아마존은 사용자 클릭 행동을 예측해 제품을 미리 배송하는 등의 과정을 거친다. 인터넷 사용자 행동 예측으로부터 이익을 얻습니다. 그림 1과 같습니다.

빅데이터의 핵심은 무엇인가
그림 1 사용자 행동 예측

센서 기술과 사물 인터넷의 발전으로 오프라인 사용자 행동에 대한 통찰력이 생겨나고 있습니다. 무료 상용 Wi-Fi, iBeacon 기술, 카메라 이미지 모니터링, 실내 측위 기술, NFC 센서 네트워크 및 대기열 시스템은 사용자의 오프라인 이동, 체류, 이동 패턴 및 기타 데이터를 감지하여 정확한 마케팅 또는 제품 맞춤화를 수행할 수 있습니다.

6) 인간 건강 예측

한의학에서는 보고, 냄새 맡고, 묻고, 관찰함으로써 인체에 숨겨진 만성 질환을 발견할 수 있으며, 심지어 사람의 몸 상태를 보면 미래에 어떤 증상이 나타날지까지 알 수 있습니다. 그녀의 체질. 신체의 신체적 징후는 특정 규칙에 따라 변화하며, 만성 질환이 발생하기 전에 인체에는 이미 지속적인 이상이 있습니다. 이론적으로는 이러한 이상 징후를 빅데이터로 파악하면 만성질환을 예측할 수 있다.

Nature News & Views는 Zeevi 외 연구진의 연구에 대해 보고했습니다. 사람의 혈당 농도가 특정 음식에 의해 어떻게 영향을 받는지에 대한 복잡한 질문입니다. 이 연구는 장내 미생물과 생리학의 다른 측면을 기반으로 개인화된 음식 추천을 제공할 수 있고 현재 표준보다 혈당 반응을 더 정확하게 예측할 수 있는 예측 모델을 제안합니다. 그림 2와 같습니다.

빅데이터의 핵심은 무엇인가
그림 2 혈당 농도 예측 모델

스마트 하드웨어로 만성질환 빅데이터 예측이 가능합니다. 웨어러블 장치와 스마트 건강 장치는 네트워크가 심박수, 체중, 혈중 지질, 혈당, 운동량, 수면량 등과 같은 인간 건강 데이터를 수집하는 데 도움이 될 수 있습니다. 이러한 데이터가 충분히 정확하고 포괄적이고 알고리즘을 구성할 수 있는 만성 질환 예측 모델을 갖춘다면 아마도 미래에는 이러한 웨어러블 장치가 사용자에게 특정 만성 질환의 위험을 상기시켜 줄 것입니다.

7) 질병 유행 예측

질병 유행 예측은 사람들의 검색 조건과 쇼핑 행동을 기반으로 대규모 전염병 발생 가능성을 예측하는 것을 말하며, 가장 고전적인 '독감 예측'이 여기에 속합니다. 특정 지역에서 '인플루엔자', '이사티스 루트'에 대한 검색 요청이 점점 많아진다면, 그 지역에 인플루엔자 경향이 있다고 추측하는 것은 당연하다.

Baidu는 현재 인플루엔자, 간염, 결핵, 결핵 등 4가지 질병에 대한 전국 모든 성, 대부분의 현급 시, 구, 군의 활동 및 추세 차트를 종합적으로 분석할 수 있는 질병 예측 제품을 출시했습니다. 성병 모니터링. 앞으로 Baidu 질병 예측이 모니터링하는 질병 유형은 현재 4개 유형에서 30개 이상 유형으로 확대되어 보다 일반적인 질병과 전염병을 포괄할 것입니다. 사용자는 지역 예측 결과를 기반으로 표적 예방을 수행할 수 있습니다.

8) 재난예보

기상예측은 가장 대표적인 재난예보이다. 지진, 홍수, 고온, 폭우 등 자연재해를 빅데이터의 힘으로 미리 예측하고 알릴 수 있다면 재난을 줄이고 예방하며 구호에 도움이 될 것입니다. 과거와 다른 점은 과거의 데이터 수집 방식은 막다른 골목, 높은 비용 등의 문제가 있었다는 점이다. 사물인터넷 시대에는 값싼 센서 카메라와 무선 통신망을 이용해 실시간 데이터 모니터링이 가능하고, 수집한 후 빅데이터 예측 분석을 활용하여 보다 정확한 자연재해 예측을 달성합니다.

9) 환경변화 예측

단기적인 미시 기상 및 재난 예측 외에도 장기적이고 거시적인 환경 및 생태 변화 예측도 가능합니다. 숲과 농지의 감소, 멸종 위기에 처한 야생동물과 식물, 해안선의 상승, 온실효과 등은 지구가 직면한 '만성적인 문제'입니다. 인간이 지구 생태계와 날씨 패턴의 변화에 ​​대해 더 많은 데이터를 알수록 미래의 환경 변화를 모델링하고 나쁜 변화가 발생하는 것을 방지하는 것이 더 쉬워집니다. 빅데이터는 인간이 더 많은 지구 데이터를 수집, 저장 및 마이닝하는 데 도움을 주는 동시에 예측 도구도 제공할 수 있습니다.

10) 교통행태 예측

교통행태 예측이란 사용자와 차량의 LBS 측위 데이터를 기반으로 이동하는 사람과 차량의 개인 및 집단 특성을 분석하여 교통행태를 예측하는 것을 말합니다. 교통부는 서로 다른 시간에 서로 다른 도로의 교통 흐름을 예측하여 지능형 차량 스케줄링을 수행하거나 조석 차선을 적용할 수 있습니다. 사용자는 예측 결과에 따라 혼잡 확률이 낮은 도로를 선택할 수 있습니다.

지도 애플리케이션을 기반으로 한 Baidu의 LBS 예측은 더 넓은 범위를 포괄합니다. 춘제 기간 동안 사람들의 이동 추세를 예측하여 기차 노선과 노선 설정을 안내할 수 있습니다. 휴일 동안 명승지의 사람들의 흐름을 예측하여 사람들의 명승지 선택을 안내할 수도 있습니다. 도시 비즈니스 구역, 동물원 및 기타 장소에서 사람들의 흐름은 사용자의 여행 선택과 업체 위치 선택을 안내할 수 있습니다.

11) 에너지 소비 예측

Likou 주립 전력망 시스템 운영 센터는 캘리포니아 전력망의 80% 이상을 관리하며, 40,000km가 넘는 전력선을 통해 연간 3,500만 명의 사용자에게 2억 8,900만 메가와트의 전력을 공급합니다. 이 센터는 지능형 관리를 위해 Space-Time Insight의 소프트웨어를 사용하고 날씨, 센서, 계량 장비 등 다양한 데이터 소스의 대용량 데이터를 종합적으로 분석하고 다양한 장소의 에너지 수요 변화를 예측하며 지능형 전력 급전을 수행하고 전력 공급의 균형을 유지합니다. 전체 네트워크와 요구 사항을 파악하고 잠재적인 위기에 신속하게 대응합니다. 중국의 스마트 그리드 산업은 이미 유사한 빅데이터 예측 애플리케이션을 시도하고 있습니다.

위에 나열된 11개 분야 외에도 빅데이터 예측은 부동산 예측, 취업 상황 예측, 대학 입시 점수 예측, 선거 결과 예측, 오스카상 예측, 보험 계약자 위험 평가, 금융 차입자 상환에도 적용될 수 있습니다. 역량 평가 등의 분야를 통해 인간은 미래에 대해 정량화 가능하고 설득력 있고 검증 가능한 통찰력을 얻을 수 있으며, 빅데이터 예측의 매력이 극대화되고 있습니다.

더 많은 관련 지식을 알고 싶다면 FAQ 칼럼을 방문해주세요!

위 내용은 빅데이터의 핵심은 무엇인가의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.