Translator | Bugatti
Reviewer | Sun Shujuan
데이터 혁명이 본격화되고 있습니다. 향후 5년 동안 생성되는 디지털 데이터의 총량은 지금까지 생성된 데이터 양의 두 배가 될 것이며, 비정형 데이터는 디지털 경험의 새로운 시대를 정의할 것입니다.
비정형 데이터는 기존 모델을 따르지 않거나 정형 데이터베이스 형식에 적합하지 않은 정보를 말하며, 전체 새로운 기업 데이터의 80% 이상을 차지합니다. 이러한 변화에 대비하기 위해 많은 기업에서는 비즈니스 분석 및 인공 지능을 포함한 다양한 도구에서 모든 데이터를 관리, 분석하고 최대한 활용할 수 있는 혁신적인 방법을 찾고 있습니다. 그러나 정책입안자들은 오래된 문제에 직면해 있습니다. 즉, 다루기 힘든 대규모 데이터 세트의 품질을 어떻게 유지하고 개선할 것인가?
머신러닝이 해결책입니다. 이제 기계 학습 기술의 발전으로 조직은 구조화되지 않은 데이터를 효율적으로 처리하고 품질 보증 노력을 개선할 수 있습니다. 데이터 혁명이 코앞으로 다가온 가운데, 귀사는 어디에서 어려움을 겪고 있습니까? 귀중하지만 관리하기 어려운 데이터 세트에 직면했거나 데이터를 사용하여 비즈니스를 발전시키고 있습니까?
현대 비즈니스에서 정확하고 시의적절하며 일관적인 데이터의 가치는 의심의 여지가 없으며 클라우드 컴퓨팅 및 디지털 애플리케이션만큼 중요합니다. 그럼에도 불구하고 열악한 데이터 품질로 인해 기업은 연간 평균 1,300만 달러의 비용을 지출합니다.
데이터 문제를 해결하려면 통계적 방법을 사용하여 데이터의 형태를 측정합니다. 이를 통해 데이터 팀은 변경 사항을 추적하고 이상값을 제거하며 데이터 드리프트를 제거할 수 있습니다. 통계적 방법을 기반으로 한 제어는 데이터 품질을 판단하고 중요한 결정을 내리기 전에 데이터 세트를 사용해야 하는 방법과 시기를 결정하는 데 여전히 중요합니다. 이 통계 방법은 효과적이지만 일반적으로 객관적이고 정량적인 측정에 적합한 구조화된 데이터 세트에 사용됩니다.
하지만 Microsoft Excel이나 Google Sheets에 맞지 않는 데이터는 어떻게 되나요? 포함 사항:
이러한 유형의 구조화되지 않은 데이터가 사용되면 불완전하거나 부정확한 정보가 모델에 입력되기 쉽습니다. 오류가 발견되지 않으면 데이터 문제가 누적되어 분기별 보고부터 예측에 이르기까지 모든 것에 큰 피해를 줄 수 있습니다. 구조화된 데이터에서 구조화되지 않은 데이터로의 간단한 복사 및 붙여넣기 방식으로는 충분하지 않으며 실제로 비즈니스를 악화시킬 수 있습니다.
"쓰레기가 들어오면 쓰레기가 나온다"는 일반적인 속담은 구조화되지 않은 데이터 세트에 매우 잘 적용됩니다. 어쩌면 이제 데이터에 대한 현재의 접근 방식을 버려야 할 때일 수도 있습니다.
구조화되지 않은 데이터에 대한 솔루션을 고려할 때 기계 학습이 첫 번째 선택이 되어야 합니다. 머신러닝은 방대한 데이터 세트를 분석하고, 지저분한 데이터에서 패턴을 빠르게 찾아낼 수 있기 때문입니다. 올바른 교육을 통해 기계 학습 모델은 모든 형태의 구조화되지 않은 데이터 유형을 해석, 구성 및 분류하는 방법을 학습할 수 있습니다.
예를 들어, 기계 학습 모델은 데이터 분석, 정리, 확장에 대한 규칙을 권장하는 방법을 학습하여 의료, 보험과 같은 산업 분야의 작업을 더욱 효율적이고 정확하게 만들 수 있습니다. 마찬가지로, 기계 학습 프로그램은 소셜 미디어나 이메일 기록에서 발견된 것과 같은 구조화되지 않은 데이터 소스에서 주제나 감정에 따라 텍스트 데이터를 식별하고 분류할 수 있습니다.
기계 학습을 통해 데이터 품질 노력을 향상할 때 다음과 같은 몇 가지 주요 고려 사항을 염두에 두세요.
구조화되지 않은 데이터는 새로운 기회와 통찰력의 보고입니다. 그러나 현재 조직의 18%만이 비정형 데이터를 활용하고 있으며 데이터 품질은 더 많은 비즈니스를 방해하는 주요 요인 중 하나입니다.
비정형 데이터가 점점 대중화되고 일상적인 비즈니스 결정 및 운영과 관련성이 높아짐에 따라 기계 학습 기반 품질 관리는 꼭 필요한 보증을 제공합니다. 즉, 데이터가 관련성이 있고 정확하며 유용합니다. 데이터 품질에 집착하지 않는다면 데이터를 사용하여 회사를 발전시키는 데 전념할 수 있습니다.
데이터를 제어할 때 발생하는 기회를 생각해 보세요. 아니면 기계 학습이 대신 작업을 처리하도록 맡기는 것이 더 좋습니다.
원제: Solve the Problem of Unstructured Data with Machine Learning, 저자: Edgar Honing
위 내용은 머신러닝으로 구조화되지 않은 데이터 문제 해결의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!