>  기사  >  기술 주변기기  >  머신러닝으로 구조화되지 않은 데이터 문제 해결

머신러닝으로 구조화되지 않은 데이터 문제 해결

WBOY
WBOY앞으로
2023-04-11 22:07:061450검색

​Translator | Bugatti

Reviewer | Sun Shujuan

데이터 혁명이 본격화되고 있습니다. 향후 5년 동안 생성되는 디지털 데이터의 총량은 지금까지 생성된 데이터 양의 두 배가 될 것이며, 비정형 데이터는 디지털 경험의 새로운 시대를 정의할 것입니다.

머신러닝으로 구조화되지 않은 데이터 문제 해결

비정형 데이터는 기존 모델을 따르지 않거나 정형 데이터베이스 형식에 적합하지 않은 정보를 말하며, 전체 새로운 기업 데이터의 80% 이상을 차지합니다. 이러한 변화에 대비하기 위해 많은 기업에서는 비즈니스 분석 및 인공 지능을 포함한 다양한 도구에서 모든 데이터를 관리, 분석하고 최대한 활용할 수 있는 혁신적인 방법을 찾고 있습니다. 그러나 정책입안자들은 오래된 문제에 직면해 있습니다. 즉, 다루기 힘든 대규모 데이터 세트의 품질을 어떻게 유지하고 개선할 것인가?

머신러닝이 해결책입니다. 이제 기계 학습 기술의 발전으로 조직은 구조화되지 않은 데이터를 효율적으로 처리하고 품질 보증 노력을 개선할 수 있습니다. 데이터 혁명이 코앞으로 다가온 가운데, 귀사는 어디에서 어려움을 겪고 있습니까? 귀중하지만 관리하기 어려운 데이터 세트에 직면했거나 데이터를 사용하여 비즈니스를 발전시키고 있습니까?

구조화되지 않은 데이터에는 복사-붙여넣기 이상의 것이 필요합니다.

현대 비즈니스에서 정확하고 시의적절하며 일관적인 데이터의 가치는 의심의 여지가 없으며 클라우드 컴퓨팅 및 디지털 애플리케이션만큼 중요합니다. 그럼에도 불구하고 열악한 데이터 품질로 인해 기업은 연간 평균 1,300만 달러의 비용을 지출합니다.

데이터 문제를 해결하려면 통계적 방법을 사용하여 데이터의 형태를 측정합니다. 이를 통해 데이터 팀은 변경 사항을 추적하고 이상값을 제거하며 데이터 드리프트를 제거할 수 있습니다. 통계적 방법을 기반으로 한 제어는 데이터 품질을 판단하고 중요한 결정을 내리기 전에 데이터 세트를 사용해야 하는 방법과 시기를 결정하는 데 여전히 중요합니다. 이 통계 방법은 효과적이지만 일반적으로 객관적이고 정량적인 측정에 적합한 구조화된 데이터 세트에 사용됩니다.

하지만 Microsoft Excel이나 Google Sheets에 맞지 않는 데이터는 어떻게 되나요? 포함 사항:

  • IoT: 센서 데이터, 주식 데이터 및 로그 데이터
  • 멀티미디어: 사진, 오디오 및 비디오
  • 리치 미디어: 지리 공간 데이터, 위성 이미지, 날씨 데이터 및 감시 데이터
  • 문서: 워드 프로세싱 문서, 스프레드시트, 프레젠테이션, 이메일 및 커뮤니케이션 데이터

이러한 유형의 구조화되지 않은 데이터가 사용되면 불완전하거나 부정확한 정보가 모델에 입력되기 쉽습니다. 오류가 발견되지 않으면 데이터 문제가 누적되어 분기별 보고부터 예측에 이르기까지 모든 것에 큰 피해를 줄 수 있습니다. 구조화된 데이터에서 구조화되지 않은 데이터로의 간단한 복사 및 붙여넣기 방식으로는 충분하지 않으며 실제로 비즈니스를 악화시킬 수 있습니다.

"쓰레기가 들어오면 쓰레기가 나온다"는 일반적인 속담은 구조화되지 않은 데이터 세트에 매우 잘 적용됩니다. 어쩌면 이제 데이터에 대한 현재의 접근 방식을 버려야 할 때일 수도 있습니다.

데이터 품질을 보장하기 위해 기계 학습을 사용할 때 주의할 사항

구조화되지 않은 데이터에 대한 솔루션을 고려할 때 기계 학습이 첫 번째 선택이 되어야 합니다. 머신러닝은 방대한 데이터 세트를 분석하고, 지저분한 데이터에서 패턴을 빠르게 찾아낼 수 있기 때문입니다. 올바른 교육을 통해 기계 학습 모델은 모든 형태의 구조화되지 않은 데이터 유형을 해석, 구성 및 분류하는 방법을 학습할 수 있습니다.

예를 들어, 기계 학습 모델은 데이터 분석, 정리, 확장에 대한 규칙을 권장하는 방법을 학습하여 의료, 보험과 같은 산업 분야의 작업을 더욱 효율적이고 정확하게 만들 수 있습니다. 마찬가지로, 기계 학습 프로그램은 소셜 미디어나 이메일 기록에서 발견된 것과 같은 구조화되지 않은 데이터 소스에서 주제나 감정에 따라 텍스트 데이터를 식별하고 분류할 수 있습니다.

기계 학습을 통해 데이터 품질 노력을 향상할 때 다음과 같은 몇 가지 주요 고려 사항을 염두에 두세요.

  • 자동화: 데이터 분리 및 수정과 같은 수동 데이터 작업은 지루하고 시간이 많이 걸립니다. 또한 지루한 일상 작업을 처리하고 데이터 팀이 더 중요하고 효율적인 작업에 집중할 수 있게 해주는 오늘날의 자동화 기능을 고려할 때 이러한 작업은 점점 더 쓸모없어지고 있습니다. 데이터 파이프라인에 자동화를 통합하려면 모든 자동화 활동에 대해 간소화되고 예측 가능한 프로세스를 장려할 수 있는 표준화된 운영 절차와 거버넌스 모델이 마련되어 있는지 확인하세요.
  • 인간의 감독을 간과하지 마십시오. 데이터의 복잡성에는 구조화된 데이터이든 구조화되지 않은 데이터이든 항상 인간만이 제공할 수 있는 수준의 전문 지식과 컨텍스트가 필요합니다. 기계 학습 및 기타 디지털 솔루션이 데이터 팀에 도움이 되지만 기술에만 의존하지 마십시오. 대신, 개별 데이터 프로세스를 정기적으로 감독하면서 팀이 기술을 활용할 수 있도록 역량을 강화하세요. 이러한 손상은 기존 기술 조치로는 처리할 수 없는 데이터 오류를 수정할 수 있습니다. 나중에 이러한 차이점을 기반으로 모델을 재교육할 수 있습니다.
  • 근본 원인 감지: 이상 현상이나 기타 데이터 오류가 발생하면 단일 이벤트가 아닌 경우가 많습니다. 데이터를 수집하고 분석할 때 더 깊은 문제를 무시하면 조직은 데이터 파이프라인 전체에 걸쳐 광범위한 품질 문제를 일으킬 위험이 있습니다. 최고의 머신 러닝 이니셔티브라도 업스트림에서 생성된 오류를 해결할 수 없으며, 선택적인 인간 개입을 통해 전체 데이터 흐름을 강화하고 심각한 오류를 방지할 수 있습니다.
  • 품질에 대해 가정하지 마세요. 장기적으로 데이터 품질을 분석하려면 데이터의 형태에 대해 가정하기보다는 구조화되지 않은 데이터를 정성적으로 측정하는 방법을 찾으세요. "what-if" 시나리오를 생성하고 테스트하여 고유한 측정 방법, 예상 출력 및 매개변수를 개발할 수 있습니다. 데이터를 사용하여 실험을 실행하면 데이터 품질과 성능을 계산하는 결정적인 방법이 제공되며 데이터 품질 자체를 자동으로 측정할 수 있습니다. 이 단계를 통해 품질 관리가 항상 이루어지고 나중에 고려하지 않고 데이터 수집 파이프라인의 필수 기능으로 사용됩니다.

구조화되지 않은 데이터는 새로운 기회와 통찰력의 보고입니다. 그러나 현재 조직의 18%만이 비정형 데이터를 활용하고 있으며 데이터 품질은 더 많은 비즈니스를 방해하는 주요 요인 중 하나입니다.

비정형 데이터가 점점 대중화되고 일상적인 비즈니스 결정 및 운영과 관련성이 높아짐에 따라 기계 학습 기반 품질 관리는 꼭 필요한 보증을 제공합니다. 즉, 데이터가 관련성이 있고 정확하며 유용합니다. 데이터 품질에 집착하지 않는다면 데이터를 사용하여 회사를 발전시키는 데 전념할 수 있습니다.

데이터를 제어할 때 발생하는 기회를 생각해 보세요. 아니면 기계 학습이 대신 작업을 처리하도록 맡기는 것이 더 좋습니다.

원제: Solve the Problem of Unstructured Data with Machine Learning​, 저자: Edgar Honing​

위 내용은 머신러닝으로 구조화되지 않은 데이터 문제 해결의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제