>기술 주변기기 >일체 포함 >​스마트 데이터베이스 기반 셀프서비스 머신러닝

​스마트 데이터베이스 기반 셀프서비스 머신러닝

WBOY
WBOY앞으로
2023-04-09 16:31:081718검색

​스마트 데이터베이스 기반 셀프서비스 머신러닝

번역자 | Zhang Yi

리뷰어 | Liang Ce Sun Shujuan

1. IDO가 되는 방법

IDO(통찰 중심 조직)는 통찰력 중심(정보 중심) 조직을 말합니다. IDO가 되려면 먼저 데이터를 운영하고 분석할 수 있는 도구가 필요하고, 두 번째로 적절한 경험을 갖춘 데이터 분석가 또는 데이터 과학자가 필요하며, 마지막으로 통찰력 중심 의사결정을 구현할 수 있는 기술이나 방법을 찾아야 합니다. 회사 전체의 프로세스.

머신러닝은 데이터의 장점을 극대화할 수 있는 기술입니다. ML 프로세스는 먼저 데이터를 사용하여 예측 모델을 교육한 다음, 교육이 성공한 후 데이터 관련 문제를 해결합니다. 그 중 인공신경망은 가장 효과적인 기술이며, 그 디자인은 인간의 뇌가 어떻게 작동하는지에 대한 우리의 현재 이해에서 파생됩니다. 사람들이 현재 가지고 있는 방대한 컴퓨팅 리소스를 고려하면, 대량의 데이터에 대해 훈련된 놀라운 모델을 생성할 수 있습니다.

기업에서는 다양한 셀프 서비스 소프트웨어와 스크립트를 사용하여 다양한 작업을 완료하여 인적 오류를 방지할 수 있습니다. 마찬가지로, 사람의 실수를 방지하기 위해 데이터를 기반으로 결정을 내릴 수 있습니다.

2. 기업에서 인공지능 도입이 느린 이유는 무엇인가요?

소수의 기업만이 데이터 처리에 인공지능이나 머신러닝을 사용합니다. 미국 인구조사국에 따르면 2020년 현재 미국 기업의 10% 미만이 기계 학습을 채택했습니다(주로 대기업).

ML 채택에 대한 장벽은 다음과 같습니다.

  • AI가 인간을 대체하기 전에 완료해야 할 작업이 많습니다. 첫 번째는 많은 회사에 전문가가 부족하고 이를 감당할 여유가 없다는 것입니다. 데이터 과학자는 이 분야에서 높은 평가를 받고 있지만 고용 비용도 가장 많이 듭니다.
  • 사용 가능한 데이터 부족, 데이터 보안 및 시간이 많이 걸리는 ML 알고리즘 구현.
  • 기업이 데이터와 그 장점을 최대한 활용할 수 있는 환경을 조성하는 것은 어렵습니다. 이러한 환경에는 관련 도구, 프로세스 및 전략이 필요합니다.

3. 자동 ML(AutoML) 도구만으로는 머신러닝을 홍보하기에 충분하지 않습니다.

자동 ML 플랫폼의 미래는 밝지만, 그 적용 범위는 여전히 상당히 제한적입니다. ML이 곧 데이터 과학자를 대체할 수 있다는 주장에 대해서도 논란이 있다.

회사에 셀프 서비스 머신러닝을 성공적으로 배포하려면 AutoML 도구가 정말 중요하지만 프로세스, 방법 및 전략에도 주의를 기울여야 합니다. AutoML 플랫폼은 단지 도구일 뿐이며 대부분의 ML 전문가는 이것이 충분하지 않다고 생각합니다.

4. 기계 학습 프로세스 분석

​스마트 데이터베이스 기반 셀프서비스 머신러닝

모든 ML 프로세스는 데이터에서 시작됩니다. 일반적으로 데이터 준비는 ML 프로세스에서 가장 중요한 부분이며, 모델링 부분은 전체 데이터 파이프라인의 한 부분일 뿐이며 AutoML 도구를 통해 단순화된다는 것이 일반적으로 받아들여지고 있습니다. 전체 워크플로에는 데이터를 변환하고 모델에 공급하기 위해 여전히 많은 작업이 필요합니다. 데이터 준비 및 데이터 변환은 작업에서 가장 시간이 많이 걸리고 불쾌한 부분일 수 있습니다.

또한 ML 모델을 훈련하는 데 사용되는 비즈니스 데이터도 정기적으로 업데이트됩니다. 따라서 기업은 복잡한 도구와 프로세스를 마스터할 수 있는 복잡한 ETL 파이프라인을 구축해야 하므로 ML 프로세스의 연속성과 실시간 특성을 보장하는 것도 어려운 작업입니다.

5. ML을 애플리케이션과 통합

이제 ML 모델을 구축한 다음 이를 배포해야 한다고 가정합니다. 전통적인 배포 접근 방식에서는 아래와 같이 이를 애플리케이션 계층 구성 요소로 처리합니다.

​스마트 데이터베이스 기반 셀프서비스 머신러닝

입력은 데이터이고 출력은 우리가 얻는 예측입니다. 이러한 애플리케이션의 API를 통합하여 ML 모델의 출력을 사용합니다. 개발자 관점에서는 이 모든 것이 쉬워 보이지만 프로세스를 생각하면 그렇지 않습니다. 대규모 조직에서는 비즈니스 애플리케이션과의 통합 및 유지 관리가 상당히 번거로울 수 있습니다. 회사가 기술에 능숙하더라도 코드 변경 요청은 여러 부서 수준에서 특정 검토 및 테스트 프로세스를 거쳐야 합니다. 이는 유연성에 부정적인 영향을 미치고 전체 작업 흐름의 복잡성을 증가시킵니다.

다양한 컨셉과 아이디어를 테스트할 수 있는 유연성이 충분하다면 ML 기반 의사결정이 훨씬 쉬워지므로 사람들은 셀프 서비스 기능이 있는 제품을 선호할 것입니다.

6. 셀프 서비스 머신러닝/지능형 데이터베이스?

위에서 본 것처럼 데이터는 ML 프로세스의 핵심이며 기존 ML 도구는 데이터를 가져와 예측을 반환하며 이러한 예측도 데이터의 형태입니다.

이제 다음 질문이 떠오릅니다.

  • ML을 독립형 애플리케이션으로 만들고 ML 모델, 애플리케이션 및 데이터베이스 간의 복잡한 통합을 구현하는 이유는 무엇입니까?
  • ML을 데이터베이스의 핵심 기능으로 만드는 것은 어떨까요?
  • ML을 만드는 것은 어떨까요? SQL과 같은 표준 데이터베이스 구문을 통해 모델을 사용할 수 있나요?

ML 솔루션을 찾기 위해 위의 문제와 과제를 분석해 보겠습니다.

도전 #1: 복잡한 데이터 통합 ​​및 ETL 파이프라인

ML 모델과 데이터베이스 간의 복잡한 데이터 통합 ​​및 ETL 파이프라인을 유지하는 것은 ML 프로세스가 직면한 가장 큰 과제 중 하나입니다.

SQL은 뛰어난 데이터 조작 도구이므로 ML 모델을 데이터 계층에 도입하여 이 문제를 해결할 수 있습니다. 즉, ML 모델은 데이터베이스에서 학습하고 예측을 반환합니다.

도전 #2: ML 모델과 애플리케이션 통합

API를 통해 ML 모델과 비즈니스 애플리케이션을 통합하는 것도 또 다른 과제입니다.

비즈니스 애플리케이션과 BI 도구는 데이터베이스와 긴밀하게 결합되어 있습니다. 따라서 AutoML 도구가 데이터베이스의 일부가 되면 표준 SQL 구문을 사용하여 예측할 수 있습니다. 다음으로, 모델이 데이터베이스에 상주하므로 ML 모델과 비즈니스 애플리케이션 간의 API 통합이 더 이상 필요하지 않습니다.

해결책: 데이터베이스에 AutoML 내장

데이터베이스에 AutoML 도구를 내장하면 다음과 같은 많은 이점을 얻을 수 있습니다.

  • 데이터 작업을 하고 SQL을 이해하는 사람(데이터 분석가 또는 데이터 과학자)이라면 누구나 기계 학습의 강력한 이점을 활용할 수 있습니다. 의.
  • 소프트웨어 개발자는 ML을 비즈니스 도구 및 애플리케이션에 보다 효율적으로 포함할 수 있습니다.
  • 데이터와 모델, 모델과 비즈니스 애플리케이션 간에 복잡한 통합이 필요하지 않습니다.

이렇게 하면 위의 상대적으로 복잡한 통합 다이어그램이 다음과 같이 변경됩니다.

​스마트 데이터베이스 기반 셀프서비스 머신러닝

더 단순해 보이고 ML 프로세스를 더 원활하고 효율적으로 만듭니다.

7. 모델을 가상 데이터베이스 테이블로 사용하여 셀프 서비스 ML을 구현하는 방법

솔루션을 찾는 다음 단계는 이를 구현하는 것입니다.

이를 위해 우리는 AI 테이블이라는 구조를 사용합니다. 이는 가상 테이블 형태로 데이터 플랫폼에 기계 학습을 제공합니다. 이는 다른 데이터베이스 테이블처럼 생성된 다음 애플리케이션, BI 도구 및 DB 클라이언트에 노출될 수 있습니다. 우리는 단순히 데이터를 쿼리하여 예측을 합니다.

​스마트 데이터베이스 기반 셀프서비스 머신러닝

AI 테이블은 원래 MindsDB에서 개발되었으며 오픈 소스 또는 관리형 클라우드 서비스로 제공됩니다. Kafka 및 Redis와 같은 기존 SQL 및 NoSQL 데이터베이스를 통합합니다.

8. AI 테이블 사용

AI 테이블의 개념을 사용하면 ML 프로세스의 모든 단계(예: 데이터 준비, 모델 훈련 및 예측)가 데이터베이스를 통해 수행될 수 있도록 데이터베이스에서 ML 프로세스를 수행할 수 있습니다.

  • AI 테이블 훈련

먼저 사용자는 자신의 필요에 따라 AI 테이블을 생성해야 합니다. 이는 기계 학습 모델과 유사하며 소스 테이블의 열과 동일한 기능을 포함하고 나머지는 다음을 수행하여 완료됩니다. AutoML 엔진 셀프 서비스 모델링 작업. 나중에 예가 주어질 것입니다.

  • 예측하기

AI 테이블이 생성되면 추가 배포 없이 바로 사용할 수 있습니다. 예측을 하려면 AI 테이블에 표준 SQL 쿼리를 실행하면 됩니다.

하나씩 또는 일괄적으로 예측할 수 있습니다. AI Tables는 다변량 시계열, 이상 탐지 등과 같은 여러 가지 복잡한 기계 학습 작업을 처리할 수 있습니다.

9.AI 테이블 작업 예

소매업체의 경우 제품이 적시에 재고가 있는지 확인하는 것은 복잡한 작업입니다. 수요가 증가하면 공급이 증가합니다. 이 데이터와 기계 학습을 기반으로 특정 제품의 특정 날짜에 재고가 얼마나 되어야 하는지 예측하여 소매업체에 더 많은 수익을 가져다 줄 수 있습니다.

먼저 다음 정보를 추적하고 AI 테이블을 구축해야 합니다.

  • 제품 판매 날짜(date_of_sale)
  • 매장에서 판매된 제품(shop)
  • 특정 판매 제품(product_code)
  • 제품 판매 수량( amount)

아래와 같이:

​스마트 데이터베이스 기반 셀프서비스 머신러닝

(1) AI 테이블 교육

AI 테이블을 생성하고 교육하려면 먼저 MindsDB가 데이터에 액세스하도록 허용해야 합니다. 자세한 지침은 MindsDB 설명서를 참조하세요.

AI 테이블은 ML 모델과 유사하며 이를 훈련하려면 과거 데이터가 필요합니다.

다음은 간단한 SQL 명령을 사용하여 AITable을 교육합니다.

​스마트 데이터베이스 기반 셀프서비스 머신러닝

이 쿼리를 분석해 보겠습니다.

  • MindsDB에서 CREATE PREDICTOR 문을 사용합니다.
  • 기록 데이터를 기반으로 소스 데이터베이스를 정의합니다.
  • 과거 데이터 테이블(historical_table)을 기반으로 AI 테이블을 훈련하고, 선택된 열(column_1 및 column_2)은 예측에 사용되는 특성입니다.
  • AutoML은 나머지 모델링 작업을 자동으로 완료합니다.
  • MindsDB는 각 열의 데이터 유형을 식별하고 이를 정규화 및 인코딩하며 ML 모델을 구축 및 교육합니다.

동시에 각 예측의 전반적인 정확성과 신뢰도를 확인하고 어떤 열(특성)이 결과에 더 중요한지 추정할 수 있습니다.

데이터베이스에서는 카디널리티가 높은 다변량 시계열 데이터와 관련된 작업을 처리해야 하는 경우가 많습니다. 전통적인 방법을 사용하면 이러한 ML 모델을 생성하려면 상당한 노력이 필요합니다. 데이터를 그룹화하고 주어진 시간, 날짜 또는 타임스탬프 데이터 필드를 기준으로 정렬해야 합니다.

예를 들어 철물점에서 판매되는 망치의 수를 예측합니다. 데이터는 매장과 제품별로 그룹화되어 있으며 각각의 다양한 매장과 제품 조합에 대해 예측이 이루어집니다. 이로 인해 각 그룹에 대한 시계열 모델을 생성하는 문제가 발생합니다.

이것은 거대한 프로젝트처럼 들리지만 MindsDB는 GROUP BY 문을 사용하여 단일 ML 모델을 생성하여 다변량 시계열 데이터를 한 번에 훈련하는 방법을 제공합니다. 단 하나의 SQL 명령을 사용하여 이것이 어떻게 수행되는지 살펴보겠습니다.

​스마트 데이터베이스 기반 셀프서비스 머신러닝

stock_forecaster 예측자는 특정 상점이 미래에 얼마나 많은 품목을 판매할지 예측하기 위해 만들어졌습니다. 데이터는 판매 날짜별로 정렬되고 매장별로 그룹화됩니다. 그래서 우리는 각 매장의 판매 금액을 예측할 수 있습니다.

(2) 일괄 예측

아래 쿼리를 사용하여 판매 데이터 테이블을 예측기와 조인하면 JOIN 연산이 예측 수량을 레코드에 추가하므로 한 번에 여러 레코드에 대한 일괄 예측을 얻을 수 있습니다.

​스마트 데이터베이스 기반 셀프서비스 머신러닝

BI 도구에서 예측을 분석하고 시각화하는 방법에 대해 자세히 알아보려면 이 문서를 확인하세요.

(3) 실제 애플리케이션

기존 접근 방식에서는 ML 모델을 독립적인 애플리케이션으로 취급하므로 데이터베이스에 대한 ETL 파이프라인의 유지 관리와 비즈니스 애플리케이션에 대한 API 통합이 필요합니다. AutoML 도구를 사용하면 모델링 부분을 쉽고 간단하게 만들 수 있지만 전체 ML 워크플로를 관리하려면 여전히 숙련된 전문가가 필요합니다. 실제로 데이터베이스는 이미 데이터 준비를 위해 선호되는 도구이므로 ML에 데이터를 도입하는 것보다 데이터베이스에 ML을 도입하는 것이 더 합리적입니다. AutoML 도구는 데이터베이스에 상주하므로 MindsDB의 AI 테이블 구성은 데이터 실무자에게 셀프 서비스 AutoML을 제공하고 기계 학습 워크플로를 간소화합니다.

원본 링크: https://dzone.com/articles/self-service-machine-learning-with-intelligent-dat

번역자 소개

Zhang Yi, 51CTO 커뮤니티 편집자, 중급 엔지니어. 주로 인공지능 알고리즘 구현과 시나리오 응용을 연구하고, 기계학습 알고리즘과 자동 제어 알고리즘에 대한 이해와 숙달을 갖고 있으며, 국내외 인공지능 기술 발전 동향, 특히 인공지능 응용 분야에 지속적으로 관심을 기울일 예정이다. 지능형 커넥티드 카 및 스마트 홈의 지능 기술. 기타 분야의 특정 구현 및 적용.

​스마트 데이터베이스 기반 셀프서비스 머신러닝

위 내용은 ​스마트 데이터베이스 기반 셀프서비스 머신러닝의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제