번역가 | Bugatti
리뷰어 | Sun Shujuan
현재 기계 학습(ML) 애플리케이션을 구축하고 관리하기 위한 표준 사례가 없습니다. 머신 러닝 프로젝트는 체계적이지 않고 반복성이 부족하며 장기적으로 완전히 실패하는 경향이 있습니다. 따라서 기계 학습 수명주기 전반에 걸쳐 품질, 지속 가능성, 견고성 및 비용 관리를 유지하는 데 도움이 되는 프로세스가 필요합니다.
그림 1. 기계 학습 개발 라이프사이클 프로세스
품질 보증 방법(CRISP-ML(Q))을 사용하여 기계 학습 애플리케이션을 개발하기 위한 산업 간 표준 프로세스는 CRISP-DM의 업그레이드 버전입니다. 제품의 품질을 학습합니다.
CRISP-ML(Q)은
1. 비즈니스 및 데이터 이해
3. 모델 엔지니어링
4. 모델 배포
6. 모니터링 and Maintenance
이 단계에서는 더 나은 솔루션을 구축하기 위해 지속적인 반복과 탐색이 필요합니다. 프레임워크에 순서가 있더라도 이후 단계의 결과에 따라 이전 단계를 재검토해야 하는지 여부가 결정될 수 있습니다.
그림 2. 각 단계의 품질 보증프레임워크의 각 단계에는 품질 보증 방법이 도입됩니다. 이 접근 방식에는 성능 지표, 데이터 품질 요구 사항, 견고성 등의 요구 사항과 제약 조건이 있습니다. 이는 기계 학습 애플리케이션의 성공에 영향을 미치는 위험을 줄이는 데 도움이 됩니다. 이는 전체 시스템을 지속적으로 모니터링하고 유지 관리함으로써 달성할 수 있습니다.
예: 전자 상거래 회사에서는 데이터 및 개념 드리프트로 인해 이러한 변화를 모니터링하는 시스템을 배포하지 않으면 회사는 손실, 즉 고객을 잃게 됩니다.
비즈니스 및 데이터 이해
개발 프로세스 초기에 프로젝트 범위, 성공 기준, ML 적용 가능성을 결정해야 합니다. 그 후 데이터 수집 및 품질 검증 프로세스를 시작했습니다. 그 과정은 길고 까다롭습니다.
범위:기계 학습 프로세스를 사용하여 달성하고자 하는 것. 자동화를 통해 고객을 유지하는 걸까요, 아니면 운영 비용을 절감하는 걸까요?
성공 기준: 우리는 명확하고 측정 가능한 비즈니스, 기계 학습(통계 지표) 및 경제적(KPI) 성공 지표를 정의해야 합니다.
타당성: 우리는 데이터 가용성, 기계 학습 애플리케이션에 대한 적합성, 법적 제약, 견고성, 확장성, 해석 가능성 및 리소스 요구 사항을 보장해야 합니다.
데이터 수집: 데이터를 수집하고, 버전을 관리하고, 실제 데이터와 생성된 데이터의 지속적인 흐름을 보장하여 재현성을 활성화합니다.
데이터 품질 검증: 데이터 설명, 요구 사항 및 검증을 유지하여 품질을 보장합니다.
품질과 재현성을 보장하려면 데이터의 통계적 속성과 데이터 생성 과정을 기록해야 합니다. 데이터 준비
두 번째 단계는 매우 간단합니다. 모델링 단계를 위한 데이터를 준비하겠습니다. 여기에는 데이터 선택, 데이터 정리, 기능 엔지니어링, 데이터 향상 및 정규화가 포함됩니다.
2. 그런 다음 노이즈를 줄이고 누락된 값을 처리하는 데 집중하세요. 품질 보증 목적으로 잘못된 값을 줄이기 위해 데이터 단위 테스트를 추가할 예정입니다.
3. 모델에 따라 원-핫 인코딩, 클러스터링 등의 기능 엔지니어링 및 데이터 증대를 수행합니다.
4. 데이터를 정규화하고 확장합니다. 이렇게 하면 편향된 기능의 위험이 줄어듭니다.
재현성을 보장하기 위해 데이터 모델링, 변환 및 기능 엔지니어링 파이프라인을 만들었습니다.
모델 엔지니어링
비즈니스 및 데이터 이해 단계의 제약 조건과 요구 사항에 따라 모델링 단계가 결정됩니다. 우리는 비즈니스 문제를 이해하고 이를 해결하기 위해 머신러닝 모델을 개발하는 방법을 이해해야 합니다. 모델 선택, 최적화 및 교육에 중점을 두고 모델 성능 지표, 견고성, 확장성, 해석 가능성을 보장하고 스토리지 및 컴퓨팅 리소스를 최적화합니다.
2. 모델 성능 지표를 정의합니다.
3. 모델 선택.
4. 전문가를 통합하여 도메인 지식을 이해합니다.
5. 모델 훈련.
6. 모델 압축 및 통합.
품질과 재현성을 보장하기 위해 모델 아키텍처, 훈련 및 검증 데이터, 하이퍼파라미터, 환경 설명과 같은 모델 메타데이터를 저장하고 버전 제어합니다.
마지막으로 ML 실험을 추적하고 ML 파이프라인을 생성하여 반복 가능한 학습 프로세스를 만들겠습니다.
모델 평가
모델을 테스트하고 배포할 준비가 되었는지 확인하는 단계입니다.
품질 보증을 위해 평가 단계의 모든 단계가 기록됩니다.
모델 배포는 기계 학습 모델을 기존 시스템에 통합하는 단계입니다. 이 모델은 서버, 브라우저, 소프트웨어 및 에지 장치에 배포될 수 있습니다. 모델의 예측은 BI 대시보드, API, 웹 애플리케이션 및 플러그인에서 사용할 수 있습니다.
모델 배포 프로세스:
생산 환경의 모델에는 지속적인 모니터링과 유지 관리가 필요합니다. 모델 적시성, 하드웨어 성능 및 소프트웨어 성능을 모니터링합니다.
지속적인 모니터링은 프로세스의 첫 번째 부분입니다. 성능이 임계값 아래로 떨어지면 새 데이터에 대해 모델을 재교육하기로 자동으로 결정됩니다. 또한 유지 관리 부분은 모델 재교육에만 국한되지 않습니다. 이를 위해서는 의사 결정 메커니즘, 새로운 데이터 수집, 소프트웨어 및 하드웨어 업데이트, 비즈니스 사용 사례에 따른 ML 프로세스 개선이 필요합니다.
간단히 말하면 ML 모델의 지속적인 통합, 교육 및 배포입니다.
모델 학습 및 검증은 ML 애플리케이션의 작은 부분입니다. 초기 아이디어를 현실로 만들기 위해서는 여러 과정이 필요합니다. 이 기사에서는 CRISP-ML(Q)을 소개하고 위험 평가 및 품질 보증에 중점을 두는 방법을 소개합니다.
먼저 비즈니스 목표를 정의하고, 데이터를 수집 및 정리하고, 모델을 구축하고, 테스트 데이터 세트로 모델을 검증한 후 프로덕션 환경에 배포합니다.
이 프레임워크의 핵심 구성 요소는 지속적인 모니터링과 유지 관리입니다. 데이터와 소프트웨어, 하드웨어 지표를 모니터링하여 모델을 재교육할지 시스템을 업그레이드할지 결정합니다.
기계 학습 작업이 처음이고 자세히 알아보고 싶다면 DataTalks.Club에서 검토한 무료 MLOps 과정을 읽어보세요. CRISP-ML의 실제 구현을 이해하면서 6단계 모두에 대한 실무 경험을 쌓게 됩니다.
원제: Making Sense of CRISP-ML(Q): The Machine Learning Lifecycle Process, 저자: Abid Ali Awan
위 내용은 CRISP-ML(Q) 해석: 머신러닝 수명주기 프로세스의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!