CRISP-ML(Q) 해석: 머신러닝 수명주기 프로세스-일체 포함-php.cn

집

기술 주변기기

일체 포함

CRISP-ML(Q) 해석: 머신러닝 수명주기 프로세스

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2023 pm 01:21 PM

액자기계 학습데이터

번역가 | Bugatti

리뷰어 | Sun Shujuan

현재 기계 학습(ML) 애플리케이션을 구축하고 관리하기 위한 표준 사례가 없습니다. 머신 러닝 프로젝트는 체계적이지 않고 반복성이 부족하며 장기적으로 완전히 실패하는 경향이 있습니다. 따라서 기계 학습 수명주기 전반에 걸쳐 품질, 지속 가능성, 견고성 및 비용 관리를 유지하는 데 도움이 되는 프로세스가 필요합니다.

CRISP-ML(Q) 해석: 머신러닝 수명주기 프로세스

그림 1. 기계 학습 개발 라이프사이클 프로세스

품질 보증 방법(CRISP-ML(Q))을 사용하여 기계 학습 애플리케이션을 개발하기 위한 산업 간 표준 프로세스는 CRISP-DM의 업그레이드 버전입니다. 제품의 품질을 학습합니다.

CRISP-ML(Q)은

1. 비즈니스 및 데이터 이해

3. 모델 엔지니어링

4. 모델 배포

6. 모니터링 and Maintenance

이 단계에서는 더 나은 솔루션을 구축하기 위해 지속적인 반복과 탐색이 필요합니다. 프레임워크에 순서가 있더라도 이후 단계의 결과에 따라 이전 단계를 재검토해야 하는지 여부가 결정될 수 있습니다.

그림 2. 각 단계의 품질 보증

CRISP-ML(Q) 해석: 머신러닝 수명주기 프로세스 프레임워크의 각 단계에는 품질 보증 방법이 도입됩니다. 이 접근 방식에는 성능 지표, 데이터 품질 요구 사항, 견고성 등의 요구 사항과 제약 조건이 있습니다. 이는 기계 학습 애플리케이션의 성공에 영향을 미치는 위험을 줄이는 데 도움이 됩니다. 이는 전체 시스템을 지속적으로 모니터링하고 유지 관리함으로써 달성할 수 있습니다.

예: 전자 상거래 회사에서는 데이터 및 개념 드리프트로 인해 이러한 변화를 모니터링하는 시스템을 배포하지 않으면 회사는 손실, 즉 고객을 잃게 됩니다.

비즈니스 및 데이터 이해

개발 프로세스 초기에 프로젝트 범위, 성공 기준, ML 적용 가능성을 결정해야 합니다. 그 후 데이터 수집 및 품질 검증 프로세스를 시작했습니다. 그 과정은 길고 까다롭습니다.

범위:

기계 학습 프로세스를 사용하여 달성하고자 하는 것. 자동화를 통해 고객을 유지하는 걸까요, 아니면 운영 비용을 절감하는 걸까요?

성공 기준: 우리는 명확하고 측정 가능한 비즈니스, 기계 학습(통계 지표) 및 경제적(KPI) 성공 지표를 정의해야 합니다.

타당성: 우리는 데이터 가용성, 기계 학습 애플리케이션에 대한 적합성, 법적 제약, 견고성, 확장성, 해석 가능성 및 리소스 요구 사항을 보장해야 합니다.

데이터 수집: 데이터를 수집하고, 버전을 관리하고, 실제 데이터와 생성된 데이터의 지속적인 흐름을 보장하여 재현성을 활성화합니다.

데이터 품질 검증: 데이터 설명, 요구 사항 및 검증을 유지하여 품질을 보장합니다.

품질과 재현성을 보장하려면 데이터의 통계적 속성과 데이터 생성 과정을 기록해야 합니다. 데이터 준비

두 번째 단계는 매우 간단합니다. 모델링 단계를 위한 데이터를 준비하겠습니다. 여기에는 데이터 선택, 데이터 정리, 기능 엔지니어링, 데이터 향상 및 정규화가 포함됩니다.

1 특징 선택, 데이터 선택, 오버샘플링 또는 과소샘플링을 통한 불균형 클래스 처리부터 시작합니다.

2. 그런 다음 노이즈를 줄이고 누락된 값을 처리하는 데 집중하세요. 품질 보증 목적으로 잘못된 값을 줄이기 위해 데이터 단위 테스트를 추가할 예정입니다.

3. 모델에 따라 원-핫 인코딩, 클러스터링 등의 기능 엔지니어링 및 데이터 증대를 수행합니다.

4. 데이터를 정규화하고 확장합니다. 이렇게 하면 편향된 기능의 위험이 줄어듭니다.

재현성을 보장하기 위해 데이터 모델링, 변환 및 기능 엔지니어링 파이프라인을 만들었습니다.

모델 엔지니어링

비즈니스 및 데이터 이해 단계의 제약 조건과 요구 사항에 따라 모델링 단계가 결정됩니다. 우리는 비즈니스 문제를 이해하고 이를 해결하기 위해 머신러닝 모델을 개발하는 방법을 이해해야 합니다. 모델 선택, 최적화 및 교육에 중점을 두고 모델 성능 지표, 견고성, 확장성, 해석 가능성을 보장하고 스토리지 및 컴퓨팅 리소스를 최적화합니다.

1. 모델 아키텍처 및 유사한 비즈니스 문제에 대한 연구.

2. 모델 성능 지표를 정의합니다.

3. 모델 선택.

4. 전문가를 통합하여 도메인 지식을 이해합니다.

5. 모델 훈련.

6. 모델 압축 및 통합.

품질과 재현성을 보장하기 위해 모델 아키텍처, 훈련 및 검증 데이터, 하이퍼파라미터, 환경 설명과 같은 모델 메타데이터를 저장하고 버전 제어합니다.

마지막으로 ML 실험을 추적하고 ML 파이프라인을 생성하여 반복 가능한 학습 프로세스를 만들겠습니다.

모델 평가

모델을 테스트하고 배포할 준비가 되었는지 확인하는 단계입니다.

테스트 데이터 세트로 모델 성능을 테스트하겠습니다.
임의 또는 가짜 데이터를 제공하여 모델의 견고성을 평가합니다.
규제 요구 사항을 충족하도록 모델의 해석 가능성을 향상합니다.
결과를 초기 성공 지표와 자동으로 비교하거나 도메인 전문가와 비교하세요.

품질 보증을 위해 평가 단계의 모든 단계가 기록됩니다.

모델 배포

모델 배포는 기계 학습 모델을 기존 시스템에 통합하는 단계입니다. 이 모델은 서버, 브라우저, 소프트웨어 및 에지 장치에 배포될 수 있습니다. 모델의 예측은 BI 대시보드, API, 웹 애플리케이션 및 플러그인에서 사용할 수 있습니다.

모델 배포 프로세스:

하드웨어 추론을 정의합니다.
제작 환경에서의 모델 평가.
사용자 수용 및 유용성을 보장하세요.
손실을 최소화하기 위한 백업 계획을 제공하세요.
배포 전략.

모니터링 및 유지 관리

생산 환경의 모델에는 지속적인 모니터링과 유지 관리가 필요합니다. 모델 적시성, 하드웨어 성능 및 소프트웨어 성능을 모니터링합니다.

지속적인 모니터링은 프로세스의 첫 번째 부분입니다. 성능이 임계값 아래로 떨어지면 새 데이터에 대해 모델을 재교육하기로 자동으로 결정됩니다. 또한 유지 관리 부분은 모델 재교육에만 국한되지 않습니다. 이를 위해서는 의사 결정 메커니즘, 새로운 데이터 수집, 소프트웨어 및 하드웨어 업데이트, 비즈니스 사용 사례에 따른 ML 프로세스 개선이 필요합니다.

간단히 말하면 ML 모델의 지속적인 통합, 교육 및 배포입니다.

결론

모델 학습 및 검증은 ML 애플리케이션의 작은 부분입니다. 초기 아이디어를 현실로 만들기 위해서는 여러 과정이 필요합니다. 이 기사에서는 CRISP-ML(Q)을 소개하고 위험 평가 및 품질 보증에 중점을 두는 방법을 소개합니다.

먼저 비즈니스 목표를 정의하고, 데이터를 수집 및 정리하고, 모델을 구축하고, 테스트 데이터 세트로 모델을 검증한 후 프로덕션 환경에 배포합니다.

이 프레임워크의 핵심 구성 요소는 지속적인 모니터링과 유지 관리입니다. 데이터와 소프트웨어, 하드웨어 지표를 모니터링하여 모델을 재교육할지 시스템을 업그레이드할지 결정합니다.

기계 학습 작업이 처음이고 자세히 알아보고 싶다면 DataTalks.Club에서 검토한 무료 MLOps 과정을 읽어보세요. CRISP-ML의 실제 구현을 이해하면서 6단계 모두에 대한 실무 경험을 쌓게 됩니다.

원제: Making Sense of CRISP-ML(Q): The Machine Learning Lifecycle Process, 저자: Abid Ali Awan

위 내용은 CRISP-ML(Q) 해석: 머신러닝 수명주기 프로세스의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

하나의 프롬프트는 모든 주요 LLM의 보호 조치를 우회 할 수 있습니다Apr 25, 2025 am 11:16 AM

Hiddenlayer의 획기적인 연구는 LLMS (Leading Lange Language Models)에서 중요한 취약점을 드러냅니다. 그들의 연구 결과는 "정책 인형극"이라는 보편적 인 바이 패스 기술을 보여줍니다.

5 가지 실수 대부분의 기업은 올해 지속 가능성으로 만듭니다.Apr 25, 2025 am 11:15 AM

환경 책임과 폐기물 감소에 대한 추진은 기본적으로 비즈니스 운영 방식을 바꾸는 것입니다. 이 혁신은 제품 개발, 제조 프로세스, 고객 관계, 파트너 선택 및 새로운 채택에 영향을 미칩니다.

H20 Chip Ban Jolts China AI 회사이지만 오랫동안 충격을 받기 위해 자랑했습니다.Apr 25, 2025 am 11:12 AM

Advanced AI 하드웨어에 대한 최근 제한은 AI 지배에 대한 확대 된 지정 학적 경쟁을 강조하여 중국의 외국 반도체 기술에 대한 의존도를 드러냅니다. 2024 년에 중국은 3,800 억 달러 상당의 반도체를 수입했습니다.

OpenAi가 Chrome을 구매하면 AI는 브라우저 전쟁을 지배 할 수 있습니다.Apr 25, 2025 am 11:11 AM

Google의 Chrome의 잠재적 인 강제 매각은 기술 산업 내에서 강력한 논쟁을 불러 일으켰습니다. OpenAi가 65%의 글로벌 시장 점유율을 자랑하는 주요 브라우저를 인수 할 가능성은 TH의 미래에 대한 중요한 의문을 제기합니다.

AI가 소매 미디어의 고통을 해결할 수있는 방법Apr 25, 2025 am 11:10 AM

전반적인 광고 성장을 능가 함에도 불구하고 소매 미디어의 성장은 느려지고 있습니다. 이 성숙 단계는 생태계 조각화, 비용 상승, 측정 문제 및 통합 복잡성을 포함한 과제를 제시합니다. 그러나 인공 지능

'AI는 우리이고 우리보다 더 많아요'Apr 25, 2025 am 11:09 AM

깜박 거리는 스크린 모음 속에서 정적으로 오래된 라디오가 딱딱합니다. 이 불안정한 전자 제품 더미, 쉽게 불안정하게, 몰입 형 전시회에서 6 개의 설치 중 하나 인 "The-Waste Land"의 핵심을 형성합니다.

Google Cloud는 다음 2025 년 인프라에 대해 더 진지하게 생각합니다.Apr 25, 2025 am 11:08 AM

Google Cloud의 다음 2025 : 인프라, 연결 및 AI에 대한 초점 Google Cloud의 다음 2025 회의는 수많은 발전을 선보였으며 여기에서 자세히 설명하기에는 너무 많았습니다. 특정 공지 사항에 대한 심도있는 분석은 My의 기사를 참조하십시오.

Talking Baby ai Meme, Arcana의 550 만 달러 AI 영화 파이프 라인, IR의 비밀 후원자 공개Apr 25, 2025 am 11:07 AM

이번 주 AI 및 XR : AI 구동 창의성의 물결은 음악 세대에서 영화 제작에 이르기까지 미디어와 엔터테인먼트를 통해 휩쓸고 있습니다. 헤드 라인으로 뛰어 들자. AI 생성 콘텐츠의 영향력 증가 : 기술 컨설턴트 인 Shelly Palme

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.