현재 기업에서 인공지능을 대규모로 적용하는 데는 긴 R&D 출시 주기, 예상보다 낮은 결과, 데이터와 모델 매칭의 어려움 등 많은 어려움이 있습니다. 이러한 맥락에서 MLOps가 탄생했습니다. MLOps는 기업에서 기계 학습을 확장하는 데 도움이 되는 핵심 기술로 떠오르고 있습니다.
며칠 전 51CTO가 주관한 AISummit 글로벌 인공지능 기술 컨퍼런스가 성공적으로 개최되었습니다. 컨퍼런스에서 열린 'MLOps 모범 사례' 특별 세션에는 Open Atomic Foundation TOC 부회장 Tan Zhongyi, 4Paradigm 시스템 설계자 Lu Mian, NetEase 클라우드 음악 인공 지능 연구원, 빅 데이터 및 인공 지능 Wu Guanlin이 참석했습니다. 중국공상은행 소프트웨어 개발센터 연구소 부소장 황빙(Huang Bing)이 기조연설을 하며 R&D 운영 및 유지보수 주기, 지속적인 훈련, 지속적인 모니터링 등 뜨거운 주제를 중심으로 MLOps의 실제 전투에 대해 논의했습니다. , 모델 버전 및 계보, 데이터의 온라인 및 오프라인 일관성, 효율적인 데이터 제공 효과 및 최첨단 트렌드.
앤드류 NG는 AI가 모델 중심에서 데이터 중심으로 전환했으며, AI 구현에 있어 데이터가 가장 큰 과제라고 여러 차례 밝혔습니다. 고품질 데이터 공급을 보장하는 방법이 핵심 문제입니다. 이 문제를 해결하려면 MLOps를 활용하여 AI를 빠르고 쉽고 비용 효율적으로 구현할 수 있도록 도와야 합니다.
그렇다면 MLOps는 어떤 문제를 해결할까요? MLOps 프로젝트의 성숙도를 평가하는 방법은 무엇입니까? Open Atomic Foundation TOC 부회장이자 LF AI & Data TAC 회원인 Tan Zhongyi는 "모델 중심에서 데이터 중심으로 - MLOps는 AI가 빠르고 쉽고 비용 효율적으로 구현되도록 지원합니다"라는 기조 연설을 했습니다. 세부 사항.
Tan Zhongyi는 먼저 업계 과학자 및 분석가 그룹의 견해를 공유했습니다. Andrew NG는 데이터 품질을 개선하면 모델 알고리즘을 개선하는 것보다 AI 구현의 효율성을 더 높일 수 있다고 믿습니다. 그의 견해로는 MLOps의 가장 중요한 작업은 기계 학습 수명 주기의 모든 단계에서 항상 고품질 데이터 공급을 유지하는 것입니다.
AI의 대규모 구현을 위해서는 MLOps를 개발해야 합니다. MLOps가 정확히 무엇인지에 대해서는 업계에서 합의가 이루어지지 않았습니다. 그는 "코드 + 모델 + 데이터의 지속적인 통합, 지속적인 배포, 지속적인 교육 및 지속적인 모니터링"이라고 설명했습니다.
다음으로 Tan Zhongyi는 머신러닝 분야의 독특한 플랫폼인 Feature Store의 특징과 현재 시중에 나와 있는 주류 기능 플랫폼 제품을 집중적으로 소개했습니다.
마지막으로 Tan Zhongyi는 MLOps 성숙도 모델에 대해 간략하게 설명했습니다. 그는 Microsoft Azure가 MLOps 성숙 모델을 전체 기계 학습 프로세스의 자동화 정도에 따라 여러 수준(0, 1, 2, 3, 4)으로 나누었다고 언급했습니다. 여기서 0은 자동화가 없음을 의미하고 123은 부분 자동화를 의미합니다. 고도의 자동화다.
많은 기계 학습 시나리오에서는 실시간 기능 계산이 필요합니다. 데이터 과학자가 오프라인으로 개발한 기능 스크립트부터 온라인 실시간 기능 계산에 이르기까지 AI 구현 비용은 매우 높습니다.
이 문제를 고려하여 4Paradigm 시스템 설계자, 데이터베이스 팀 및 고성능 컴퓨팅 팀 리더인 Lu Mian은 "오픈 소스 기계 학습 데이터베이스 OpenMLDB: 일관된 온라인 및 오프라인 프로덕션 수준 기능" 기조 연설에서 강조했습니다. 플랫폼" 이 문서에서는 OpenMLDB가 기계 학습 기능 개발을 즉시 시작한다는 목표를 달성하는 방법과 기능 계산의 정확성과 효율성을 보장하는 방법에 대해 설명합니다.
Lu Mian은 인공 지능 엔지니어링 구현이 발전함에 따라 기능 엔지니어링 프로세스에서 온라인 일관성 검증으로 인해 구현 비용이 높아졌다고 지적했습니다. OpenMLDB는 저렴한 오픈 소스 솔루션을 제공합니다. 이는 온라인 및 오프라인 기계 학습의 일관성이라는 핵심 문제를 해결하고 정확성 문제를 해결할 뿐만 아니라 밀리초 수준의 실시간 기능 계산도 달성합니다. 이것이 핵심가치입니다.
Lu Mian에 따르면 인도네시아 온라인 결제 회사 Akulaku는 OpenMLDB가 오픈 소스로 공개된 이후 최초의 커뮤니티 기업 사용자입니다. 그들은 OpenMLDB를 지능형 컴퓨팅 아키텍처에 통합했습니다. 실제 비즈니스에서 Akulaku는 하루 평균 거의 10억 건에 달하는 주문 데이터를 처리합니다. OpenMLDB를 사용한 후 데이터 처리 지연 시간은 4밀리초에 불과해 비즈니스 요구 사항을 완벽하게 충족합니다.
NetEase Cloud Music의 대규모 데이터, 정확한 알고리즘 및 실시간 시스템을 활용하여 높은 모델링 효율성과 낮은 요구 사항을 충족하는 동시에 다양한 콘텐츠 배포 및 상업화 시나리오를 지원합니다. 이러한 이유로 NetEase Cloud 음악 알고리즘 엔지니어링 팀은 음악 사업과 연계하여 엔드투엔드 기계 학습 플랫폼의 실질적인 구현을 시작했습니다.
NetEase Cloud Music의 인공지능 연구원이자 기술 이사인 Wu Guanlin이 기조연설을 통해 "NetEase Cloud Music 기능 플랫폼의 기술 실습"을 클라우드 음악 비즈니스의 배경에서 시작하여 실시간 구현 계획을 설명했습니다. Feature Store와 결합하여 참가자들과 더 많은 논의를 펼친 저자는 자신의 생각을 공유했습니다.
Wu Guanlin은 클라우드 음악 모델 알고리즘 프로젝트 구축 시 세 가지 주요 문제점이 있다고 언급했습니다. 낮은 실시간 수준, 낮은 모델링 효율성, 온라인과 오프라인 불일치로 인한 제한된 모델 기능입니다. 이러한 문제점에 대응하기 위해 실시간 모델에서 출발하여 실시간 비즈니스를 다루는 모델 과정에서 해당 Feature Store 플랫폼을 구축했습니다.
우관린은 처음으로 생방송 시나리오에서 실시간 모델을 탐색하고 확실한 결과를 얻었다고 소개했습니다. 엔지니어링 측면에서도 완전한 링크가 탐색되었으며 일부 기본 엔지니어링 구성이 구현되었습니다. 그러나 실시간 모델은 실시간 시나리오를 미세 조정하는 데 중점을 두지만, 시나리오의 80% 이상이 오프라인 모델입니다. 풀링크 모델링 프로세스에서는 각 시나리오 개발자가 데이터 원본부터 시작하기 때문에 모델링 주기가 길고, 예측할 수 없는 효과가 있으며, 초보자에게 높은 개발 임계값이 발생하는 등의 문제가 발생합니다. 모델 출시 주기를 고려하면 전체 시간의 80%가 데이터와 관련되어 있으며, 그 중 기능이 무려 50%를 차지합니다. 그들은 기능 플랫폼인 Feature Store를 침전시키기 시작했습니다.
Feature Store는 주로 세 가지 문제를 해결합니다. 첫째, 메타데이터 정의, 기능 계보, 계산 및 푸시 프로세스 통합, 배치 및 흐름 통합을 기반으로 효율적인 기능 생성 링크 실현, 둘째, 특성을 대상으로 합니다. 기능 기능 저장 문제를 해결하기 위해 변환을 수행하고 실제 사용 시나리오의 대기 시간 및 처리량 차이에 따라 다양한 유형의 저장 엔진을 제공합니다. 셋째, 기능 일관성 문제를 해결하고 통합된 형식에서 데이터를 읽습니다. API를 학습 모델에 대한 기계 입력으로 사용하고 추론, 훈련 등에 사용합니다.
중국 공상은행 소프트웨어 개발 센터 빅데이터 및 인공지능 연구소 부국장 Huang Bing은 기조연설에서 "새로운 금융 구축"을 강조했습니다. 지능형 금융의 혁신적 발전을 위한 인공지능 인프라' ICBC의 MLOps 실무는 모델 개발, 모델 제공, 모델 관리, 모델 반복 운영의 전체 수명주기 관리 시스템의 구축 프로세스와 기술 실무를 다룹니다.
MLOps가 필요한 이유는 인공지능의 급속한 발전 뒤에는 기존 또는 잠재적인 많은 "AI 기술 부채"를 무시할 수 없기 때문입니다. Huang Bing은 MLOps의 개념이 이러한 기술 부채를 해결할 수 있다고 믿습니다. "DevOps가 소프트웨어 시스템의 기술 부채 문제를 해결하는 도구이고 DataOps가 데이터 자산의 기술 부채 문제를 해결하는 열쇠라면 MLOps는 DevOps 개념에서 탄생한 치료 기계입니다." 기술 부채 문제에 대한 치료법을 알아보세요."
건설 과정에서 ICBC의 MLOps 실무 경험은 공공 역량의 '기반'을 강화하고, 기업 수준의 데이터 센터를 구축하고, 데이터 집적 및 공유를 실현하는 네 가지 요점으로 요약할 수 있습니다. 적용 임계값 및 구축 관련 모델링 및 서비스 조립 라인은 프로세스 기반 및 빌딩 블록 조립 R&D 모델을 형성하여 AI 구축 비용을 최소화하고 AI 자산의 축적 및 공유를 위한 "방법"을 확립합니다. 공유 및 공동 구축된 생태계, 모델 운영 형성 반복의 "기법"은 데이터와 비즈니스 가치를 기반으로 하는 모델 운영 시스템을 구축하는 것이며, 이는 지속적인 반복과 모델 품질의 정량적 평가의 기반이 됩니다.
연설이 끝날 때 Huang Bing은 두 가지 전망을 제시했습니다. 첫째, MLOps는 더 안전하고 규정을 더 잘 준수해야 합니다. 미래에는 기업 개발에 데이터 중심의 지능형 의사 결정을 달성하기 위해 많은 모델이 필요할 것이며, 이로 인해 모델 개발, 운영 및 유지 관리, 권한 제어, 데이터 개인 정보 보호, 보안 및 감사와 관련된 기업 수준의 요구 사항이 더 많아질 것입니다. 둘째, MLOps는 다른 Ops와 결합되어야 합니다. 기술 부채 문제를 해결하는 것은 복잡한 프로세스입니다. DevOps 솔루션, DataOps 솔루션 및 MLOps 솔루션은 세 가지 장점을 모두 활용하고 "1+1+" 효과를 달성하기 위해 서로 협력하고 상호 연결되어야 합니다. 1>3".
IDC 예측에 따르면 2024년까지 기업의 60%가 MLOps를 사용하여 기계 학습 워크플로를 구현할 것입니다. IDC 분석가인 Sriram Subramanian은 다음과 같이 말했습니다. "MLOps는 마치 DevOps를 사용하여 애플리케이션 구축에 소요되는 평균 시간을 단축하는 것처럼 모델 속도를 몇 주, 때로는 며칠로 단축합니다. 이것이 바로 MLOps가 필요한 이유입니다." 현재 우리는 인공지능의 급속한 확산의 변곡점에 서있습니다. MLOps를 채택함으로써 기업은 더 많은 모델을 구축하고, 비즈니스 혁신을 더 빠르게 달성하며, AI 구현을 더 빠르고 비용 효율적으로 촉진할 수 있습니다. 수천 개의 업계에서 MLOps가 엔터프라이즈 AI 규모의 촉매제가 되고 있다는 사실을 목격하고 검증하고 있습니다. 더 흥미로운 콘텐츠를 보려면 클릭하여 보기하세요.
위 내용은 기업 MLOps 구현을 향한 길을 모색하기 위해 AISummit 글로벌 인공 지능 기술 컨퍼런스 'MLOps 모범 사례'가 성공적으로 개최되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!