Compiled by Xingxuan
| 51CTO Technology Stack(WeChat ID: blog51cto)
지난 2년 동안 LLM(대형 언어 모델) 및 비전통적 시스템을 사용하는 생성 AI 프로젝트에 더 많이 참여했습니다. . 서버리스 클라우드 컴퓨팅이 그리워지기 시작했습니다. 이들의 애플리케이션은 대화형 AI 강화부터 다양한 산업에 대한 복잡한 분석 솔루션 제공 및 기타 다양한 기능에 이르기까지 다양합니다. 퍼블릭 클라우드 제공업체가 이미 기성 생태계를 제공하고 있으며 이것이 저항이 가장 적은 경로이기 때문에 많은 기업이 이러한 모델을 클라우드 플랫폼에 배포합니다. 그러나 저렴하지는 않습니다.
클라우드는 확장성, 효율성, 고급 컴퓨팅 성능(주문형 GPU)과 같은 다른 이점도 제공합니다. 퍼블릭 클라우드 플랫폼에 LLM을 배포하는 과정에는 성공이나 실패에 큰 영향을 미칠 수 있는 잘 알려지지 않은 몇 가지 비밀이 있습니다. 아마도 LLM을 다루는 AI 전문가가 많지 않고, 아직 이 분야에 대한 경험이 많지 않기 때문에 지식 체계에 공백이 많은 것 같습니다.
클라우드에 LLM을 배포할 때 AI 엔지니어도 알지 못할 수도 있는 세 가지 잘 알려지지 않은 "트릭"을 살펴보겠습니다. 이들 엔지니어가 연간 30만 달러 이상을 버는 경우가 많다는 점을 고려하면 이제 그들이 하는 일에 대해 자세히 생각해 볼 때일 것입니다. 다들 머리카락에 불이 붙은 것처럼 AI를 향해 달려가지만 그 어느 때보다 실수를 많이 하는 모습이 보입니다.
클라우드 플랫폼에 LLM을 배포할 때의 주요 매력 중 하나는 필요에 따라 리소스를 확장할 수 있다는 것입니다. 클라우드 플랫폼에는 마우스를 클릭하기만 하면 자동으로 할당되는 리소스가 있으므로 훌륭한 용량 계획자가 될 필요는 없습니다.
하지만 잠깐, 우리는 클라우드 컴퓨팅을 사용할 때 했던 것과 같은 실수를 저지르려고 합니다. 확장하는 동안 비용을 관리하는 것은 많은 사람들이 효과적으로 탐색하는 데 도움이 필요한 기술입니다. 클라우드 서비스는 일반적으로 소비된 컴퓨팅 리소스에 따라 요금이 부과됩니다. 이는 유틸리티처럼 작동합니다. 더 많이 처리할수록 더 많은 비용을 지불하게 됩니다. GPU의 비용이 더 비싸고 더 많은 전력을 소비한다는 점을 고려하면 이는 퍼블릭 클라우드 제공업체가 제공하는 LLM을 사용할 때 핵심적인 문제입니다.
클라우드 플랫폼에서 제공하는 도구와 신뢰할 수 있는 타사 비용 거버넌스 및 모니터링 서비스 제공업체(finops)에서 제공하는 도구를 포함한 비용 관리 도구를 사용하세요. 예를 들어 자동 확장 및 예약을 구현하거나, 올바른 인스턴스 유형을 선택하거나, 선점형 인스턴스를 사용하여 비용을 최적화하세요. 또한 배포를 지속적으로 모니터링하고 예상 로드보다는 사용량을 기준으로 리소스를 조정해야 합니다. 이는 무슨 수를 써서라도 과잉 프로비저닝을 피하는 것을 의미합니다.
LLM 배포에는 민감하거나 독점적인 데이터가 포함될 수 있는 대량의 데이터 처리 및 지식 모델 교육이 포함되는 경우가 많습니다. 퍼블릭 클라우드를 사용할 때의 위험은 "이웃"이 동일한 물리적 하드웨어에서 실행되는 인스턴스를 처리하는 형태라는 것입니다. 따라서 퍼블릭 클라우드 스토리지에는 데이터 저장 및 처리 중에 퍼블릭 클라우드 데이터 센터의 동일한 물리적 하드웨어에서 실행되는 다른 가상 머신이 데이터에 액세스할 수 있는 위험이 있습니다. 이 문제를 해결하기 위해 많은 퍼블릭 클라우드 제공업체는 기업을 위한 클라우드 보안 옵션을 제공합니다. 이러한 옵션은 물리적 하드웨어에서 실행되는 다른 가상 머신의 액세스로부터 데이터를 격리하고 보호합니다. 또 다른 보안 문제는 저장 및 처리 중 데이터 전송입니다. 데이터는 공용 클라우드 네트워크를 통해 전송될 수 있으며, 이는 전송 중에 데이터가 가로채거나 도청될 수 있음을 의미합니다. 이 문제를 해결하기 위해 퍼블릭 클라우드는 일반적으로 전송 중 데이터 보안을 보호하기 위해 암호화 및 보안 전송 프로토콜을 제공합니다. 전반적으로, LLM 배포
퍼블릭 클라우드 제공업체에 이에 대해 문의하면, 그들은 그것이 얼마나 불가능하다는 것을 보여주는 최신 PowerPoint 프리젠테이션을 들고 달려올 것입니다. 이는 대부분 사실이지만 완전히 정확하지는 않습니다. 이러한 위험은 이를 완화해야 하는 모든 다중 테넌트 시스템에 존재합니다. 나는 단일 국가에서만 운영되는 클라우드 제공업체의 규모가 작을수록 이 문제가 발생할 가능성이 더 크다는 것을 발견했습니다. 이는 데이터 저장소 및 LLM에 적용됩니다.
비밀은 저장 및 전송 중 데이터 암호화, IAM(ID 및 액세스 관리), 격리 정책 등 엄격한 보안 표준을 충족하고 이에 대한 증거를 제공하는 클라우드 제공업체를 선택하는 것입니다. 물론 클라우드에서 다중 테넌트 LLM을 사용하는 것이 덜 위험하도록 자체 보안 정책 및 보안 기술 스택을 구현하는 것이 좋습니다.
대형 언어 모델(LLM)은 대부분 상태 저장 모델입니다. 즉, 한 상호 작용에서 다음 상호 작용까지 정보를 유지합니다. 이 기존 접근 방식은 새로운 이점을 제공합니다. 즉 지속적인 학습 시나리오에서 더욱 효율적으로 작업할 수 있는 능력입니다. 그러나 클라우드 환경의 인스턴스는 설계상 일시적이거나 상태 비저장일 수 있으므로 클라우드 환경에서 이러한 모델의 상태 저장을 관리하는 것은 어렵습니다.
상태 저장 배포(예: Kubernetes)를 지원하는 조정 도구가 도움이 됩니다. 대규모 언어 모델에 대한 영구 저장소 옵션을 활용하고 세션 전체에서 상태를 유지하고 조작하도록 구성할 수 있습니다. 대규모 언어 모델의 연속성과 성능을 지원하려면 이 작업을 수행해야 합니다.
생성 인공 지능의 폭발적인 성장으로 인해 클라우드 플랫폼에 대규모 언어 모델을 배포하는 것은 필연적인 결론입니다. 대부분의 기업에서는 클라우드를 사용하지 않는 것이 너무 불편합니다. 계속되는 열광에 대한 나의 걱정은 우리가 해결하기 쉬운 문제를 놓치고 결국 대부분 피할 수 있는 거대하고 값비싼 실수를 저지르게 될 것이라는 것입니다.
AIGC에 대해 자세히 알아보려면 다음을 방문하세요.
51CTO AI.x 커뮤니티
https://www.51cto.com/aigc/
위 내용은 클라우드에 대규모 모델을 배포하기 위한 세 가지 비밀의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!