집 >기술 주변기기 >일체 포함 >태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

PHPz앞으로: 2023-04-14 18:46:031203검색

최근에는 빅데이터 증강 모델이 AI 분야 모델링의 표준 패러다임이 되었습니다. 광고 현장에서 대형 모델은 더 많은 모델 매개변수를 사용하고 더 많은 훈련 데이터를 사용합니다. 모델은 더 강력한 메모리 기능과 일반화 기능을 갖추고 있어 광고 효과를 향상할 수 있는 더 많은 공간을 확보합니다. 그러나 훈련 과정에서 대형 모델에 필요한 리소스도 기하급수적으로 증가했으며, 저장 및 컴퓨팅 부담은 머신러닝 플랫폼에 큰 과제입니다.

Tencent Taiji 기계 학습 플랫폼은 비용 절감 및 효율성 향상 솔루션을 지속적으로 탐색하고 있습니다. 오프라인 광고 교육 시나리오에서 하이브리드 배포 리소스를 사용하여 리소스 비용을 크게 절감할 수 있도록 매일 50W의 저렴한 코어 하이브리드 배포 리소스를 Tencent Advertising에 제공합니다. Tencent Advertising 오프라인 모델 교육은 리소스 비용을 30% 절감하고 일련의 최적화 방법을 통해 공동 배치된 리소스의 안정성을 일반 리소스와 동일하게 만듭니다.

1. 소개

최근에는 NLP 분야에서 대형 모델이 다양한 빅데이터 수주를 휩쓸면서 큰 성공을 거두면서 AI 분야에서도 빅데이터 플러스 모델이 모델링의 표준 패러다임으로 자리 잡았습니다. 검색, 광고 및 추천 모델링도 예외는 아닙니다. 수천억 개의 매개변수가 있는 T 크기 모델은 주요 예측 시나리오의 표준이 되었습니다. 또한 대규모 모델 기능은 주요 기술 간의 군비 경쟁의 초점이 되었습니다. 회사.

광고 장면에서 대형 모델은 더 많은 모델 매개변수를 사용하고 더 많은 훈련 데이터를 사용합니다. 모델은 더 강력한 기억력과 일반화 기능을 갖추고 있어 광고 효과를 향상할 수 있는 더 많은 공간이 확보됩니다. 그러나 훈련 과정에서 대형 모델에 필요한 리소스도 기하급수적으로 증가했으며, 저장 및 컴퓨팅 부담은 머신러닝 플랫폼에 큰 과제입니다. 동시에, 플랫폼이 지원할 수 있는 실험의 수는 알고리즘 반복 효율성에 직접적인 영향을 미칩니다. 어떻게 하면 더 낮은 비용으로 더 많은 실험 리소스를 제공할 수 있는지가 플랫폼의 노력의 초점입니다.

2, Taiji 기계 학습 플랫폼 소개

Taiji 기계 학습 플랫폼은 사용자가 비즈니스 AI 문제 해결 및 응용에 더 집중할 수 있도록 최선을 다하고 있으며 원스톱 솔루션 알고리즘 엔지니어는 AI 응용 프로세스, 모델 교육, 모델 서비스 및 기타 엔지니어링 문제. 현재 사내 광고, 검색, 게임, 텐센트 컨퍼런스, 텐센트 클라우드 등 핵심 사업을 지원하고 있다.

Taiji Advertising Platform은 모델 훈련과 온라인 추론을 통합한 Taiji Advertising System이 설계한 고성능 기계 학습 플랫폼입니다. 이 플랫폼은 1000조 매개변수 모델의 훈련 및 추론 기능을 갖추고 있습니다. 현재 플랫폼은 Tencent 광고 회상, 대략적인 순위, 세부 순위, 수십 가지 모델 교육 및 온라인 추론을 동시에 지원하며 Taiji 플랫폼은 원스톱 기능 등록, 샘플 보충 녹음, 모델 교육, 모델 평가 및 온라인을 제공합니다. 테스트 기능이 크게 향상되어 개발자 효율성이 향상됩니다.

훈련 플랫폼: 현재 모델 훈련은 CPU와 GPU의 두 가지 훈련 모드를 지원합니다. 자체 개발한 효율적인 연산자, 혼합 정밀도 훈련, 3D 병렬 처리 및 기타 기술을 사용하여 훈련 속도가 1배 향상됩니다. 업계의 오픈 소스 시스템 규모.
Inference Framework: Taiji가 자체 개발한 HCF(Heterogeneous Computing Framework) 이기종 컴퓨팅 프레임워크는 하드웨어 계층, 컴파일 계층 및 소프트웨어 계층의 공동 최적화를 통해 최고의 성능 최적화를 제공합니다.

3. 비용 최적화의 구체적인 구현

(1) 전체 솔루션 소개

Taiji 플랫폼의 지속적인 개발로 작업 수와 작업 유형이 증가하고 리소스 요구 사항이 증가합니다. 또한 증가하고 있습니다. 비용을 절감하고 효율성을 높이기 위해 태극권 플랫폼은 플랫폼 성능을 향상하고 훈련 속도를 높이는 한편, 증가하는 자원 수요를 충족하기 위해 더 저렴한 자원을 찾습니다.

Fengluan - Tencent의 내부 클라우드 네이티브 빅 데이터 플랫폼은 클라우드 네이티브 기술을 사용하여 회사의 전체 빅 데이터 아키텍처를 업그레이드합니다. 지속적으로 증가하는 빅 데이터 비즈니스의 리소스 수요를 충족하기 위해 Fengluan은 리소스 수요를 충족할 뿐만 아니라 리소스 비용을 크게 절감할 수 있는 코로케이션 리소스를 도입했습니다. Fengluan은 다양한 시나리오에서 코로케이션 리소스에 대한 일련의 솔루션을 제공하여 불안정한 코로케이션 리소스를 비즈니스에 투명한 안정적인 리소스로 전환합니다. Fengluan의 공동 배치 기능은 세 가지 유형의 공동 배치 리소스를 지원합니다.

온라인 유휴 리소스를 재사용합니다. 온라인 리소스의 최고점과 최저점, 리소스 사용량의 과대평가, 클러스터 리소스 조각화로 인해 클러스터 리소스 활용도가 낮고 유휴 리소스가 많습니다. Fengluan은 이러한 임시 유휴 리소스를 활용하여 빅 데이터 작업을 실행하고 현재 이를 온라인 광고, 스토리지, 소셜 엔터테인먼트 및 게임과 같은 시나리오에 배포하고 있습니다.
유연한 오프라인 리소스 대여. 빅 데이터 플랫폼의 일부 작업에는 낮 동안 빅 데이터 클러스터의 리소스 사용량이 적을 때 Fengluan은 일부 리소스의 일시적인 유연한 대출을 지원한 다음 이러한 리소스를 최고조에 도달하기 전에 회수합니다. 빅 데이터 클러스터가 도착합니다. 이 시나리오는 휴일 및 주요 프로모션 기간 동안 일시적으로 많은 양의 리소스가 필요한 온라인 작업 문제를 해결하는 데 매우 적합합니다. Fengluan은 현재 봄 축제 및 618과 같은 주요 휴일을 지원합니다.
컴퓨팅 리소스를 재사용하세요. 컴퓨팅 리소스는 운모 머신의 유휴 리소스에서 저품질 CVM 형태로 채굴됩니다. 소위 저품질 CVM은 운모 머신에서 더 낮은 CPU 우선 순위로 CVM 가상 머신을 시작하는 것을 의미합니다. 실시간으로 다른 가상 머신에 의해 선점됩니다. Fengluan은 기본 컴퓨팅 성능이 제공하는 리소스 정보를 기반으로 스케줄링, 과부하 보호 및 컴퓨팅 성능 마이그레이션과 같은 측면에서 많은 최적화를 수행했습니다. 현재 수백만 개의 코어가 있는 빅데이터 작업이 컴퓨팅 성능 리소스에서 안정적으로 실행되고 있습니다.

동시에 Fengluan은 클라우드 기반 가상 클러스터 기술을 도입하여 다양한 도시와 지역에서 오는 기본 공동 위치 리소스로 인해 발생하는 분산 특성을 보호합니다. Taiji 플랫폼은 다양한 기본 코로케이션 리소스에 해당하는 Fengluan 테넌트 클러스터에 직접 연결됩니다. 테넌트 클러스터는 독립적이고 완전한 클러스터 관점을 가지며 Taiji 플랫폼도 원활하게 연결될 수 있습니다.

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

(2) 자원 코로케이션 솔루션

온라인 유휴 자원

Fengluan이 자체 개발한 Caelus의 전체 시나리오 오프라인 코로케이션 솔루션, 온라인 운영과 오프라인을 코로케이션 작업 이 방법은 온라인 시스템의 유휴 리소스를 완전히 활용하고, 온라인 시스템의 리소스 활용도를 향상시키며, 오프라인 작업의 리소스 비용을 줄입니다.

아래 그림과 같이 Caelus의 기본 아키텍처는 다양한 구성 요소와 모듈이 서로 협력하여 여러 측면에서 혼합 배포의 품질을 보장합니다.

먼저 Caelus는 온라인 운영의 서비스 품질을 전방위적으로 보장합니다. 이는 코로케이션의 중요한 전제 조건 중 하나이기도 합니다. 예를 들어 빠른 간섭 탐지 및 처리 메커니즘을 통해 적극적으로 감지합니다. 온라인 서비스의 품질을 적시에 처리하고 지원합니다. 플러그인 확장 방법은 전면적인 리소스 격리, 유연한 리소스 관리 전략 등을 통해 비즈니스의 특정 간섭 탐지 요구 사항을 지원하며 높은 수준을 보장합니다. 온라인 서비스 우선순위.

둘째, Caelus는 리소스 경쟁을 피하기 위해 공동 배치 리소스 및 오프라인 작업 초상화를 통해 적절한 리소스를 작업에 연결하고, 오프라인 작업 퇴거 전략을 최적화하고, 퇴거 우선 순위를 지정하고, 정상적인 종료를 지원하는 등 다양한 측면에서 오프라인 작업의 SLO를 보장합니다. , 전략은 유연하고 제어 가능합니다. 대부분 짧은 작업(몇 분 또는 몇 초)인 빅데이터 오프라인 작업과 달리 대부분의 태극권 작업은 실행하는 데 더 오랜 시간이 걸립니다(몇 시간 또는 며칠). 장기 리소스 예측 및 작업 초상화를 통해 실행 시간과 리소스 요구 사항이 서로 다른 작업에 적합한 리소스를 찾도록 일정을 더 잘 안내할 수 있으며 몇 시간 또는 며칠 동안 실행한 후 작업이 제거되어 작업 상태가 손실되는 것을 방지할 수 있습니다. 자원과 시간 낭비. 오프라인 작업을 제거해야 하는 경우 먼저 런타임 라이브 마이그레이션을 사용하여 작업 인스턴스를 한 시스템에서 다른 시스템으로 마이그레이션하는 동시에 메모리 상태와 IP를 변경하지 않고 작업에 거의 영향을 주지 않으므로 성능이 크게 향상됩니다. 작업 효율성. 코로케이션 리소스를 더 잘 활용하기 위해 Caelus는 더 많은 기능을 갖추고 있습니다. 자세한 내용은 Caelus의 전체 시나리오 오프라인 코로케이션 솔루션(https://www.php.cn)을 참조하세요. /링크 /caaeb10544b465034f389991efc90877).

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

조류 자원

빅 데이터 작업은 일반적으로 낮에는 상대적으로 적은 작업을 수행하고 밤에는 더 많은 작업을 수행합니다. Fengluan은 낮 동안 유휴 빅 데이터 리소스의 일부를 Taiji 플랫폼으로 전송합니다. 이 부분을 야간 자원으로 재활용하는데, 우리는 이 자원을 조수 자원이라고 부릅니다. Tidal 리소스의 특징은 노드의 빅데이터 작업이 거의 완전히 종료되었지만 빅데이터 저장 서비스인 HDFS는 여전히 노드에 유지되어 태극권 작업을 실행할 때 HDFS 서비스가 영향을 받지 않는다는 것입니다. Taiji 플랫폼이 조력 자원을 사용하는 경우 Fengluan 플랫폼과 합의해야 합니다. Fengluan 플랫폼은 고정된 시점의 과거 데이터를 기반으로 사전에 노드 배치를 검사하고 빅 데이터 작업이 정상적으로 종료됩니다. 새로운 노드가 합류했음을 Taiji 플랫폼에 알리면 Taiji 플랫폼이 시작됩니다. 테넌트 클러스터는 더 많은 작업을 제출합니다. 차용 시간이 도래하기 전에 Fengluan은 일부 노드를 재활용해야 한다고 Taiji 플랫폼에 알리고 Taiji 플랫폼은 순서대로 노드를 반환합니다.

아래 그림과 같이 조수자원의 발굴, 관리 및 이용에는 노동 분업과 여러 시스템의 협력이 필요합니다.

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

빅 데이터 자원 전송 시스템: 이 시스템은 각 기계의 다양한 작업 실행 조건과 과거 기간의 클러스터 운영 데이터를 기반으로 기계 학습 알고리즘을 기반으로 오프라인에 가장 적합한 기계 노드를 찾습니다. 특정 리소스 요구 사항을 충족하고 작업 실행에 미치는 영향을 최소화합니다. 그런 다음 이러한 노드에 대한 새 작업 예약을 금지하고 노드에서 실행 중인 작업의 실행이 완료될 때까지 기다려 빅 데이터 작업에 대한 영향을 최소화합니다.
Caelus 코로케이션 시스템: 전송 시스템에서 비워진 머신 리소스에서는 더 이상 빅데이터 작업이 실행되지 않지만 HDFS 서비스는 여전히 실행 중이며 데이터 읽기 및 쓰기 서비스가 제공됩니다. HDFS 서비스를 보호하기 위해 Caelus 코로케이션 시스템을 도입하여 HDFS를 온라인 서비스로 사용합니다. Caelus의 일련의 온라인 서비스 보증 방법(예: HDFS 핵심 지표를 통해 영향을 받는지 감지)을 통해 HDFS 서비스는 영향을 받지 않습니다.
가상 클러스터를 통해 Tidal 리소스 사용: 이러한 전송된 기계 리소스는 Fengluan에 의해 균일하게 관리 및 예약되며 가상 클러스터 형태로 Taichi 플랫폼에 제공되어 K8S 기본 인터페이스를 제공합니다. 상위 플랫폼은 기본 리소스의 차이점을 보호하여 애플리케이션이 동일한 방식으로 리소스를 사용하도록 보장합니다.
애플리케이션 계층 중단점 이력서 훈련과 연결: 조력 자원은 야간에 재활용되어 빅데이터 작업을 실행합니다. 재활용의 영향을 줄이기 위해 피크 및 응용 계층 중단점 이력서 교육 기능이 구현되었습니다. 교육을 중단하지 않고 자원 전환을 달성할 수 있으며 전환 후에도 비즈니스의 지속적인 운영은 영향을 받지 않습니다.

컴퓨팅 리소스

컴퓨팅 리소스의 특징은 비즈니스에 독점적인 CVM을 제공한다는 것입니다. 이는 비즈니스 측면에서 보다 친화적입니다. 그러나 컴퓨팅 리소스 사용의 어려움은 운모 머신 수준에서 품질이 낮은 CVM의 CPU 리소스가 언제든지 온라인 CVM에 의해 억제되어 컴퓨팅 리소스가 매우 불안정하다는 것입니다.

컴퓨팅 머신이 불안정합니다. : 조각화로 인해 컴퓨팅 시스템이 불안정해집니다. 리소스 통합 및 컴퓨터실 전력 부족으로 인해 오프라인 상태가 되었습니다.
컴퓨팅 리소스의 낮은 우선순위: 일반 CVM 머신의 서비스 품질이 영향을 받지 않도록 하기 위해 컴퓨팅 리소스에 대한 작업은 가장 낮은 우선순위를 가지며 무조건 고품질 리소스에 대한 작업을 제공하므로 결과적으로 극도로 불안정한 성능.
높은 제거 빈도: 다양한 이유(컴퓨팅 리소스 성능 부족, 디스크 공간 부족, 디스크 정체 등)로 인해 포드의 활성 제거가 트리거되어 포드 실패 확률이 높아집니다.

컴퓨팅 파워 자원의 불안정성 문제를 해결하기 위해 피크 메인 제어 계층을 통해 다양한 기능을 확장하고, 컴퓨팅 파워 자원을 다방면에서 최적화하여 컴퓨팅 파워의 안정성을 향상시킵니다.

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

① 리소스 초상화 및 예측: 다양한 기계 성능 지표를 탐색 및 수집하고, 집계 지표를 생성하고, 향후 최적 수준이 낮은 CVM의 사용 가능한 리소스를 예측합니다. 이 정보는 스케줄러에서 포드 및 일정을 예약하는 데 사용됩니다. 포드의 리소스 요구 사항을 충족하기 위해 포드를 제거하는 제거 구성 요소입니다.

② 일정 최적화: 태극권 운영의 서비스 품질을 보장하기 위해 작업 요구 사항과 리소스 특성을 기반으로 일정 전략에 많은 최적화가 있어 작업 성과가 향상됩니다. 2배 이상.

도시 내 예약: 동일한 도시의 동일한 컴퓨터실에 PST 및 교육 작업을 예약하면 작업 인스턴스 간 네트워크 지연이 최소화되고, 동일한 도시 내 네트워크 대역폭 비용도 낮아져 비용이 절감됩니다.
단일 머신 스케줄링 최적화: 리소스 예측 결과 및 CPU 스틸타임과 같은 지표를 결합하여 작업 성능이 더 나은 CPU를 선택하고 코어를 바인딩하여 작업 성능을 더 향상시킵니다.
등급별 예약: 관리되는 모든 리소스에 자동으로 레이블을 지정하고 등급을 지정하며, Job Manager와 같이 재해 복구 요구 사항이 높은 작업을 비교적 안정적인 리소스로 자동 예약합니다.
스케줄링 매개변수 조정: 리소스 초상화 및 예측 데이터를 기반으로 스케줄러는 작업에 대해 더 나은 성능과 안정성을 갖춘 노드의 우선 순위를 지정합니다. 또한, 일관성 없는 단계로 인한 계층 만료 문제를 해결하기 위해 동일한 작업의 인스턴스가 유사한 성능을 가진 머신에 예약됩니다

3 런타임 서비스 품질 보증

런타임 열 도입 활성 퇴거 단계에서 마이그레이션, 비즈니스가 기본적으로 눈에 띄지 않도록: Pod 퇴거로 인한 리소스 불안정 및 애플리케이션 종료 문제를 처리하기 위해 런타임 핫 마이그레이션이 구현되고 다양한 핫 마이그레이션 전략이 제공됩니다. 다양한 시나리오의 요구 사항. 현재 온라인 데이터에 따르면 마이그레이션 우선 순위 전략을 사용할 때 메모리가 큰 컨테이너의 경우 실시간 마이그레이션 중단 시간이 10초 이상입니다. 또한 메모리 크기와 관계없이 일정한 인터럽트 시간을 구현했습니다(복구 우선 전략). 현재 매일 20,000개 이상의 Pod가 성공적으로 마이그레이션되고 있으며, 클러스터 간 핫 마이그레이션이 지원되어 제거로 인한 영향이 크게 줄어듭니다.
제거 전략을 최적화하여 제거의 영향을 최소화합니다. 각 머신이 제거되면 이미 시작된 작업에 영향을 주지 않도록 제거 후에 시작된 포드에 우선순위가 부여됩니다. 단일 작업의 업스트림과 다운스트림이 동시에 제거되는 것을 방지하여 작업 수준 다시 시작을 유발하고 포드가 제거되면 상위 계층 Flink 프레임워크와 연결되어 빠른 단일 지점 복구를 위해 Flink에 사전에 알립니다.

4 셀프 피드백 최적화: 리소스 프로파일링을 통해 성능이 떨어지는 기계를 주기적으로 교체하고 기본 플랫폼과 연결하여 CVM을 원활하게 분리하여 봉우리와 산에 영향을 주지 않는 기회를 제공합니다. 비즈니스 애플리케이션 인스턴스를 하나씩 마이그레이션하여 인스턴스에 미치는 영향을 줄입니다.

⑤ Flink 레이어의 재해 복구 기능을 개선하고 단일 지점 재시작 및 계층적 스케줄링을 지원합니다.

TM(Task Manager) 단일 지점 재시작 기능은 전체 DAG 실패를 유발하는 작업 오류를 방지하고 더 나은 성능을 제공합니다. 컴퓨팅에 적응 강제 선점 기능이 있습니다. 계층적 스케줄링은 갱 스케줄링으로 인한 과도한 작업 대기를 방지하고 TM Pod의 과도한 적용 낭비를 방지합니다.

(3) 애플리케이션 계층 최적화 솔루션

비즈니스 내결함성

오프라인 교육 작업에 저렴한 리소스를 사용하기 위한 주요 전제 조건은 리소스에 대한 원래 작업의 정상적인 작동에 영향을 줄 수 없다는 것입니다. 코로케이션 리소스에는 다음과 같은 주요 과제가 있습니다.

코로케이션 리소스의 대부분은 임시 리소스이며 자주 오프라인 상태가 됩니다.
코로케이션 리소스는 무조건 고품질 리소스를 제공합니다. 결과적으로 머신 성능이 극도로 불안정해집니다.
동일 배치 리소스 자동 제거 메커니즘은 노드와 포드의 실패 확률도 크게 높입니다.

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

작업이 공동 배치된 리소스에서 안정적으로 실행될 수 있도록 하기 위해 플랫폼은 3단계 내결함성 전략을 사용합니다.

핫 마이그레이션 기술: 작업 관리자가 제거되기 전에 미리 감지하여 해당 작업 관리자를 다른 포드로 마이그레이션하는 동시에 메모리 압축, 스트리밍 동시성, 클러스터 간 핫 마이그레이션 및 핫 마이그레이션의 성공을 지속적으로 최적화하는 기타 기능.
작업 관리자 다시 시작: 작업의 작업 관리자가 예외 또는 제거로 인해 실패하면 전체 작업이 실패하지 않고 바로 종료됩니다. 대신 작업 관리자의 상태가 먼저 저장된 다음 작업 관리자가 저장됩니다. 다시 시작되므로 전체 작업이 실패할 확률이 줄어듭니다.
작업 전체 복구: 비정상적인 Flink 상태로 인해 작업이 복구 불가능한 상태인 경우 Job Manager의 재시작이 트리거됩니다. Job Manager의 안정성을 보장하기 위해 플랫폼은 Job Manager를 다음 위치에 배포합니다. 안정성이 좋은 독립적인 위치. 리소스 측면에서 작업 상태가 정상인지 확인합니다.
중단점에서 훈련 재개: 이전 내결함성 전략이 실패하면 플랫폼은 기록의 특정 ckpt를 기반으로 작업을 다시 시작합니다.

비즈니스 계층의 내결함성을 통해 코로케이션 리소스에서 실행되는 작업의 안정성이 초기 90% 미만에서 최종적으로 99.5%로 증가했습니다. 이는 기본적으로 실행 중인 작업의 안정성과 동일합니다. 일반 독점 자원에 대해.

작업 조수 일정

조수 자원 요구 사항에 따라 오프라인 훈련 작업은 낮에만 사용할 수 있고 밤에는 온라인 비즈니스용으로 제공되어야 합니다. 따라서 태극권 플랫폼은 자동으로 훈련을 시작해야 합니다. 낮에는 자원 가용성에 따라 작업을 수행하고, 밤에는 작업을 위해 대기 상태를 유지하고 동시에 해당 훈련 작업을 중지합니다. 동시에, 각 작업 스케줄링의 우선순위는 작업 관리 대기열을 통해 관리됩니다. 밤에 시작된 새로운 작업은 자동으로 대기열 상태로 들어가고 다음날 아침에 새로운 작업이 시작될 때까지 기다립니다.

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

핵심 과제:

조수 현상: 낮에는 오프라인 작업을 위해 리소스를 제공할 수 있으며 밤에는 재활용해야 합니다.
자원의 동적 변화: 낮에는 자원도 불안정하고 언제든지 변경됩니다. 일반적으로 아침에는 자원이 상대적으로 적다가 점차 증가하여 밤에 자원이 최고조에 이릅니다.

솔루션:

리소스 인식 예약 전략: 아침에 리소스가 점차 증가함에 따라 조석 예약 서비스는 리소스 변경을 감지하고 리소스 상태에 대한 후속 조치를 취하여 지속적인 교육을 위한 작업을 시작해야 합니다.
자동 모델 백업 기능: 밤에 리소스를 재활용하기 전에 현재 플랫폼에서 실행 중인 모든 작업을 점진적으로 백업해야 합니다. 이는 수백 가지 작업이 있기 때문에 플랫폼의 저장 공간과 대역폭에 큰 부담을 줍니다. 플랫폼에서 작업별 Cold Standby 크기는 수백 G에서 수 테라바이트에 이르며, 동시에 Cold Standby를 수행할 경우 수백 테라바이트의 데이터를 단시간에 전송하고 저장해야 합니다. 스토리지와 네트워크에 큰 어려움이 있으므로 합리적인 일정 계획 전략을 세우고 점진적으로 모델을 저장해야 합니다.
지능형 리소스 예약 기능: 기존 교육과 비교하여 조석 예약은 밤에 자원 재활용을 위한 모델 백업과 작업이 매일 아침 새로 시작될 때 추가 오버헤드가 있습니다. 일정을 계획하려면 같은 날에 완료할 수 있는 작업과 여러 날 동안 실행해야 하는 작업을 평가해야 합니다. 당일 완료.

이러한 최적화를 통해 작업이 조력 자원에서 안정적으로 실행되고 기본적으로 비즈니스 계층을 인식하지 못하도록 할 수 있습니다. 동시에 작업 실행 속도는 크게 영향을 받지 않으며 작업 시작 및 중지 일정으로 인해 발생하는 추가 오버헤드는 10% 이내로 제어됩니다.

4. 온라인 효과 및 향후 전망

Tai Chi의 오프라인 하이브리드 배포 최적화 솔루션은 Tencent 광고 오프라인 모델 연구 및 30W 코어 전천후 하이브리드 배포 리소스와 20W 코어 조력 리소스를 제공합니다. 광고 회상, 대략적인 레이아웃, 미세 레이아웃 다중 시나리오 모델 교육을 지원하기 위해 매일 교육합니다. 리소스 비용 측면에서 동일한 계산 부하를 갖는 작업의 경우 하이브리드 배포의 리소스 비용은 일반 리소스의 70%입니다. 최적화 후 시스템 안정성과 물리적 클러스터 작업 성공률은 기본적으로 동일합니다.

향후에는 하이브리드 컴퓨팅 리소스의 사용, 특히 하이브리드 컴퓨팅 리소스의 적용을 계속 늘릴 예정이며, 다른 한편으로는 회사의 온라인 비즈니스가 GPU 기반으로 전환되고 있습니다. 기존 CPU 리소스 외에 혼합 리소스를 적용하여 오프라인 교육 중에 온라인 GPU 리소스도 사용하려고 합니다.

오늘의 나눔은 여기까지입니다. 모두 감사합니다.

위 내용은 태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

php 架构接口并发算法 flink hdfs nlp https 性能优化

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：ChatGPT와 민감한 비즈니스 데이터를 공유하는 것은 위험할 수 있습니다.다음 기사：ChatGPT와 민감한 비즈니스 데이터를 공유하는 것은 위험할 수 있습니다.

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

1. 소개

2, ​Taiji 기계 학습 플랫폼 소개

3. 비용 최적화의 구체적인 구현

(1) 전체 솔루션 소개

(2) 자원 코로케이션 솔루션

온라인 유휴 자원

조류 자원

컴퓨팅 리소스

(3) 애플리케이션 계층 최적화 솔루션

비즈니스 내결함성

작업 조수 일정

핵심 과제:

솔루션:

4. 온라인 효과 및 향후 전망

관련 기사

2, Taiji 기계 학습 플랫폼 소개