최근에는 빅데이터 증강 모델이 AI 분야 모델링의 표준 패러다임이 되었습니다. 광고 현장에서 대형 모델은 더 많은 모델 매개변수를 사용하고 더 많은 훈련 데이터를 사용합니다. 모델은 더 강력한 메모리 기능과 일반화 기능을 갖추고 있어 광고 효과를 향상할 수 있는 더 많은 공간을 확보합니다. 그러나 훈련 과정에서 대형 모델에 필요한 리소스도 기하급수적으로 증가했으며, 저장 및 컴퓨팅 부담은 머신러닝 플랫폼에 큰 과제입니다.
Tencent Taiji 기계 학습 플랫폼은 비용 절감 및 효율성 향상 솔루션을 지속적으로 탐색하고 있습니다. 오프라인 광고 교육 시나리오에서 하이브리드 배포 리소스를 사용하여 리소스 비용을 크게 절감할 수 있도록 매일 50W의 저렴한 코어 하이브리드 배포 리소스를 Tencent Advertising에 제공합니다. Tencent Advertising 오프라인 모델 교육은 리소스 비용을 30% 절감하고 일련의 최적화 방법을 통해 공동 배치된 리소스의 안정성을 일반 리소스와 동일하게 만듭니다.
최근에는 NLP 분야에서 대형 모델이 다양한 빅데이터 수주를 휩쓸면서 큰 성공을 거두면서 AI 분야에서도 빅데이터 플러스 모델이 모델링의 표준 패러다임으로 자리 잡았습니다. 검색, 광고 및 추천 모델링도 예외는 아닙니다. 수천억 개의 매개변수가 있는 T 크기 모델은 주요 예측 시나리오의 표준이 되었습니다. 또한 대규모 모델 기능은 주요 기술 간의 군비 경쟁의 초점이 되었습니다. 회사.
광고 장면에서 대형 모델은 더 많은 모델 매개변수를 사용하고 더 많은 훈련 데이터를 사용합니다. 모델은 더 강력한 기억력과 일반화 기능을 갖추고 있어 광고 효과를 향상할 수 있는 더 많은 공간이 확보됩니다. 그러나 훈련 과정에서 대형 모델에 필요한 리소스도 기하급수적으로 증가했으며, 저장 및 컴퓨팅 부담은 머신러닝 플랫폼에 큰 과제입니다. 동시에, 플랫폼이 지원할 수 있는 실험의 수는 알고리즘 반복 효율성에 직접적인 영향을 미칩니다. 어떻게 하면 더 낮은 비용으로 더 많은 실험 리소스를 제공할 수 있는지가 플랫폼의 노력의 초점입니다.
Tencent Taiji 기계 학습 플랫폼은 비용 절감 및 효율성 향상 솔루션을 지속적으로 탐색하고 있습니다. 오프라인 광고 교육 시나리오에서 하이브리드 배포 리소스를 사용하여 리소스 비용을 크게 절감할 수 있도록 매일 50W의 저렴한 코어 하이브리드 배포 리소스를 Tencent Advertising에 제공합니다. Tencent Advertising 오프라인 모델 교육은 리소스 비용을 30% 절감하고 일련의 최적화 방법을 통해 공동 배치된 리소스의 안정성을 일반 리소스와 동일하게 유지합니다.
Taiji 기계 학습 플랫폼은 사용자가 비즈니스 AI 문제 해결 및 응용에 더 집중할 수 있도록 최선을 다하고 있으며 원스톱 솔루션 알고리즘 엔지니어는 AI 응용 프로세스, 모델 교육, 모델 서비스 및 기타 엔지니어링 문제. 현재 사내 광고, 검색, 게임, 텐센트 컨퍼런스, 텐센트 클라우드 등 핵심 사업을 지원하고 있다.
Taiji Advertising Platform은 모델 훈련과 온라인 추론을 통합한 Taiji Advertising System이 설계한 고성능 기계 학습 플랫폼입니다. 이 플랫폼은 1000조 매개변수 모델의 훈련 및 추론 기능을 갖추고 있습니다. 현재 플랫폼은 Tencent 광고 회상, 대략적인 순위, 세부 순위, 수십 가지 모델 교육 및 온라인 추론을 동시에 지원하며 Taiji 플랫폼은 원스톱 기능 등록, 샘플 보충 녹음, 모델 교육, 모델 평가 및 온라인을 제공합니다. 테스트 기능이 크게 향상되어 개발자 효율성이 향상됩니다.
Taiji 플랫폼의 지속적인 개발로 작업 수와 작업 유형이 증가하고 리소스 요구 사항이 증가합니다. 또한 증가하고 있습니다. 비용을 절감하고 효율성을 높이기 위해 태극권 플랫폼은 플랫폼 성능을 향상하고 훈련 속도를 높이는 한편, 증가하는 자원 수요를 충족하기 위해 더 저렴한 자원을 찾습니다.
Fengluan - Tencent의 내부 클라우드 네이티브 빅 데이터 플랫폼은 클라우드 네이티브 기술을 사용하여 회사의 전체 빅 데이터 아키텍처를 업그레이드합니다. 지속적으로 증가하는 빅 데이터 비즈니스의 리소스 수요를 충족하기 위해 Fengluan은 리소스 수요를 충족할 뿐만 아니라 리소스 비용을 크게 절감할 수 있는 코로케이션 리소스를 도입했습니다. Fengluan은 다양한 시나리오에서 코로케이션 리소스에 대한 일련의 솔루션을 제공하여 불안정한 코로케이션 리소스를 비즈니스에 투명한 안정적인 리소스로 전환합니다. Fengluan의 공동 배치 기능은 세 가지 유형의 공동 배치 리소스를 지원합니다.
동시에 Fengluan은 클라우드 기반 가상 클러스터 기술을 도입하여 다양한 도시와 지역에서 오는 기본 공동 위치 리소스로 인해 발생하는 분산 특성을 보호합니다. Taiji 플랫폼은 다양한 기본 코로케이션 리소스에 해당하는 Fengluan 테넌트 클러스터에 직접 연결됩니다. 테넌트 클러스터는 독립적이고 완전한 클러스터 관점을 가지며 Taiji 플랫폼도 원활하게 연결될 수 있습니다.
Fengluan이 자체 개발한 Caelus의 전체 시나리오 오프라인 코로케이션 솔루션, 온라인 운영과 오프라인을 코로케이션 작업 이 방법은 온라인 시스템의 유휴 리소스를 완전히 활용하고, 온라인 시스템의 리소스 활용도를 향상시키며, 오프라인 작업의 리소스 비용을 줄입니다.
아래 그림과 같이 Caelus의 기본 아키텍처는 다양한 구성 요소와 모듈이 서로 협력하여 여러 측면에서 혼합 배포의 품질을 보장합니다.
먼저 Caelus는 온라인 운영의 서비스 품질을 전방위적으로 보장합니다. 이는 코로케이션의 중요한 전제 조건 중 하나이기도 합니다. 예를 들어 빠른 간섭 탐지 및 처리 메커니즘을 통해 적극적으로 감지합니다. 온라인 서비스의 품질을 적시에 처리하고 지원합니다. 플러그인 확장 방법은 전면적인 리소스 격리, 유연한 리소스 관리 전략 등을 통해 비즈니스의 특정 간섭 탐지 요구 사항을 지원하며 높은 수준을 보장합니다. 온라인 서비스 우선순위.
둘째, Caelus는 리소스 경쟁을 피하기 위해 공동 배치 리소스 및 오프라인 작업 초상화를 통해 적절한 리소스를 작업에 연결하고, 오프라인 작업 퇴거 전략을 최적화하고, 퇴거 우선 순위를 지정하고, 정상적인 종료를 지원하는 등 다양한 측면에서 오프라인 작업의 SLO를 보장합니다. , 전략은 유연하고 제어 가능합니다. 대부분 짧은 작업(몇 분 또는 몇 초)인 빅데이터 오프라인 작업과 달리 대부분의 태극권 작업은 실행하는 데 더 오랜 시간이 걸립니다(몇 시간 또는 며칠). 장기 리소스 예측 및 작업 초상화를 통해 실행 시간과 리소스 요구 사항이 서로 다른 작업에 적합한 리소스를 찾도록 일정을 더 잘 안내할 수 있으며 몇 시간 또는 며칠 동안 실행한 후 작업이 제거되어 작업 상태가 손실되는 것을 방지할 수 있습니다. 자원과 시간 낭비. 오프라인 작업을 제거해야 하는 경우 먼저 런타임 라이브 마이그레이션을 사용하여 작업 인스턴스를 한 시스템에서 다른 시스템으로 마이그레이션하는 동시에 메모리 상태와 IP를 변경하지 않고 작업에 거의 영향을 주지 않으므로 성능이 크게 향상됩니다. 작업 효율성. 코로케이션 리소스를 더 잘 활용하기 위해 Caelus는 더 많은 기능을 갖추고 있습니다. 자세한 내용은 Caelus의 전체 시나리오 오프라인 코로케이션 솔루션(https://www.php.cn)을 참조하세요. /링크 /caaeb10544b465034f389991efc90877).
빅 데이터 작업은 일반적으로 낮에는 상대적으로 적은 작업을 수행하고 밤에는 더 많은 작업을 수행합니다. Fengluan은 낮 동안 유휴 빅 데이터 리소스의 일부를 Taiji 플랫폼으로 전송합니다. 이 부분을 야간 자원으로 재활용하는데, 우리는 이 자원을 조수 자원이라고 부릅니다. Tidal 리소스의 특징은 노드의 빅데이터 작업이 거의 완전히 종료되었지만 빅데이터 저장 서비스인 HDFS는 여전히 노드에 유지되어 태극권 작업을 실행할 때 HDFS 서비스가 영향을 받지 않는다는 것입니다. Taiji 플랫폼이 조력 자원을 사용하는 경우 Fengluan 플랫폼과 합의해야 합니다. Fengluan 플랫폼은 고정된 시점의 과거 데이터를 기반으로 사전에 노드 배치를 검사하고 빅 데이터 작업이 정상적으로 종료됩니다. 새로운 노드가 합류했음을 Taiji 플랫폼에 알리면 Taiji 플랫폼이 시작됩니다. 테넌트 클러스터는 더 많은 작업을 제출합니다. 차용 시간이 도래하기 전에 Fengluan은 일부 노드를 재활용해야 한다고 Taiji 플랫폼에 알리고 Taiji 플랫폼은 순서대로 노드를 반환합니다.
아래 그림과 같이 조수자원의 발굴, 관리 및 이용에는 노동 분업과 여러 시스템의 협력이 필요합니다.
컴퓨팅 리소스의 특징은 비즈니스에 독점적인 CVM을 제공한다는 것입니다. 이는 비즈니스 측면에서 보다 친화적입니다. 그러나 컴퓨팅 리소스 사용의 어려움은 운모 머신 수준에서 품질이 낮은 CVM의 CPU 리소스가 언제든지 온라인 CVM에 의해 억제되어 컴퓨팅 리소스가 매우 불안정하다는 것입니다.
컴퓨팅 파워 자원의 불안정성 문제를 해결하기 위해 피크 메인 제어 계층을 통해 다양한 기능을 확장하고, 컴퓨팅 파워 자원을 다방면에서 최적화하여 컴퓨팅 파워의 안정성을 향상시킵니다.
① 리소스 초상화 및 예측: 다양한 기계 성능 지표를 탐색 및 수집하고, 집계 지표를 생성하고, 향후 최적 수준이 낮은 CVM의 사용 가능한 리소스를 예측합니다. 이 정보는 스케줄러에서 포드 및 일정을 예약하는 데 사용됩니다. 포드의 리소스 요구 사항을 충족하기 위해 포드를 제거하는 제거 구성 요소입니다.
② 일정 최적화: 태극권 운영의 서비스 품질을 보장하기 위해 작업 요구 사항과 리소스 특성을 기반으로 일정 전략에 많은 최적화가 있어 작업 성과가 향상됩니다. 2배 이상.
3 런타임 서비스 품질 보증
4 셀프 피드백 최적화: 리소스 프로파일링을 통해 성능이 떨어지는 기계를 주기적으로 교체하고 기본 플랫폼과 연결하여 CVM을 원활하게 분리하여 봉우리와 산에 영향을 주지 않는 기회를 제공합니다. 비즈니스 애플리케이션 인스턴스를 하나씩 마이그레이션하여 인스턴스에 미치는 영향을 줄입니다.
⑤ Flink 레이어의 재해 복구 기능을 개선하고 단일 지점 재시작 및 계층적 스케줄링을 지원합니다.
TM(Task Manager) 단일 지점 재시작 기능은 전체 DAG 실패를 유발하는 작업 오류를 방지하고 더 나은 성능을 제공합니다. 컴퓨팅에 적응 강제 선점 기능이 있습니다. 계층적 스케줄링은 갱 스케줄링으로 인한 과도한 작업 대기를 방지하고 TM Pod의 과도한 적용 낭비를 방지합니다.
오프라인 교육 작업에 저렴한 리소스를 사용하기 위한 주요 전제 조건은 리소스에 대한 원래 작업의 정상적인 작동에 영향을 줄 수 없다는 것입니다. 코로케이션 리소스에는 다음과 같은 주요 과제가 있습니다.
작업이 공동 배치된 리소스에서 안정적으로 실행될 수 있도록 하기 위해 플랫폼은 3단계 내결함성 전략을 사용합니다.
비즈니스 계층의 내결함성을 통해 코로케이션 리소스에서 실행되는 작업의 안정성이 초기 90% 미만에서 최종적으로 99.5%로 증가했습니다. 이는 기본적으로 실행 중인 작업의 안정성과 동일합니다. 일반 독점 자원에 대해.
조수 자원 요구 사항에 따라 오프라인 훈련 작업은 낮에만 사용할 수 있고 밤에는 온라인 비즈니스용으로 제공되어야 합니다. 따라서 태극권 플랫폼은 자동으로 훈련을 시작해야 합니다. 낮에는 자원 가용성에 따라 작업을 수행하고, 밤에는 작업을 위해 대기 상태를 유지하고 동시에 해당 훈련 작업을 중지합니다. 동시에, 각 작업 스케줄링의 우선순위는 작업 관리 대기열을 통해 관리됩니다. 밤에 시작된 새로운 작업은 자동으로 대기열 상태로 들어가고 다음날 아침에 새로운 작업이 시작될 때까지 기다립니다.
이러한 최적화를 통해 작업이 조력 자원에서 안정적으로 실행되고 기본적으로 비즈니스 계층을 인식하지 못하도록 할 수 있습니다. 동시에 작업 실행 속도는 크게 영향을 받지 않으며 작업 시작 및 중지 일정으로 인해 발생하는 추가 오버헤드는 10% 이내로 제어됩니다.
Tai Chi의 오프라인 하이브리드 배포 최적화 솔루션은 Tencent 광고 오프라인 모델 연구 및 30W 코어 전천후 하이브리드 배포 리소스와 20W 코어 조력 리소스를 제공합니다. 광고 회상, 대략적인 레이아웃, 미세 레이아웃 다중 시나리오 모델 교육을 지원하기 위해 매일 교육합니다. 리소스 비용 측면에서 동일한 계산 부하를 갖는 작업의 경우 하이브리드 배포의 리소스 비용은 일반 리소스의 70%입니다. 최적화 후 시스템 안정성과 물리적 클러스터 작업 성공률은 기본적으로 동일합니다.
향후에는 하이브리드 컴퓨팅 리소스의 사용, 특히 하이브리드 컴퓨팅 리소스의 적용을 계속 늘릴 예정이며, 다른 한편으로는 회사의 온라인 비즈니스가 GPU 기반으로 전환되고 있습니다. 기존 CPU 리소스 외에 혼합 리소스를 적용하여 오프라인 교육 중에 온라인 GPU 리소스도 사용하려고 합니다.
오늘의 나눔은 여기까지입니다. 모두 감사합니다.
위 내용은 태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!