많은 기업이 GPU 컴퓨팅 성능의 개발을 결합하여 자신에게 적합한 기계 학습 문제에 대한 솔루션을 모색하고 있습니다. 예를 들어 Xiaohongshu는 추론 성능과 효율성을 향상시키기 위해 2021년부터 프로모션 검색 모델의 GPU 기반 변환을 시작할 예정입니다. 마이그레이션 과정에서 이기종 하드웨어로 원활하게 마이그레이션하는 방법, Xiaohongshu의 비즈니스 시나리오 및 온라인 아키텍처를 기반으로 자체 솔루션을 개발하는 방법 등 몇 가지 어려움에 직면하기도 했습니다. 비용 절감과 효율성 향상이라는 세계적인 추세에 따라 다양한 유형의 프로세서(예: CPU, GPU, FPGA 등)를 결합하여 컴퓨팅 성능을 향상시켜 더 나은 효율성과 더 낮은 비용을 달성할 수 있는 이기종 컴퓨팅이 유망한 방향이 되었습니다.
Xiaohongshu 추천, 광고, 검색 및 기타 주요 시나리오의 모델 서비스는 중간 추론 아키텍처에 의해 균일하게 수행됩니다. Xiaohongshu의 사업이 지속적으로 발전함에 따라 프로모션 검색과 같은 시나리오에 대한 모델의 규모도 증가하고 있습니다. 정제된 추천 시나리오의 기본 모델을 예로 들면, 2020년 초부터 알고리즘은 전 관심 모델링을 시작했으며 사용자 과거 행동 기록의 평균 길이는 약 100배로 늘어났습니다. 모델 구조도 초기 다중 작업부터 여러 차례 반복되었으며, 모델 구조의 복잡성도 계속해서 증가했습니다. 이러한 변화로 인해 부동 소수점 연산 횟수가 30배 증가했습니다. 모델 추론 및 모델 메모리 액세스가 약 5배 증가합니다.
Pictures
모델 특징:2022년 말 추천되는 Xiaohongshu 메인 모델을 예로 들어보겠습니다. 구조의 일부는 연속값 특성과 행렬 연산으로 구성되며, 와 같은 대규모 희소 매개변수도 있습니다. 그러나 상대적으로 효과적인 모델 구조 최적화를 통해 단일 모델의 희소 특성은 최대 1TB에 이릅니다. , 밀집된 부분은 10GB 이내로 조절하여 비디오 메모리에 배치할 수 있다. 사용자가 Xiaohongshu를 스와이프할 때마다 계산된 총 FLOP는 40B에 도달하고 타임아웃은 300ms 이내로 제어됩니다(특징 처리 제외, 조회 포함).
추론 프레임워크: Xiahongshu는 2020년 이전에 TensorFlow Serving 프레임워크를 온라인 서비스 프레임워크로 채택했으며 2020년 이후에는 TensorFlowCore를 기반으로 자체 개발한 Lambda 서비스로 점진적으로 반복되었습니다. TensorFlow Serving은 모델 추론의 정확성과 신뢰성을 보장하기 위해 그래프에 들어가기 전에 TensorProto -> CTensor의 메모리 복사를 수행합니다. 그러나 비즈니스 규모가 확장됨에 따라 메모리 복사 작업은 모델 성능에 영향을 미칩니다. Xiaohongshu의 자체 개발 프레임워크는 최적화를 통해 불필요한 복사를 제거하는 동시에 런타임, 그래프 스케줄링 기능 및 최적화 기능의 플러그형 기능을 유지하며 나중에 TRT, BLADE 및 TVM과 같은 다양한 최적화 프레임워크를 사용할 수 있는 기반을 마련합니다. 이제 적절한 시기에 자체 조사를 선택하는 것이 현명한 선택인 것 같습니다. 동시에 데이터 전송 비용을 최소화하기 위해 추론 프레임워크는 특징 추출 및 변환 구현의 일부도 수행합니다. 자체 개발한 엣지 스토리지를 서비스의 가까운 쪽에 배포하여 원격 끝에서 데이터를 가져오는 비용 문제를 해결합니다.
모델 특징: Xiaohongshu는 자체 컴퓨터실을 구축하지 않습니다. 모든 기계는 클라우드 공급업체에서 구매합니다. 따라서 다양한 모델을 선택하는 결정은 구매할 수 있는 기계 유형에 따라 크게 달라집니다. 모델 추론 계산은 순수한 GPU 계산이 아닙니다. 합리적인 하드웨어 비율을 찾으려면 GPUCPU를 고려하는 것 외에도 대역폭, 메모리 대역폭 및 교차 Numa 통신 지연과 같은 문제도 포함됩니다.
Pictures
GPU 기능
GPU 기능:여기서 Xiaohongshu와 다른 회사에서 직면하는 문제는 GPU 커널의 실행 단계로 나눌 수 있습니다: 데이터 전송, 커널. 시작, 커널 계산 및 결과 전송. 그 중 데이터 전송은 호스트 메모리에서 GPU 메모리로 데이터를 전송하는 것입니다. 커널 시작은 커널 코드를 호스트 측에서 GPU 측으로 전송하고 GPU에서 커널 계산을 시작하는 것입니다. 커널 코드 계산 결과, 결과 전송은 GPU 메모리에서 호스트 메모리로 다시 전송됩니다. 데이터 전송 및 커널 시작에 많은 시간이 소요되고 계산을 위해 커널에 전달되는 작업이 무겁지 않고 실제 계산 시간이 매우 짧은 경우 GPU 활용도가 향상되지 않으며 빈 실행이라도 발생하다.
사진
예상 서비스 프레임워크
3.1.1 물리적 기계
물리적 기계 최적화 측면에서 일부 기존 최적화 아이디어를 채택할 수 있는 주요 목적은 다른 시스템의 비용을 줄이는 것입니다. GPU 이외의 오버헤드를 줄여 가상화 중개자를 줄여 수익을 창출합니다. 일반적으로 일련의 시스템 최적화는 성능을 1%-2% 향상시킬 수 있습니다. 우리의 관행에 따르면 최적화는 클라우드 공급업체의 실제 기능과 결합되어야 합니다.
● 인터럽트 격리: GPU 컴퓨팅 성능에 영향을 미치는 다른 장치의 인터럽트를 방지하기 위해 GPU 인터럽트를 격리합니다.
● 커널 버전 업그레이드: 시스템 안정성과 보안을 개선하고 GPU 드라이버 호환성과 성능을 향상시킵니다.
● 명령 투명 전송: GPU 명령을 물리적 장치에 직접 투명하게 전송하여 GPU의 컴퓨팅 속도를 가속화합니다.
3.1.2 가상화 및 컨테이너
다중 카드 상황에서는 단일 포드를 특정 NUMA 노드에 바인딩하여 CPU와 GPU 간의 데이터 전송 속도를 높입니다.
● CPU NUMA Affinity, Affinity는 CPU 관점에서 어떤 메모리 액세스가 더 빠르고 대기 시간이 더 짧은지를 나타냅니다. 앞서 언급했듯이 CPU에 직접 연결된 로컬 메모리가 더 빠릅니다. 따라서 운영 체제는 액세스 속도와 성능을 향상시키기 위해 작업이 있는 CPU에 따라 로컬 메모리를 할당할 수 있으며 이는 CPU NUMA 선호도 고려 사항을 기반으로 하며 로컬 NUMA 노드에서 작업을 실행하려고 시도합니다. Xiaohongshu 시나리오에서는 CPU의 메모리 액세스 오버헤드가 적지 않습니다. CPU가 로컬 메모리에 직접 연결되도록 허용하면 CPU에서 커널을 실행하는 데 소요되는 시간을 많이 절약하고 GPU를 위한 충분한 공간을 확보할 수 있습니다.
● CPU 사용량을 70%로 제어하면 지연 시간을 200ms -> 150ms로 줄일 수 있습니다.
3.1.3 미러
컴파일 최적화. CPU마다 명령 수준에 대한 지원 기능이 다르며 클라우드 공급업체에 따라 구매하는 모델도 다릅니다. 비교적 간단한 아이디어는 다양한 하드웨어 시나리오에서 다양한 명령어 세트를 사용하여 이미지를 컴파일하는 것입니다. 연산자를 구현할 때 많은 연산자가 이미 AVX512와 같은 명령어를 가지고 있습니다. Alibaba Cloud의 Intel(R) Xeon(R) Platinum 8163 + 2 A10 모델을 예로 들어, 수행하지 않는 것과 비교하여 모델의 특성과 지원되는 명령어 세트를 기반으로 적절한 명령어 세트를 컴파일, 최적화 및 조정합니다. 명령어 최적화를 통해 이 모델의 CPU 처리량은 10% 증가합니다.
# Intel(R) Xeon(R) Platinum 8163 for ali intelbuild:intel --copt=-march=skylake-avx512 --copt=-mmmx --copt=-mno-3dnow --copt=-mssebuild:intel --copt=-msse2 --copt=-msse3 --copt=-mssse3 --copt=-mno-sse4a --copt=-mcx16build:intel --copt=-msahf --copt=-mmovbe --copt=-maes --copt=-mno-sha --copt=-mpclmulbuild:intel --copt=-mpopcnt --copt=-mabm --copt=-mno-lwp --copt=-mfma --copt=-mno-fma4build:intel --copt=-mno-xop --copt=-mbmi --copt=-mno-sgx --copt=-mbmi2 --copt=-mno-pconfigbuild:intel --copt=-mno-wbnoinvd --copt=-mno-tbm --copt=-mavx --copt=-mavx2 --copt=-msse4.2build:intel --copt=-msse4.1 --copt=-mlzcnt --copt=-mrtm --copt=-mhle --copt=-mrdrnd --copt=-mf16cbuild:intel --copt=-mfsgsbase --copt=-mrdseed --copt=-mprfchw --copt=-madx --copt=-mfxsrbuild:intel --copt=-mxsave --copt=-mxsaveopt --copt=-mavx512f --copt=-mno-avx512erbuild:intel --copt=-mavx512cd --copt=-mno-avx512pf --copt=-mno-prefetchwt1build:intel --copt=-mno-clflushopt --copt=-mxsavec --copt=-mxsavesbuild:intel --copt=-mavx512dq --copt=-mavx512bw --copt=-mavx512vl --copt=-mno-avx512ifmabuild:intel --copt=-mno-avx512vbmi --copt=-mno-avx5124fmaps --copt=-mno-avx5124vnniwbuild:intel --copt=-mno-clwb --copt=-mno-mwaitx --copt=-mno-clzero --copt=-mno-pkubuild:intel --copt=-mno-rdpid --copt=-mno-gfni --copt=-mno-shstk --copt=-mno-avx512vbmi2build:intel --copt=-mavx512vnni --copt=-mno-vaes --copt=-mno-vpclmulqdq --copt=-mno-avx512bitalgbuild:intel --copt=-mno-movdiri --copt=-mno-movdir64b --copt=-mtune=skylake-avx512
3.2.1 컴퓨팅 성능을 최대한 활용하세요
● 컴퓨팅 최적화를 위해서는 먼저 하드웨어 성능을 완전히 이해하고 철저하게 이해해야 합니다. Xiaohongshu 시나리오에서는 아래 그림과 같이 두 가지 핵심 문제에 직면했습니다.
1. CPU에 대한 메모리 액세스가 많고 메모리 페이지 오류 빈도가 높아서 CPU 리소스가 낭비되고
2. 온라인 추론 서비스에서 계산에는 일반적으로 단일 요청의 배치 크기가 작고 단일 서비스의 동시성 규모가 크다는 두 가지 특성이 있습니다. 배치 크기가 작으면 커널이 GPU의 컴퓨팅 성능을 완전히 활용할 수 없게 됩니다. GPU 커널 실행 시간은 일반적으로 짧기 때문에 커널 실행 오버헤드를 완전히 감당할 수 없으며 심지어 커널 실행 시간도 커널 실행 시간보다 깁니다. TensorFlow에서는 단일 Cuda Stream 실행 커널이 병목 현상을 일으켜 추론 시나리오에서 GPU 활용률이 50%에 불과합니다. 또한 소규모 모델 시나리오(단순 밀집 네트워크)의 경우 CPU를 GPU로 교체하는 것은 비용 효율적이지 않으므로 모델의 복잡성이 제한됩니다.
Pictures
● 위의 두 가지 문제를 해결하기 위해 다음과 같은 조치를 취했습니다.
1 높은 메모리 페이지 오류 빈도 문제를 해결하기 위해 jemalloc 라이브러리를 사용하여 메모리 재활용을 최적화합니다. 메커니즘을 활성화하고 운영 체제의 투명한 hugepages 기능을 활성화합니다. 또한, 람다의 특별한 메모리 접근 특성을 위해 특별한 데이터 구조를 설계하고 메모리 조각화를 최대한 피하기 위해 메모리 할당 전략을 최적화합니다. 동시에 tf_serving 인터페이스를 직접 우회하고 TensorFlow를 직접 호출하여 데이터의 직렬화 및 역직렬화를 줄였습니다. 이러한 최적화를 통해 홈페이지 및 인스트림 미세 조정 시나리오에서 처리량이 10% 이상 향상되었으며 대부분의 광고 시나리오에서 대기 시간이 50% 감소했습니다.
Images
는 tensorflow::Tensor 형식과 호환되며 기능을 tensorflow::SessionRun
에 전달하기 전에 0으로 복사됩니다.2. TensorFlow의 단일 Cuda Stream 문제에 대응하여 다중 스트림 및 다중 컨텍스트 기능을 지원하여 뮤텍스 잠금으로 인한 성능 병목 현상을 피하고 GPU 사용률을 90% 이상으로 성공적으로 높였습니다. 동시에 Nvidia에서 제공하는 Cuda MPS 기능을 사용하여 GPU의 공간 분할 다중화(동시에 여러 커널 실행 지원)를 실현하여 GPU 활용도를 더욱 향상시킵니다. 이를 바탕으로 Search의 순위 모델이 GPU에서 성공적으로 구현되었습니다. 또한 홈 페이지 레이아웃, 광고 등 다른 사업 분야에서도 성공적으로 구현했습니다. 다음 표는 검색순위 시나리오에서의 최적화 상황이다.
Pictures
3. Op/Kernel 융합 기술: CPU의 캐시와 GPU의 공유 메모리를 최대한 활용하여 필기 또는 그래프 컴파일 및 최적화 도구를 통해 고성능 Tensorflow 연산자를 생성하여 시스템 처리량을 향상시킵니다.
Pictures
inflow 시나리오에서는 오퍼레이터가 융합되어 단일 호출이 12ms -> 5ms
3.2.2 컴퓨팅 파워 낭비 방지
1. 시스템 링크 최적화의 여지가 있습니다
a. 예비 계산: 사용자 측 계산을 처리할 때 예비 정렬은 많은 수의 노트를 계산해야 합니다. 예를 들어 유출을 예로 들면 약 5,000개의 노트를 계산해야 합니다. , 람다에는 슬라이싱 처리가 있습니다. 반복 계산을 피하기 위해 초기 행의 사용자 측 계산이 호출 단계와 병렬로 이동되어 사용자 벡터 계산이 여러 번의 반복에서 단 한 번으로 줄어들고 기계의 40%가 최적화됩니다. 대략적인 행 시나리오에서.
2. 추론 프로세스에 대한 그래프 내 훈련:
a. 계산 전처리: 그래프 고정을 통해 계산의 일부를 미리 처리할 수 있습니다. 추론할 때 계산을 반복할 필요가 없습니다.
b. 출력 모델 고정 최적화: 모델이 출력되면 모든 매개변수가 그래프 자체와 함께 생성되어 고정 그래프(고정 그래프)를 생성하고 사전 계산된 많은 변수 연산자를 상수 연산자(GPU)로 변환할 수 있습니다. 사용량 12% 감소)
c. 추론 시나리오의 병합 계산: 각 배치에는 한 명의 사용자만 포함됩니다. 즉, CPU/를 병합할 가능성이 있는 사용자 측에서 많은 반복 계산이 있습니다. GPU 연산자 분할: 조회 후 모든 연산자를 GPU로 이동하여 CPU와 GPU 간의 데이터 복사
e. GPU에서 CPU로의 데이터 복사: 데이터를 압축하고 한 번 복사합니다
f. 성능 향상을 위해 GPU를 통한 계산 가속화
g. 부분 연산자 GPU 기반: CPU 생략 -> GPU 복사
h. BatchNorm 및 MLP 병합: 목표에 따라 새로운 MLP 레이어를 구현하여 GPU에 들어가는 횟수(N -> 1), 한 계산에 대한 계산량 증가(GPU 소형 코어의 동시성 기능 재사용)
Pictures
3.2.3 동적 컴퓨팅 성능 하루 종일● 동적 컴퓨팅 다운그레이드는 하루 종일 리소스 사용 효율성을 향상시키고, 두 번째 수준에서 네거티브 피드백으로 람다 부하를 자동으로 조정하여 단일 영역 스트레스 테스트를 수행합니다. 이전에 수동으로 다운그레이드를 준비할 필요가 없습니다.
● 아웃바운드 정제 순위, 아웃바운드 사전 정렬, 인바운드 정제 정렬, 내부 유입 사전 정렬, 검색 등 주요 비즈니스 시나리오가 모두 출시되었습니다.
● 여러 사업 부문의 용량 문제를 해결하고, 사업 성장으로 인한 자원의 선형적 증가를 효과적으로 완화하고, 시스템의 견고성을 크게 향상시켰습니다. 기능 출시 이후 사업 부문에서는 순간 성공률의 급격한 하락으로 인한 P3 이상의 사고가 발생하지 않았다.
● 인스트림 미세 조정을 예로 들면(아래 그림 참조), 3일 간의 노동절 연휴 동안 사용된 CPU 코어 수는 하루 종일 10시부터 10시까지입니다. 24:00은 50개 코어의 플랫 라인을 유지합니다. (디더링은 출시 버전에 해당합니다.)
Pictures
3.2.4 더 나은 하드웨어로 변경● A10 GPU의 성능은 1.5배입니다. T4 GPU에 비해 CPU(아이스레이크, 10nm)를 탑재한 A10 모델은 T4 모델(스카이레이크, 14nm)보다 최신 세대이며, 가격도 T4 모델의 1.2배에 불과하다. 향후 A30 등의 모델을 온라인으로 활용하는 것도 고려해 볼 예정이다.
3.3 그림 최적화
Pictures
3.3.1 DL 스택의 자동 컴파일 최적화 ● BladeDISC는 MLIR을 기반으로 하는 Alibaba의 최신 오픈 소스 동적 형상 딥 러닝 컴파일러입니다. Xiaohongshu의 자동 그래프 최적화 부분은 이 프레임워크에서 비롯됩니다(Blade 추론 가속 라이브러리는 Apache 2.0 오픈 소스이며 모든 클라우드에서 사용할 수 있으며 지적 재산권이 없습니다). 위험). 이 프레임워크는 TF 그래프 컴파일 최적화(동적 셰이프 컴파일러, 희소 하위 그래프 최적화 포함)를 제공하고 비즈니스 시나리오에 더 잘 적응할 수 있는 자체 맞춤형 연산자 최적화를 중첩할 수도 있습니다. 스트레스 테스트 단일 머신 추론에서는 QPS를 20%까지 늘릴 수 있습니다. ● 이 프레임워크의 핵심 기술 (1) MLIR 인프라 MLIR(Multi-Level Intermediate Representation)은 Google이 시작한 오픈 소스 프로젝트입니다. 그 목적은 유연하고 확장 가능한 다중 계층 IR 인프라와 컴파일러 유틸리티 라이브러리를 제공하여 컴파일러 및 언어 도구 개발자를 위한 통합 프레임워크를 제공하는 것입니다. MLIR의 디자인은 LLVM의 영향을 받았지만 LLVM과 달리 MLIR은 주로 중간 표현(IR)의 디자인과 확장에 중점을 둡니다. MLIR은 고급 언어부터 저급 하드웨어까지 컴파일 프로세스를 지원할 수 있는 다단계 IR 설계를 제공하고, 풍부한 인프라 지원과 모듈식 설계 아키텍처를 제공하여 개발자가 MLIR의 기능을 쉽게 확장할 수 있도록 합니다. 또한 MLIR은 강력한 접착 기능을 갖추고 있으며 다양한 프로그래밍 언어 및 도구와 통합될 수 있습니다. MLIR은 컴파일러 및 언어 도구 개발자에게 컴파일 최적화 및 코드 생성을 용이하게 할 수 있는 통합되고 유연한 중간 표현 언어를 제공하는 강력한 컴파일러 인프라 및 도구 라이브러리입니다. (2) 동적 형태 컴파일 정적 형태의 한계는 딥러닝 모델을 작성할 때 각 입력과 출력의 형태를 미리 결정해야 하며 런타임에 변경할 수 없다는 것을 의미합니다. 이는 딥러닝 모델의 유연성과 확장성을 제한하므로 동적 형태를 지원하는 딥러닝 컴파일러가 필요합니다. 3.3.2 정확도 조정 ● 양자화를 달성하는 방법 중 하나는 FP16을 사용하는 것입니다 FP16 계산 최적화: MLP 레이어에서 FP32 계산을 FP16으로 바꾸면 GPU 사용량을 크게 줄일 수 있습니다(상대적으로 13 % 감소) FP16을 조정하는 과정에서 정밀도 최적화를 위해 화이트박스 방식을 선택한다는 것은 정밀도가 낮은 계산을 사용하는 레이어를 더 세밀하게 제어할 수 있고 경험을 바탕으로 지속적으로 조정 및 최적화할 수 있다는 의미입니다. 이 방법을 사용하려면 모델 구조에 대한 상대적으로 심층적인 이해와 분석이 필요하며, 모델의 특성과 계산 요구 사항을 기반으로 목표 조정을 수행하여 더 높은 비용 성능을 달성할 수 있습니다. 반면, 블랙박스 방식은 비교적 간단합니다. 모델의 내부 구조에 대한 이해가 필요하지 않으며, 정확도 최적화를 완료하기 위해 특정 공차 임계값만 설정하면 됩니다. 이 방법의 장점은 작동이 간단하고 모범생에 대한 요구 사항이 상대적으로 낮다는 점이지만 특정 성능과 정확성이 희생될 수 있습니다. 따라서 정확도 최적화를 위해 화이트박스 방식을 선택할지 블랙박스 방식을 선택할지는 구체적인 상황에 따라 결정해야 합니다. 더 높은 성능과 정확성을 추구해야 하고, 충분한 경험과 기술적 역량을 갖추고 있다면 화이트박스 접근 방식이 더 적합할 수 있습니다. 운영의 단순성과 빠른 반복이 더 중요하다면 블랙박스 접근 방식이 더 실용적일 수 있습니다. 2021년부터 2022년 말까지 이 프로젝트를 최적화한 후 Xiaohongshu의 추론 컴퓨팅 성능은 30배 증가했으며 주요 사용자 지표는 10% 이상 증가했으며 동시에 클러스터 리소스는 누적 50% 이상 저장되었습니다. 우리의 의견으로는 Xiaohongshu의 AI 기술 개발 경로는 비즈니스 요구 사항을 중심으로 이루어져야 하며 기술과 비즈니스 개발의 균형을 맞춰야 합니다. 기술 혁신을 달성하는 동시에 비용, 효율성 및 지속 가능성도 고려해야 합니다. 다음은 최적화 프로세스 중 몇 가지 생각입니다. 알고리즘을 최적화하고 시스템 성능을 향상합니다. 이것이 Xiaohongshu 머신러닝 팀의 핵심 임무입니다. 알고리즘을 최적화하고 체계화를 개선하면 비즈니스 요구 사항을 더 효과적으로 지원하고 사용자 경험을 향상할 수 있습니다. 그러나 리소스가 제한되어 있는 경우 팀은 최적화의 초점을 명확히 하고 과도한 최적화를 피해야 합니다. 인프라를 구축하고 데이터 처리 기능을 향상하세요. 인프라는 AI 애플리케이션을 지원하는 데 매우 중요합니다. Xiaohongshu는 컴퓨팅 및 스토리지 기능, 데이터 센터 및 네트워크 아키텍처를 포함한 인프라 건설에 대한 추가 투자를 고려할 수 있습니다. 또한 기계 학습 및 데이터 과학 애플리케이션을 더 잘 지원하기 위해 데이터 처리 기능을 향상시키는 것도 매우 중요합니다. 팀 인재 밀도와 조직 구조를 개선하세요. 훌륭한 머신러닝 팀에는 데이터 과학자, 알고리즘 엔지니어, 소프트웨어 엔지니어 등 다양한 기술과 배경을 가진 인재가 필요합니다. 조직 구조를 최적화하는 것도 팀 효율성과 혁신 역량을 향상시키는 데 도움이 될 수 있습니다. 상생협력과 오픈이노베이션. Xiaohongshu는 AI 기술 개발을 공동으로 촉진하기 위해 다른 회사, 학술 기관 및 오픈 소스 커뮤니티와 지속적으로 협력하고 있습니다. 이를 통해 Xiaohongshu는 더 많은 리소스와 지식을 확보하고 더욱 개방적이고 혁신적인 조직이 될 수 있습니다. 이 솔루션은 Xiaohongshu의 기계 학습 아키텍처를 업계 최고 수준으로 끌어올렸습니다. 앞으로도 우리는 계속해서 엔진 업그레이드를 추진하고, 비용을 절감하고 효율성을 높이며, Xiaohongshu의 기계 학습 생산성을 향상시키는 새로운 기술을 도입하고, Xiaohongshu의 실제 비즈니스 시나리오를 더욱 통합하여 단일 모듈 최적화에서 전체 시스템 최적화로 업그레이드할 것입니다. 나아가 비즈니스 측 트래픽의 개인화된 차등 특성을 도입하여 궁극적인 비용 절감 및 효율성 향상을 달성합니다. 우리는 높은 이상을 가진 사람들의 합류를 기대하고 있습니다! Zhang Chulan (Du Zeyu): 비즈니스 기술 부서 는 화동 사범 대학을 졸업하고 주로 상용화 온라인 서비스 구축을 담당하는 상용화 엔진 팀장입니다. Lu Guang (Peng Peng): 지능형 유통 부서 는 Shanghai Jiao Tong University를 졸업하고 기계 학습 엔진 엔지니어로 주로 Lambda GPU 최적화를 담당합니다. Ian (Chen Jianxin): 지능형 유통 부서 는 베이징 우편 통신 대학을 졸업하고 기계 학습 엔진 엔지니어로 주로 Lambda 매개변수 서버 및 GPU 최적화를 담당합니다. Aka Yu(Liu Zhaoyu): 지능형 유통학과 는 칭화대학교를 졸업하고 기능 엔진 방향의 관련 연구 및 탐색을 주로 담당하고 있습니다. 특별 감사: 지능형 유통학과의 모든 학생4. 요약
5. Team
위 내용은 컴퓨팅 성능이 더 이상 병목 현상이 되지 않도록 Xiaohongshu 기계 학습 이기종 하드웨어 추론 최적화 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!