“디지털 시대에는 문제를 정량적으로 평가할 수 있고, 머신러닝을 통해 목표를 중심으로 더욱 지능적이고 효율적인 최적화가 가능합니다.”
볼케이노엔진은 지난 4월 18일 자체 개발한 클라우드 제품, 클라우드 제품 시리즈를 출시했다. DPU는 기업 고객이 대규모 AI 모델을 더 잘 훈련할 수 있도록 지원하기 위해 새로운 버전의 기계 학습 플랫폼을 출시했습니다. ByteDance 부사장 Yang Zhenyuan은 "Douyin의 머신러닝 실습"을 주제로 머신러닝에 대한 자신의 이해를 공유했습니다.
Yang Zhenyuan은 머신러닝 시스템의 핵심 경쟁력은 각 실험을 빠르고 저렴하게 수행할 수 있다는 것이라고 믿습니다. 알고리즘 엔지니어는 자신의 작업에 집중하고 매우 저렴한 비용으로 계속해서 실수를 시도할 수 있습니다. 그래야만 비즈니스의 민첩한 반복과 혁신을 달성할 수 있습니다. 그는 "Volcano Engine 머신러닝 플랫폼은 내부와 외부가 통합되어 있습니다. Volcano Engine 고객과 Douyin은 동일한 플랫폼을 사용합니다. 회사 내에서 연마된 이러한 기술이 더 많은 고객에게 서비스를 제공하고 모든 사람이 지능적인 혁신을 할 수 있도록 지원할 수 있기를 바랍니다. "
다음은 Yang Zhenyuan의 연설 전문입니다:
좋은 아침입니다! 우리 모두 알고 있듯이 Douyin과 기타 기업은 Volcano Engine의 내부 고객이며 모두 Volcano Engine 클라우드에서 실행됩니다. 오늘은 회사 내부 비즈니스의 실제 경험, 즉 Volcano 엔진이 Douyin의 머신러닝 사용을 어떻게 지원하는지 공유하겠습니다.
먼저 머신러닝에 대해 이야기해야 하는 이유에 대해 이야기해 보겠습니다. 어떤 시나리오와 상황에서 머신러닝 시스템을 사용해야 할까요? 머신러닝을 사용하는 데 있어 어려운 점은 무엇입니까? 우리는 이러한 문제를 어떻게 해결했습니까?
머신러닝에서 가장 중요한 포인트는 문제를 디지털화하는 것이라고 생각합니다. 먼저 디지털화한 다음 문제를 정량적으로 평가할 수 있도록 만듭니다. 문제를 정량적으로 평가할 수 있으면 일부 기계 학습 방법을 사용하여 지능적으로 만들고 더욱 최적화할 수 있습니다.
전에 몇몇 친구들이 "Zhenyuan, 모델 만드는 것을 도와줄 수 있나요?"라고 물었습니다. 저는 그에게 이 모델을 무엇에 사용하고 싶은지 물었습니다. 사실 그 자신도 그것에 대해 명확하게 생각하지 않았습니다. 몇 가지 예를 통해 머신러닝의 활용에 대해 설명하고 싶습니다. 예를 들어 퍼포먼스 광고를 통해 판매자는 합리적인 비용으로 고객을 찾을 수 있을까요? 플랫폼의 경우 광고 공간이 있다면 이 위치에 가장 적합한 광고가 게재될 수 있나요? 이 문제를 어떻게 평가할 것인가? 매우 간단합니다. 전환율만 보면 목표를 명확하게 정의할 수 있습니다. 목표를 명확하게 정의할 수 있다면 A/B 실험을 할 수 있고, 어떤 방법이 더 나은지 판단한 다음, 머신러닝을 활용해 더욱 최적화할 수 있습니다. 결국, 효과적인 광고를 하기 위해 사용자를 선택하는 등 수동적인 방법을 사용하는 것이 머신러닝을 사용하는 것보다 더 잘하기 어렵다는 것을 종종 발견하게 됩니다. 또 다른 예로는 쿠폰 발행이 있습니다. 동일한 돈을 어떤 사용자에게 분배해야 플랫폼을 장기적으로 유지할 수 있습니까? 이 역시 정확하게 수량화되고 평가될 수 있는 문제이다. 이러한 문제에 대해서는 어떤 알고리즘을 사용할지, 최적화를 위해 어떤 머신러닝을 사용할지 생각해 볼 수 있습니다. 용량 파견은 누구나 익히 알고 있는 분야이며, 주문률을 통해 정량적으로 평가할 수도 있습니다. 매칭이 좋지 않으면 운전자와 승객을 효과적으로 매칭할 수 없습니다. 자율주행에 대한 자세한 내용은 다루지 않겠습니다. 이 분야의 효과를 평가하려면 실제로는 안전성, 시간, 편안함 등 더 많은 차원이 있습니다. 많이 말씀드렸지만 핵심 문제는 문제를 명확하게 정의하고 먼저 디지털화한 다음 지능적으로 만들 수 있다는 것입니다.지능을 위해 머신러닝을 활용하면 어떤 문제가 생길까요? 두 가지 주요 문제가 있습니다. 첫째는 복잡하다는 것이고, 둘째는 비용이 많이 든다는 것입니다.
왜 복잡할까요? 머신러닝 소프트웨어 스택은 매우 깊기 때문에 PyTorch 플랫폼, TensorFlow 및 기타 여러 플랫폼을 포함한 플랫폼이 필요합니다. 또한 프레임워크, 운영 체제 및 기본 하드웨어도 포함됩니다. 최근 다들 외출할 때마다 GPU 카드가 몇 개 있는지 서로 묻곤 한다. GPU 카드가 없으면 인사하기도 쑥스럽다. 하지만 실제로 많은 사람들은 이 카드를 사용하는 것의 효율성이 어떤 것인지 모릅니다. 따라서 기계 학습의 소프트웨어 스택은 매우 깊고 복잡하며 모든 링크가 정확하고 잘 수행되어야 합니다.비용이 많이 드는 문제에 대해 이야기해 보겠습니다. 인력은 비싸고, 아주 좋은 알고리즘 엔지니어는 매우 비싸고 찾기가 쉽지 않습니다. 인재가 비싼 것 외에도 데이터도 비싸고, 고품질 데이터에는 많은 비용이 듭니다. 하드웨어는 말할 것도 없고, 고성능 GPU의 가격은 누구나 다 알고 있습니다.
그래서 머신러닝은 복잡하고 비용이 많이 드는 작업입니다. 그렇다면 Douyin은 어떻게 이 복잡하고 비용이 많이 드는 문제를 처리하고 기계 학습을 더 잘 활용하여 비즈니스 개발을 도울 수 있을까요?
저희 플랫폼을 간략하게 소개하자면, 하나는 추천 광고 플랫폼이고, 다른 하나는 CV(컴퓨터 비전), NLP(자연어 처리) 플랫폼 등을 포함한 일반 플랫폼입니다.
추천 플랫폼은 매주 수만 개의 모델이 훈련됩니다. 왜냐하면 우리는 많은 제품을 보유하고 있으며 다양한 시나리오에서 모델을 자주 훈련시키기 때문입니다. CV/NLP 플랫폼에서는 모델 훈련 수가 주당 약 200,000개의 모델로 훈련 규모가 더 커집니다. 게다가 이 두 플랫폼에서는 매일 수많은 온라인 서비스가 실행되고 있습니다.
예를 들어보세요. 예를 들어 Douyin의 추천 시스템에는 많은 모델이 있으며 그 중 하나는 훈련하는 데 15개월의 샘플이 필요합니다. 이는 훈련 데이터가 15개월에 걸쳐 지속적으로 구축되어야 함을 의미합니다. 하지만 우리의 기계 학습 플랫폼에서는 이 모델의 훈련을 완료하는 데 5시간만 필요하며 계산된 비용은 5,000위안입니다. 알고리즘 엔지니어의 경우 오전에는 모델을 훈련시키고 오후에는 온라인으로 AB 실험을 수행하여 제품 반복 효율성을 크게 향상시킵니다.
머신러닝이 잘 되든 안 되든 이 삼각형으로 표현될 수 있을 것 같은데, 그 중 가장 중요한 것은 알고리즘입니다. 알고리즘이 효율성을 주도한다면 비즈니스에 큰 가치를 창출할 수 있습니다. 알고리즘 효과의 요구 사항을 지원하는 두 가지가 있습니다. 하나는 하드웨어 ROI이고 다른 하나는 인간 ROI입니다.
하드웨어 ROI는 단위 모델당 비용을 나타냅니다. 시장 경쟁에서 남들이 10,000위안을 들여 모델을 만든다면, 당신도 10,000위안을 들여 유사한 모델 10개를 만든다면 전투는 안정적일 것입니다. 인간 ROI는 강력한 알고리즘 엔지니어를 채용하는 것을 의미하며, 그가 자신의 잠재력을 극대화할 수 있는지 여부는 주로 그가 새로운 아이디어를 쉽고 빠르게 시도할 수 있도록 시스템이 지원하는지 여부에 달려 있습니다.
하드웨어 ROI를 개선하는 방법은 무엇입니까? 조수 및 혼합 부분은 우리가 일반적으로 사용하는 방법 중 일부입니다. 본질적으로 클라우드 네이티브의 기본 아이디어이기도 한 디바이스 활용도를 어떻게 향상시키는가이다. 우리는 서로 다른 작업을 혼합하고, 서로의 최고점에 시차를 두고, 지능형 스케줄링을 통해 높은 활용률로 실행합니다. 이를 통해 리소스 활용도가 크게 향상되고 각 실험의 비용이 절감됩니다.
하드웨어 비용 외에도 또 다른 중요한 점은 머신러닝 인프라가 사용하기 쉬운지 여부입니다. 농담입니다. 수학을 하는 많은 사람들은 당신이 컴퓨터 과학, 특히 딥 러닝을 하는 것을 좋아하지 않습니다. 그들은 당신들이 "영약을 만들기 위해" 여기에 왔다고 말하며 당신이 하는 일이 왜 좋은지, 왜 그래야 하는지 설명하지 못하는 경우가 많습니다. 계속 실험을 해? 그러나 실용적인 관점에서 볼 때 우리는 계속해서 실험하고 시도해야 합니다. 이 분야의 많은 새로운 발견은 지속적인 시도를 통해 이루어집니다.
모든 시도를 더 빠르고 저렴하게 만드는 것이 핵심 경쟁력입니다. 단번에 완벽한 모델을 달성하는 것은 어렵습니다.
Volcano Engine이 해야 할 일은 플랫폼의 역할을 잘 수행하는 것입니다. 보시다시피 데이터 처리, 모델 훈련, 평가, 온라인 및 AB 테스트의 전체 프로세스가 전체 플랫폼에 걸쳐 통합되고 통합됩니다. 알고리즘 엔지니어는 다양한 링크를 통해 반복적으로 소통하고 다양한 사업을 연결할 필요 없이 본연의 업무에 더욱 집중할 수 있습니다.
또 다른 예를 살펴보겠습니다. 이것은 매우 흥미로운 특수 효과(TikTok AI 그림)입니다. 지난해 말쯤에는 이 특수효과가 특히 인기를 끌었다. Douyin이 이 특수 효과를 만드는 데 얼마나 많은 인력을 투자했는지 추측해 보세요. 많은 사람들은 알고리즘 엔지니어가 한 사람을 투자하고 플랫폼에 연구 코드를 작성했다고 생각하지 않았을 것입니다. 모델 훈련을 완료하는 데 약 일주일이 걸렸고 약간의 조정을 거쳐 온라인에 출시되었습니다.
당시 제품의 최대 트래픽은 200QPS로 예상되었습니다. 예상외로 출시 후 몇 시간 내에 가득 차게 되었습니다. 우리는 빠르게 많은 확장을 했고, 용량이 짧은 시간에 10배로 확장되어 20,000 QPS를 지원하게 되었습니다.
전체 과정을 보실 수 있습니다. 참여 인원도 매우 적고, 확장 효율도 매우 높습니다. 많은 사람들은 모델 훈련이 비용이 많이 든다고 말합니다. 실제로 장기적으로 보면 추론 비용이 훈련보다 훨씬 더 클 것입니다. Volcano Engine 플랫폼에서 AI 페인팅 모델의 추론 효율성은 기본 Pytorch 모델보다 약 5배 빠릅니다. 온라인에 접속한 후 일부 타겟 최적화가 이루어졌으며 훨씬 더 빨라질 수 있습니다. 약 10배 더 빠르며 이는 엄청난 개선입니다.
이러한 플랫폼 지원을 통해 엔지니어는 진행 상황에 대한 후속 조치이든 선구적인 혁신이든 다양한 아이디어를 빠르게 시도할 수 있습니다.
마지막으로 Douyin, Toutiao 및 Dianchedi와 같은 일부 앱에서는 다음 화면이 표시되는 것을 볼 수 있습니다. Volcano Engine은 컴퓨팅 서비스를 제공합니다. 우리가 이야기하는 머신러닝 플랫폼은 Volcano Engine 고객과 Douyin이 동일한 플랫폼을 사용하므로 내부 및 외부가 통합되어 있습니다. 회사 내에서 연마된 이러한 기술이 더 많은 고객에게 서비스를 제공하고 지능적인 혁신을 통해 모든 사람을 지원할 수 있기를 바랍니다. 다들 감사 해요.
위 내용은 ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!