ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법-일체 포함-php.cn

집

기술 주변기기

일체 포함

ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법

PHPz

Apr 20, 2023 pm 03:07 PM

틱톡기계 학습

ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법

“디지털 시대에는 문제를 정량적으로 평가할 수 있고, 머신러닝을 통해 목표를 중심으로 더욱 지능적이고 효율적인 최적화가 가능합니다.”

볼케이노엔진은 지난 4월 18일 자체 개발한 클라우드 제품, 클라우드 제품 시리즈를 출시했다. DPU는 기업 고객이 대규모 AI 모델을 더 잘 훈련할 수 있도록 지원하기 위해 새로운 버전의 기계 학습 플랫폼을 출시했습니다. ByteDance 부사장 Yang Zhenyuan은 "Douyin의 머신러닝 실습"을 주제로 머신러닝에 대한 자신의 이해를 공유했습니다.

Yang Zhenyuan은 머신러닝 시스템의 핵심 경쟁력은 각 실험을 빠르고 저렴하게 수행할 수 있다는 것이라고 믿습니다. 알고리즘 엔지니어는 자신의 작업에 집중하고 매우 저렴한 비용으로 계속해서 실수를 시도할 수 있습니다. 그래야만 비즈니스의 민첩한 반복과 혁신을 달성할 수 있습니다. 그는 "Volcano Engine 머신러닝 플랫폼은 내부와 외부가 통합되어 있습니다. Volcano Engine 고객과 Douyin은 동일한 플랫폼을 사용합니다. 회사 내에서 연마된 이러한 기술이 더 많은 고객에게 서비스를 제공하고 모든 사람이 지능적인 혁신을 할 수 있도록 지원할 수 있기를 바랍니다. "

다음은 Yang Zhenyuan의 연설 전문입니다:

ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법

좋은 아침입니다! 우리 모두 알고 있듯이 Douyin과 기타 기업은 Volcano Engine의 내부 고객이며 모두 Volcano Engine 클라우드에서 실행됩니다. 오늘은 회사 내부 비즈니스의 실제 경험, 즉 Volcano 엔진이 Douyin의 머신러닝 사용을 어떻게 지원하는지 공유하겠습니다.

먼저 머신러닝에 대해 이야기해야 하는 이유에 대해 이야기해 보겠습니다. 어떤 시나리오와 상황에서 머신러닝 시스템을 사용해야 할까요? 머신러닝을 사용하는 데 있어 어려운 점은 무엇입니까? 우리는 이러한 문제를 어떻게 해결했습니까?

ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법

머신러닝에서 가장 중요한 포인트는 문제를 디지털화하는 것이라고 생각합니다. 먼저 디지털화한 다음 문제를 정량적으로 평가할 수 있도록 만듭니다. 문제를 정량적으로 평가할 수 있으면 일부 기계 학습 방법을 사용하여 지능적으로 만들고 더욱 최적화할 수 있습니다.

ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법

전에 몇몇 친구들이 "Zhenyuan, 모델 만드는 것을 도와줄 수 있나요?"라고 물었습니다. 저는 그에게 이 모델을 무엇에 사용하고 싶은지 물었습니다. 사실 그 자신도 그것에 대해 명확하게 생각하지 않았습니다.

몇 가지 예를 통해 머신러닝의 활용에 대해 설명하고 싶습니다.

예를 들어 퍼포먼스 광고를 통해 판매자는 합리적인 비용으로 고객을 찾을 수 있을까요? 플랫폼의 경우 광고 공간이 있다면 이 위치에 가장 적합한 광고가 게재될 수 있나요? 이 문제를 어떻게 평가할 것인가? 매우 간단합니다. 전환율만 보면 목표를 명확하게 정의할 수 있습니다.

목표를 명확하게 정의할 수 있다면 A/B 실험을 할 수 있고, 어떤 방법이 더 나은지 판단한 다음, 머신러닝을 활용해 더욱 최적화할 수 있습니다. 결국, 효과적인 광고를 하기 위해 사용자를 선택하는 등 수동적인 방법을 사용하는 것이 머신러닝을 사용하는 것보다 더 잘하기 어렵다는 것을 종종 발견하게 됩니다.

또 다른 예로는 쿠폰 발행이 있습니다. 동일한 돈을 어떤 사용자에게 분배해야 플랫폼을 장기적으로 유지할 수 있습니까? 이 역시 정확하게 수량화되고 평가될 수 있는 문제이다. 이러한 문제에 대해서는 어떤 알고리즘을 사용할지, 최적화를 위해 어떤 머신러닝을 사용할지 생각해 볼 수 있습니다.

용량 파견은 누구나 익히 알고 있는 분야이며, 주문률을 통해 정량적으로 평가할 수도 있습니다. 매칭이 좋지 않으면 운전자와 승객을 효과적으로 매칭할 수 없습니다. 자율주행에 대한 자세한 내용은 다루지 않겠습니다. 이 분야의 효과를 평가하려면 실제로는 안전성, 시간, 편안함 등 더 많은 차원이 있습니다.

ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법

많이 말씀드렸지만 핵심 문제는 문제를 명확하게 정의하고 먼저 디지털화한 다음 지능적으로 만들 수 있다는 것입니다.

ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법

지능을 위해 머신러닝을 활용하면 어떤 문제가 생길까요? 두 가지 주요 문제가 있습니다. 첫째는 복잡하다는 것이고, 둘째는 비용이 많이 든다는 것입니다.

왜 복잡할까요? 머신러닝 소프트웨어 스택은 매우 깊기 때문에 PyTorch 플랫폼, TensorFlow 및 기타 여러 플랫폼을 포함한 플랫폼이 필요합니다. 또한 프레임워크, 운영 체제 및 기본 하드웨어도 포함됩니다. 최근 다들 외출할 때마다 GPU 카드가 몇 개 있는지 서로 묻곤 한다. GPU 카드가 없으면 인사하기도 쑥스럽다. 하지만 실제로 많은 사람들은 이 카드를 사용하는 것의 효율성이 어떤 것인지 모릅니다. 따라서 기계 학습의 소프트웨어 스택은 매우 깊고 복잡하며 모든 링크가 정확하고 잘 수행되어야 합니다.

비용이 많이 드는 문제에 대해 이야기해 보겠습니다. 인력은 비싸고, 아주 좋은 알고리즘 엔지니어는 매우 비싸고 찾기가 쉽지 않습니다. 인재가 비싼 것 외에도 데이터도 비싸고, 고품질 데이터에는 많은 비용이 듭니다. 하드웨어는 말할 것도 없고, 고성능 GPU의 가격은 누구나 다 알고 있습니다.

ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법

그래서 머신러닝은 복잡하고 비용이 많이 드는 작업입니다. 그렇다면 Douyin은 어떻게 이 복잡하고 비용이 많이 드는 문제를 처리하고 기계 학습을 더 잘 활용하여 비즈니스 개발을 도울 수 있을까요?

ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법

저희 플랫폼을 간략하게 소개하자면, 하나는 추천 광고 플랫폼이고, 다른 하나는 CV(컴퓨터 비전), NLP(자연어 처리) 플랫폼 등을 포함한 일반 플랫폼입니다.

추천 플랫폼은 매주 수만 개의 모델이 훈련됩니다. 왜냐하면 우리는 많은 제품을 보유하고 있으며 다양한 시나리오에서 모델을 자주 훈련시키기 때문입니다. CV/NLP 플랫폼에서는 모델 훈련 수가 주당 약 200,000개의 모델로 훈련 규모가 더 커집니다. 게다가 이 두 플랫폼에서는 매일 수많은 온라인 서비스가 실행되고 있습니다.

예를 들어보세요. 예를 들어 Douyin의 추천 시스템에는 많은 모델이 있으며 그 중 하나는 훈련하는 데 15개월의 샘플이 필요합니다. 이는 훈련 데이터가 15개월에 걸쳐 지속적으로 구축되어야 함을 의미합니다. 하지만 우리의 기계 학습 플랫폼에서는 이 모델의 훈련을 완료하는 데 5시간만 필요하며 계산된 비용은 5,000위안입니다. 알고리즘 엔지니어의 경우 오전에는 모델을 훈련시키고 오후에는 온라인으로 AB 실험을 수행하여 제품 반복 효율성을 크게 향상시킵니다.

머신러닝이 잘 되든 안 되든 이 삼각형으로 표현될 수 있을 것 같은데, 그 중 가장 중요한 것은 알고리즘입니다. 알고리즘이 효율성을 주도한다면 비즈니스에 큰 가치를 창출할 수 있습니다. 알고리즘 효과의 요구 사항을 지원하는 두 가지가 있습니다. 하나는 하드웨어 ROI이고 다른 하나는 인간 ROI입니다.

ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법

하드웨어 ROI는 단위 모델당 비용을 나타냅니다. 시장 경쟁에서 남들이 10,000위안을 들여 모델을 만든다면, 당신도 10,000위안을 들여 유사한 모델 10개를 만든다면 전투는 안정적일 것입니다. 인간 ROI는 강력한 알고리즘 엔지니어를 채용하는 것을 의미하며, 그가 자신의 잠재력을 극대화할 수 있는지 여부는 주로 그가 새로운 아이디어를 쉽고 빠르게 시도할 수 있도록 시스템이 지원하는지 여부에 달려 있습니다.

하드웨어 ROI를 개선하는 방법은 무엇입니까? 조수 및 혼합 부분은 우리가 일반적으로 사용하는 방법 중 일부입니다. 본질적으로 클라우드 네이티브의 기본 아이디어이기도 한 디바이스 활용도를 어떻게 향상시키는가이다. 우리는 서로 다른 작업을 혼합하고, 서로의 최고점에 시차를 두고, 지능형 스케줄링을 통해 높은 활용률로 실행합니다. 이를 통해 리소스 활용도가 크게 향상되고 각 실험의 비용이 절감됩니다.

ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법

하드웨어 비용 외에도 또 다른 중요한 점은 머신러닝 인프라가 사용하기 쉬운지 여부입니다. 농담입니다. 수학을 하는 많은 사람들은 당신이 컴퓨터 과학, 특히 딥 러닝을 하는 것을 좋아하지 않습니다. 그들은 당신들이 "영약을 만들기 위해" 여기에 왔다고 말하며 당신이 하는 일이 왜 좋은지, 왜 그래야 하는지 설명하지 못하는 경우가 많습니다. 계속 실험을 해? 그러나 실용적인 관점에서 볼 때 우리는 계속해서 실험하고 시도해야 합니다. 이 분야의 많은 새로운 발견은 지속적인 시도를 통해 이루어집니다.

모든 시도를 더 빠르고 저렴하게 만드는 것이 핵심 경쟁력입니다. 단번에 완벽한 모델을 달성하는 것은 어렵습니다.

ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법

Volcano Engine이 해야 할 일은 플랫폼의 역할을 잘 수행하는 것입니다. 보시다시피 데이터 처리, 모델 훈련, 평가, 온라인 및 AB 테스트의 전체 프로세스가 전체 플랫폼에 걸쳐 통합되고 통합됩니다. 알고리즘 엔지니어는 다양한 링크를 통해 반복적으로 소통하고 다양한 사업을 연결할 필요 없이 본연의 업무에 더욱 집중할 수 있습니다.

또 다른 예를 살펴보겠습니다. 이것은 매우 흥미로운 특수 효과(TikTok AI 그림)입니다. 지난해 말쯤에는 이 특수효과가 특히 인기를 끌었다. Douyin이 이 특수 효과를 만드는 데 얼마나 많은 인력을 투자했는지 추측해 보세요. 많은 사람들은 알고리즘 엔지니어가 한 사람을 투자하고 플랫폼에 연구 코드를 작성했다고 생각하지 않았을 것입니다. 모델 훈련을 완료하는 데 약 일주일이 걸렸고 약간의 조정을 거쳐 온라인에 출시되었습니다.

당시 제품의 최대 트래픽은 200QPS로 예상되었습니다. 예상외로 출시 후 몇 시간 내에 가득 차게 되었습니다. 우리는 빠르게 많은 확장을 했고, 용량이 짧은 시간에 10배로 확장되어 20,000 QPS를 지원하게 되었습니다.

전체 과정을 보실 수 있습니다. 참여 인원도 매우 적고, 확장 효율도 매우 높습니다. 많은 사람들은 모델 훈련이 비용이 많이 든다고 말합니다. 실제로 장기적으로 보면 추론 비용이 훈련보다 훨씬 더 클 것입니다. Volcano Engine 플랫폼에서 AI 페인팅 모델의 추론 효율성은 기본 Pytorch 모델보다 약 5배 빠릅니다. 온라인에 접속한 후 일부 타겟 최적화가 이루어졌으며 훨씬 더 빨라질 수 있습니다. 약 10배 더 빠르며 이는 엄청난 개선입니다.

이러한 플랫폼 지원을 통해 엔지니어는 진행 상황에 대한 후속 조치이든 선구적인 혁신이든 다양한 아이디어를 빠르게 시도할 수 있습니다.

마지막으로 Douyin, Toutiao 및 Dianchedi와 같은 일부 앱에서는 다음 화면이 표시되는 것을 볼 수 있습니다. Volcano Engine은 컴퓨팅 서비스를 제공합니다. 우리가 이야기하는 머신러닝 플랫폼은 Volcano Engine 고객과 Douyin이 동일한 플랫폼을 사용하므로 내부 및 외부가 통합되어 있습니다. 회사 내에서 연마된 이러한 기술이 더 많은 고객에게 서비스를 제공하고 지능적인 혁신을 통해 모든 사람을 지원할 수 있기를 바랍니다. 다들 감사 해요.

위 내용은 ByteDance Yang Zhenyuan: Douyin이 머신러닝을 효과적으로 활용하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?May 01, 2025 am 11:18 AM

Meta는 NVIDIA, IBM 및 DELL과 같은 파트너와 함께 LLAMA 스택의 엔터프라이즈 수준 배포 통합을 확장했습니다. 보안 측면에서 Meta는 Llama Guard 4, Llamafirewall 및 Cyberseceval 4와 같은 새로운 도구를 출시했으며 AI 보안을 향상시키기 위해 LLAMA Defenders 프로그램을 시작했습니다. 또한 Meta는 공공 서비스, 건강 관리 및 교육을 개선하기 위해 노력하는 신생 기업을 포함하여 10 개의 글로벌 기관에 LLAMA Impact Grants의 150 만 달러를 배포했습니다. Llama 4에 의해 구동되는 새로운 Meta AI 응용 프로그램, Meta AI로 생각됩니다.

Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다May 01, 2025 am 11:17 AM

인간 -AI 상호 작용을 개척하는 회사 인 Joi AI는 이러한 진화하는 관계를 설명하기 위해 "AI-Lationships"라는 용어를 도입했습니다. Joi AI의 관계 치료사 인 Jaime Bronstein은 이것이 인간 C를 대체하는 것이 아니라는 것을 분명히합니다.

AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다May 01, 2025 am 11:16 AM

온라인 사기와 봇 공격은 비즈니스에 큰 도전을 제기합니다. 소매 업체는 봇과 싸우고, 은행은 전투 계정 인수 및 소셜 미디어 플랫폼이 사천자와 어려움을 겪고 있습니다. AI의 부상은이 문제를 악화시킨다

로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명May 01, 2025 am 11:15 AM

AI 에이전트는 마케팅에 혁명을 일으킬 준비가되어 있으며 이전 기술 변화의 영향을 능가 할 수 있습니다. 생성 AI의 상당한 발전을 나타내는이 에이전트는 Chatgpt와 같은 정보뿐만 아니라 Actio도 취합니다.

컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법May 01, 2025 am 11:14 AM

중요한 NBA 게임 4 결정에 대한 AI의 영향 두 가지 중추적 인 게임 4 NBA 매치업은 AI의 게임 변화 역할을 선보였습니다. 첫 번째로 덴버의 Nikola Jokic의 놓친 3 점은 Aaron Gordon의 마지막으로 골목길을 이끌었습니다. 소니의 매

AI가 재생 의학의 미래를 가속화하는 방법May 01, 2025 am 11:13 AM

전통적으로 전 세계적으로 재생 의학 전문 지식을 확장하여 광범위한 여행, 실습 교육 및 수년간의 멘토링을 요구했습니다. 이제 AI는이 환경을 변화시키고 지리적 한계를 극복하고 EN을 통한 진행 상황을 가속화하고 있습니다.

Intel Foundry Direct Connect 2025의 주요 테이크 아웃May 01, 2025 am 11:12 AM

인텔은 제조 공정을 선도적 인 위치로 반환하기 위해 노력하고 있으며 팹 반도체 고객을 유치하여 팹에서 칩을 만들려고 노력하고 있습니다. 이를 위해 인텔은 프로세스의 경쟁력을 증명할뿐만 아니라 파트너가 친숙하고 성숙한 워크 플로우, 일관되고 신뢰할 수있는 방식으로 칩을 제조 할 수 있음을 보여주기 위해 업계에 대한 신뢰를 더 많이 구축해야합니다. 오늘 내가 듣는 모든 것은 인텔 이이 목표를 향해 나아가고 있다고 믿게 만듭니다. 새로운 CEO 인 탄 리바이 (Tan Libai)의 기조 연설이 그 날을 시작했다. Tan Libai는 간단하고 간결합니다. 그는 Intel의 Foundry Services에서 몇 가지 과제를 간략하게 설명하고 회사가 이러한 과제를 해결하고 향후 인텔의 파운드리 서비스를위한 성공적인 경로를 계획하기 위해 취한 조치를 취했습니다. Tan Libai는 고객을 더 많이 만들기 위해 인텔의 OEM 서비스가 구현되는 과정에 대해 이야기했습니다.

ai 잘못 되었나요? 이제 보험이 있습니다May 01, 2025 am 11:11 AM

AI 위험과 관련된 점점 더 많은 문제를 해결하기 위해, 글로벌 특수 재보험 회사 인 Chaucer Group 및 Armilla AI는 TPL (Third-Party Liability) 보험 상품을 도입하기 위해 힘을 합쳤습니다. 이 정책은 비즈니스를 보호합니다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

WebStorm Mac 버전

유용한 JavaScript 개발 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.