>기술 주변기기 >일체 포함 >Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

WBOY
WBOY앞으로
2023-10-12 08:17:151006검색

Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

1. Kuaishou의 콜드 스타트는 어떤 문제를 해결하나요?

단기적으로 플랫폼은 먼저 더 많은 새로운 비디오를 활성화하여 트래픽을 확보해야 하며, 이는 비디오가 배포될 수 있음을 의미합니다. 동시에 전송되는 트래픽은 더 효율적이어야 합니다. 장기적으로 우리는 전체 인기 풀에 더 신선한 혈액을 제공하고 생태학적 매튜 효과를 완화하기 위해 더 많은 잠재력을 지닌 새로운 비디오를 탐색하고 채굴할 것입니다. 더 많은 고품질 콘텐츠를 제공하고 사용자 경험을 개선하며 지속 시간과 DAU도 늘립니다. Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

콜드 스타트를 사용하여 UGC 작성자를 홍보하고 대화형 피드백 인센티브를 얻어 전체 제작자의 유지를 유지하세요. 이 과정에는 두 가지 제약이 있습니다. 첫째, 전체적인 탐사비용과 교통비용은 큰 그림에서 상대적으로 안정적일 것이다. 둘째, 우리는 낮은 vv 단계에서만 새로운 영상의 유통에만 개입합니다. 그렇다면 이러한 제약 조건 하에서 전반적인 이점을 어떻게 최대화할 수 있을까요?

동영상의 콜드 스타트 ​​배포는 이들의 성장 공간에 중요한 영향을 미치며, 특히 자신의 관심사와 일치하지 않는 사람들에게 작업이 배포되는 경우 두 가지 영향을 미치게 됩니다. 우선, 저자의 성장에 영향을 미칠 것이며, 장기적으로 효과적인 인터랙티브 트래픽 인센티브를 받을 수 없게 되며, 이는 그의 투고 방향과 의지의 변화로 이어질 것입니다. 둘째, 초기 트래픽의 효과적인 전환율이 부족하여 시스템에서는 콘텐츠의 품질이 낮다고 간주하므로 장기적으로 충분한 트래픽 지원을 얻지 못해 성장을 이룰 수 없습니다Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

이런 식으로 계속된다면 생태계는 비교불가 상태에 빠지게 됩니다. 예를 들어 로컬푸드에 관한 작품이라면 가장 적합한 독자층인 A가 있어야 하고, 전체적인 액션률이 가장 높다. 또한 전혀 관련이 없는 집단 C가 있을 수 있습니다. 이 집단에 투표할 경우 어느 정도 선택성이 있어 행동률이 극히 낮을 수 있습니다. 물론 세 번째 그룹인 B도 있는데, 이는 매우 광범위한 관심사를 가진 그룹이지만 이 그룹의 사람들은 흐름이 크지만 이 그룹의 전반적인 행동률은 낮을 것입니다.

핵심 그룹 A에 최대한 빨리 도달하여 콘텐츠의 초기 상호작용률을 높일 수 있다면 자연 트래픽의 활용도 높은 분포를 가져올 수 있습니다. 하지만 초기 단계에서 C군이나 B군에 너무 많은 트래픽을 주면 전체적인 행동률이 낮아지고 성장이 제한될 수 있습니다. 전체적으로 콜드 스타트 ​​배포의 효율성을 높이는 것이 콘텐츠 성장을 달성하는 가장 중요한 방법입니다. 콘텐츠 콜드 스타트 ​​효율성의 반복을 완료하기 위해 몇 가지 중간 프로세스 지표와 최종 장기 지표를 설정합니다.

재작성된 내용은 다음과 같습니다. 프로세스 지표는 주로 두 부분으로 나뉩니다. 한 부분은 주로 트래픽 행동률을 포함한 새 동영상의 소비 성과이고, 다른 부분은 다음을 포함합니다. 탐사방향, 활용방향, 생태학적 방향 등이다. 탐색 방향은 고품질의 신규 동영상이 무시되지 않도록 하는 것이며, 주로 노출이 0보다 크고, 노출이 100보다 큰 동영상 수의 증가를 관찰합니다. Xiangxiang을 사용하여 인기 있는 고품질 신규 동영상인 VV가 높은 동영상 수의 증가를 관찰하세요. 생태학적 방향은 주로 인기 풀의 사용자 침투율을 관찰합니다. 장기적으로는 생태학적 영향으로 인한 장기적인 변화이기 때문에 결국 콤보 실험을 통해 APP 기간, 작성자 DAU, 전체 DAU 등 일부 핵심 지표의 장기적 변화 추세를 관찰할 예정입니다Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

2. 콜드 스타트 ​​모델링의 과제와 솔루션

일반적으로 콘텐츠 콜드 스타트에는 세 가지 주요 어려움이 있습니다. 첫째, 콘텐츠 콜드 스타트의 샘플 공간과 실제 솔루션 공간 사이에는 큰 차이가 있습니다. 둘째, 콘텐츠 콜드 스타트의 샘플이 매우 희박하여 학습 결과가 부정확하고 편차가 매우 크며, 특히 노출 편향 측면에서 불리합니다. 셋째, 영상의 성장가치를 모델링하는 것도 어려운 일이며, 현재 해결하기 위해 노력하고 있는 문제이기도 합니다. 이 글은 처음 두 가지 측면의 어려움에 초점을 맞출 것입니다Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

1. 샘플 공간이 실제 솔루션 공간보다 훨씬 작다는 문제

Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

콘텐츠 콜드 스타트 ​​문제를 최적화할 때 샘플 공간이 솔루션 공간보다 작다는 것은 매우 두드러진 문제입니다. 특히 추천 콘텐츠의 콜드 스타트 ​​측면에서는 더 많은 동영상이 표시될 수 있도록 색인된 콘텐츠의 도달률을 높이는 것이 필요합니다

이 문제를 해결하려면 가장 중요한 것은 도달률을 높이는 것입니다. 회상 단계의 동영상 도달률 및 효율성을 보여줍니다. 콜드 스타트 ​​비디오의 리콜 도달률을 해결하기 위해. 업계의 일반적인 접근 방식은 속성 반전, 의미 유사성을 기반으로 한 일부 회상 방법, 트윈 타워와 일반화 기능을 기반으로 한 회상 모델, 행동 공간과 컨텐츠 공간 간의 매핑 도입 등을 포함한 콘텐츠 기반을 기반으로 합니다. CB2CF의 접근 방식을 기반으로 합니다.

Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

이번에는 두 가지 더 흥미로운 새로운 방법, 즉 그래프 엔트로피 자기 향상을 기반으로 한 이종 그래프 네트워크와 I2U 기반 은하 모델에 중점을 둘 것입니다. 기술 선택 측면에서 우리는 먼저 GNN을 콘텐츠 콜드 스타트 ​​U2I의 기본 모델로 사용합니다. GNN은 전체적으로 귀납적 학습 방법이라고 생각하기 때문에 새로운 노드에 매우 친숙하고 더 많은 유연성을 제공합니다. 또한 GNN은 콜드 스타트 ​​콘텐츠 액세스를 향상시키는 중요한 수단인 더 많은 속성 노드를 도입합니다. 구체적인 실천 측면에서는 사용자 노드, 작성자 노드, 아이템 노드도 도입하고 정보 집계를 완료할 예정입니다. 이 일반화된 속성 노드를 도입한 후, 새로운 콘텐츠의 전반적인 도달률이 크게 향상되었습니다. 그러나 태그 카테고리와 같이 너무 일반적인 중간 노드로 인해 비디오의 인식 영역이 불충분하게 개인화되어 과도하게 스무딩될 위험이 있습니다. 사례 검토를 통해 우리는 배드민턴 동영상 시청을 좋아하는 일부 사용자의 경우 기존 GNN 특성화 체계가 배드민턴 동영상과 다른 탁구, 축구 및 기타 동영상 간의 구별이 잘 안 될 수 있다는 사실을 발견했습니다.

Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

GNN 모델링 과정에서 너무 많은 일반화 정보를 도입함으로써 발생하는 과잉 일반화 문제를 해결하기 위해 우리의 주요 아이디어는 보다 상세한 이웃 특성화 체계를 도입하는 것입니다. 구체적으로, 의미론적 자동성을 도입할 것입니다. GNN을 강화합니다. 오른쪽 하단의 그림에서 볼 수 있듯이, 인기가 없는 비디오를 사용하여 인기 공간에서 유사한 인기 비디오를 찾은 다음 인기가 있는 유사 비디오를 콜드 스타트 ​​연결의 초기 노드로 사용합니다. 특정 집계 프로세스에서는 그래프 엔트로피 감소 원리를 기반으로 자체 강화 모서리를 구성하고 선택합니다. 구체적인 선택 계획은 위의 연결된 이웃 노드에 대한 설명과 현재 노드 정보를 주로 고려한 공식에서 확인할 수 있습니다. 두 노드 사이의 유사성이 높을수록 정보 엔트로피는 더 작아집니다. 아래의 노드 분모는 이웃 노드의 전반적인 인식 필드를 나타냅니다. 선택 과정에서 우리는 실제로 더 강한 인식을 가진 이웃 노드를 찾는 것을 선호한다는 것도 이해할 수 있습니다. 하나는 기능입니다. 유사한 동영상의 도메인과 항목 ID의 특징 도메인은 임베딩 공간을 공유해야 하며, self-enhancement 노드는 인기 있는 동영상만 유지하여 부족한 학습 노드로 인해 발생하는 노이즈를 제거합니다. 이번 업그레이드를 통해 전반적인 일반화가 완전히 보장되어 모델의 개인화 정도가 효과적으로 향상되고 오프라인 및 온라인 효과가 향상됩니다.

위의 방법들은 실제로 U2I 관점에서 콘텐츠 도달 범위 모델링을 개선한 것이지만 영상 도달 불가 문제를 근본적으로 해결할 수는 없습니다

생각을 바꾸면 아이템 관점에서 올바른 것을 찾기 위해 즉, 이론적으로 모든 비디오에는 트래픽을 얻을 수 있는 여지가 있습니다. Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

구체적인 접근 방식은 I2U 검색 서비스를 교육하고 이 검색 서비스를 사용하여 각 동영상에 대한 관심 그룹을 동적으로 검색해야 한다는 것입니다. 이러한 I2U 구성방식을 통해 U2I의 역인덱스를 역구성하고 최종적으로 사용자의 실시간 요청에 따라 아이템 목록을 콜드스타트 추천목록으로 반환하게 된다

Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

다시 작성한 내용은 다음과 같다. I2U를 훈련시키는 것입니다. 검색 서비스의 첫 번째 버전은 2타워 모델이었습니다. 실제로 사용자의 과도한 집중 문제를 피하기 위해 먼저 uid를 버리고 액션 목록과 self-attention을 사용하여 사용자 집중 문제를 효과적으로 완화할 것입니다. 동시에, 학습 과정에서 item-id로 인한 학습 노출 편향을 피하기 위해 item-id를 포기하고 시맨틱 벡터, 카테고리, 태그, AuthorID 등 보다 일반화된 기능을 도입하여 item-id를 효과적으로 완화할 것입니다. ID 집계. 사용자 관점에서 이러한 종류의 Debias 손실이 도입된 다음 사용자 집중 문제를 더 잘 피하기 위해 배치 내 네거티브 샘플링이 도입되었습니다

Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

첫 번째 버전의 연습은 트윈 타워 I2U 모델입니다. .실습 중에도 몇 가지 문제가 발견되었습니다. 우선, 2타워 모델은 사용자와 아이템 간의 상호작용에 한계가 있어 전체적인 검색 정확도가 제한됩니다. 또한, 사용자에게 탑재된 콘텐츠는 매우 집중된 관심을 갖는 경우가 많지만, 실제로는 사용자의 관심이 다양하게 분산되어 있는 경우가 있다. 우리는 또한 너무 집중된 사용자의 문제를 발견했습니다. 대부분의 콜드 스타트 ​​비디오는 일부 상위 사용자에게 탑재되어 있습니다. 이는 결국 상위 사용자가 매일 소비할 수 있는 콘텐츠도 제한되어 있기 때문입니다. 위의 세 가지 문제에 대한 새로운 해결책은 TDM 모델링과 TDM 계층적 검색 방법입니다. TDM의 한 가지 이점은 더 복잡한 사용자 항목 상호 작용 모드를 도입하고 트윈 타워의 상호 작용 한계를 극복할 수 있다는 것입니다. 두 번째는 단봉 관심에 대한 의존도를 줄이는 DIN과 유사한 패턴을 사용하는 것입니다. 마지막으로, TDM에 계층적 검색을 도입하면 사용자 집중 문제를 매우 효과적으로 완화할 수 있습니다.

또한 하위 노드의 집계 표현을 상위 노드에 추가하는 보다 효과적인 최적화 포인트가 있습니다. 이는 상위 노드의 특징 일반화 및 판별 정확도를 향상시킬 수 있습니다. 즉, Attention 메커니즘을 통해 하위 노드를 상위 노드로 집계하고 계층별 전송을 통해 중간 노드도 특정 의미 일반화 기능을 가질 수 있습니다Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

최종 시스템 실습에서는 I2U 모델 외에도 U2U 관심 확장 모듈도 출시했습니다. 즉, 일부 사용자가 콜드 스타트 ​​영상에서 좋은 성적을 거두면 신속하게 영상을 전파하겠습니다Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

구체적인 내용은 업계의 일부 현재 방법과 유사하지만 여기 U2U 관심 확장 모듈에는 세 가지 주요 장점이 있습니다. 우선 TDM 트리 구조가 비교적 탄탄한데, 이런 U2U 모듈을 추가하면 사용자의 실시간 선호도에 더 가까워질 수 있다. 둘째, 실시간 관심 확산을 통해 기존 모델의 한계를 뛰어넘고, 사용자 협업을 통해 콘텐츠를 빠르게 홍보할 수 있어 다양성이 높아진다. 궁극적으로 이는 갤럭시 리콜의 전반적인 적용 범위도 향상시킬 수 있습니다. 이는 실습 프로세스의 최적화 포인트 중 일부입니다

이러한 솔루션을 통해 콘텐츠 콜드 스타트 ​​시 샘플 공간과 실제 솔루션 공간을 효과적으로 해결할 수 있습니다. 불일치 문제로 인해 콜드 스타트의 도달 범위 및 커버리지 효과가 크게 향상됨 Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

2. 콜드 스타트 ​​샘플 희소 학습의 부정확성과 큰 편차

다음으로, 콜드 스타트 ​​샘플 희소성 내용은 학습 부정확성과 편차로 이어짐 빅 질문, 이것이 가장 큰 과제입니다. 이 문제의 본질은 상호 작용 행동의 희소성입니다. 우리는 문제를 세 가지 방향으로 확장합니다.

일단, 콜드 스타트 ​​샘플의 노출이 적기 때문에 아이템 ID에 대한 학습이 부족하여 추천 효과와 추천 효율성에 영향을 미칩니다. 둘째, 초기 배포의 부정확성으로 인해 수집된 라벨에 대한 불확실성이 높고 신뢰도가 낮습니다. 셋째, 현재 훈련 패러다임은 인기 정보를 수정 없이 항목 임베딩에 도입하므로 콜드 스타트 ​​비디오가 과소평가되어 완전히 배포될 수 없게 됩니다.

우리는 주로 4가지 방향에서 이 문제를 해결합니다. 첫째는 일반화, 둘째는 전이, 셋째는 탐색, 넷째는 수정이다. 일반화는 일반화된 기능의 관점에서 모델링을 완료하고 업그레이드하는 것에 관한 것입니다. 마이그레이션의 주요 목적은 비인기 영상과 인기 영상을 두 가지 도메인으로 간주하고, 인기 영상 도메인 또는 전체 정보 도메인의 정보를 효과적으로 전달하여 비인기 영상의 학습을 지원하는 것입니다. 탐구는 탐구와 활용의 개념을 주로 소개하는데, 즉 초기 라벨이 부정확할 때 모델링 과정에서 탐구의 아이디어를 도입하여 감기 동안 라벨에 대한 불신으로 인한 부정적인 영향을 완화하고자 합니다. 시작 단계. 현재 인기보정이 뜨거운 추세입니다. 주로 게이팅과 상시손실을 통한 인기정보 활용을 제한하고 있습니다.

다음은 저희 작업에 대한 자세한 소개입니다.

Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

우선, 일반화는 콜드 스타트 ​​문제를 해결할 때 매우 일반적인 방법입니다. 그러나 실제로는 레이블 및 카테고리와 비교하여 일부 의미론적 임베딩을 도입하는 것도 매우 유용하다는 것을 알았습니다. 그러나 전체 모델에 의미론적 특징을 직접 추가하는 것의 이점은 제한적입니다. 영상 의미 공간과 행동 공간에는 차이가 있으므로, 일반화를 돕기 위해 영상 의미 공간의 공통 정보를 통해 행동 공간에서 새로운 영상의 위치를 ​​대략적으로 표현할 수 있는가? 우리는 이전에 일반화 정보를 실제 행동 공간에 매핑하는 방법을 학습하는 CB2CF와 같은 몇 가지 방법을 언급했습니다. 그러나 이 접근 방식을 따르는 대신 비디오의 의미 벡터를 기반으로 대상 항목과 유사한 항목 목록을 찾습니다. 첫째, 사용자의 장단기 관심 행동과 행동 공간을 공유하고 유사한 항목 목록을 집계하여 행동 공간에서 후보 동영상의 표현을 시뮬레이션합니다. 실제로 이 방법은 앞에서 언급한 그래프 리콜에서 후보와 유사한 에지를 도입하는 방법과 유사하며, 그 효과는 매우 명백하여 오프라인 AUC를 0.35PP

Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

Second 향상시킵니다. 첫 번째는 탐색입니다. 즉, 새 동영상의 부정확한 초기 배포는 낮은 사후 CTR 평균으로 이어질 것이며, 이 낮은 평균은 또한 모델이 동영상 자체의 품질이 좋지 않을 수 있다고 믿게 만들고, 궁극적으로 콜드 스타트 ​​콘텐츠의 탐색 가능성이 낮아지게 됩니다. 제한된. 따라서 PCTR의 불확실성을 모델링하고 콜드 스타트 ​​단계에서 라벨의 절대 활용도와 신뢰도를 늦출 수 있습니다. 우리는 온라인 기대치와 분산을 모두 사용하여 요청의 CTR 추정치를 베타 분포 추정치로 변환하려고 합니다. 구체적으로, 실제로는 베타 분포의 α와 β를 추정합니다. 구체적으로 손실 설계는 추정값과 실제 레이블의 평균 제곱 오차의 기대값입니다. 기대값을 확장한 후에는 추정값의 제곱에 대한 기대값과 추정값의 기대값을 구해야 함을 알 수 있습니다. 추정된 α와 β를 통해 이 두 값을 효과적으로 계산할 수 있으며 손실이 발생합니다. 그러면 베타 분포를 훈련할 수 있으며, 마지막으로 베타 분포의 추정 값에 큐를 추가하여 탐색과 활용의 균형을 맞출 수 있습니다. . 실제로 낮은 vv 단계에서 베타 손실을 사용하면 AUC가 어느 정도 향상되지만 특별히 눈에 띄지는 않습니다. 그러나 온라인 베타 배포를 사용하면 0vv 콘텐츠의 유효 침투율이 22% 증가하는 반면 전체 실행률은 동일하게 유지됩니다.

Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

다음 소개는 듀얼 도메인 전이 학습 프레임워크입니다. 전체적인 아이디어는 콜드 스타트 ​​콘텐츠가 종종 매우 편향된 롱테일 배포이며 인기 편향에 취약한 그룹이라는 것입니다. 콜드 스타트 ​​샘플만 사용한다면 인기편향은 어느 정도 완화될 수 있지만, 사용자의 관심이 많이 상실되어 전체적인 정확도가 떨어지게 됩니다.

현재 시도의 대부분은 핫 샘플의 일부 과소 샘플링이나 역주파수 가중치 또는 일반화 기능을 통해 콜드 스타트 ​​샘플을 학습하는 데 중점을 두지만 초기 콜드 스타트 ​​동작 샘플을 무시하는 경우가 많습니다. 동작 공간에는 고유한 공통점이 있습니다. 인기 영상과 함께

그래서 설계 과정에서 전체 샘플과 콜드 스타트 ​​샘플을 두 개의 도메인, 즉 위 그림의 전체 볼륨 도메인과 콜드 스타트 ​​도메인으로 나누겠습니다. 콜드 스타트 ​​도메인은 콜드 스타트에만 적용됩니다. 조건부 샘플만 적용되며 양측 핫 및 콜드 지식 도메인의 마이그레이션 모듈이 추가됩니다. 구체적으로 사용자와 항목을 별도로 모델링하고 글로벌 샘플 타워에서 콜드 스타트 ​​샘플 타워까지 네트워크 매핑을 수행함으로써 모델 수준에서 암시적 데이터 향상을 캡처하고 콜드 스타트 ​​비디오의 표현을 향상시킵니다. 항목 측면에서는 모든 콜드 스타트 ​​샘플을 유지합니다. 또한 노출을 기반으로 일부 핫 비디오를 샘플링하여 핫 및 콜드 도메인 분포의 유사성을 보장하고 궁극적으로 전체 매핑의 원활한 지식 전달을 보장합니다.

또한 고유한 이중 인기 게이팅 메커니즘을 추가하고 일부 인기 기능을 도입했으며 이를 사용하여 핫 및 콜드 비디오 도메인의 융합 비율을 지원했습니다. 한편으로는 다양한 라이프사이클에 따른 새로운 영상의 콜드 스타트 ​​표현 활용 비율을 효과적으로 학습하고 배포할 수 있습니다. 반면에 사용자 측에서는 콜드 스타트 ​​비디오에 대한 다양한 활성 사용자의 민감도도 학습합니다. 실제로 오프라인 효과는 낮은 vv 단계와 4000vv의 AUC 모두에서 어느 정도 개선되었습니다.

Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

마지막으로 교정에 관한 작품, 바로 열교정을 소개하겠습니다. 추천 시스템은 종종 인기 편향에 직면하며 일반적으로 폭발력이 높은 제품의 카니발입니다. 기존 모델 패러다임 피팅의 목표는 글로벌 CTR입니다. 인기 항목을 추천하면 전체 손실이 낮아질 수 있지만 일부 인기 정보가 항목 임베딩에 주입되어 인기가 높은 동영상이 과대평가될 수 있습니다.

일부 기존 방법은 너무 편향되지 않은 추정을 추구하지만 실제로는 약간의 소비 손실을 초래합니다. 그렇다면 일부 아이템 임베딩을 인기정보와 실제 관심정보에서 분리하여, 인기정보와 관심정보를 온라인 융합에 효과적으로 활용할 수 있는 것이 더 합리적인 방법이 될 수 있을까요? 구체적인 실습에서는 동료의 몇 가지 사례를 참조합니다

Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

주로 두 모듈에 중점을 둡니다. 하나는 항목 ID 입력과 같은 입력 콘텐츠의 인기도와 관심도에 대해 직교 제약을 만드는 것입니다. , 작성자 ID 등. 기능은 두 가지 표현을 생성합니다. 이 두 가지 표현 중 하나는 인기 표현이고 다른 하나는 솔루션 프로세스 중에 일반 제약 조건이 만들어집니다. 두 번째는 비디오의 순수 열 표현으로 일부 항목의 순수 열 정보 임베딩을 생성하여 비디오의 실제 열 표현을 기반으로 유사성 제약을 적용하는 것입니다. 방금 언급한 열 표현을 얻으세요. 그리고 관심 표현 중 하나는 인기 정보를 표현하고 다른 하나는 관심 정보를 표현합니다. 마지막으로, 이 두 가지 표현을 기반으로 편향된 추정과 편향되지 않은 추정의 대기열이 곱셈 공식 융합을 위해 온라인으로 추가됩니다.

3. 향후 전망

Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용

마지막으로 향후 업무에 대한 전망을 말씀드리겠습니다.

우선, 현재 유사 군중의 확산을 포함하여 특히 실시간으로 군중 확산 모델을 보다 정확하게 모델링하고 적용해야 합니다. 우리는 이미 콜드 스타트 ​​단계에서 U2U의 확산 적용과 같은 유사한 크라우드 확산 방식을 구현했으며 두 번째는 콜드 스타트의 편차를 수정하는 보정 방식입니다. 중국에서도 많은 연구가 진행되고 있으며, 특히 노출 보정, 열 보정에 대한 연구와 탐구를 계속할 예정입니다. 세 번째는 감기에 대한 권장 사항입니다. 고열 샘플의 시작은 여전히 ​​입니다. 값이 더 큰 경우 핫 샘플 공간에서 더 가치 있는 샘플을 선택하고 서로 다른 가중치를 부여하여 콜드 스타트 ​​모델의 권장 효율성을 향상시킬 수 있습니까?

세 번째는 영상의 장기적 성장 가치에 대한 특성화입니다. 각 영상은 콜드 스타트-성장-안정-쇠퇴의 과정을 거쳐야 합니다. , 즉 성장, 비디오를 모델링할 때 공간, 특히 가치 활용 측면에서 미래 성장을 위해 다양한 단일 분포의 가치 차이를 모델링하는 방법에 대한 매우 흥미로운 작업이기도 합니다.

마지막은 데이터 향상을 통한 솔루션입니다. 샘플이든 비교 학습 솔루션이든 콜드 스타트 ​​추천의 효율성을 높이기 위해 이 분야의 몇 가지 작업을 소개하고자 합니다.

4. 질문 및 답변 세션

Q1: 온라인 요청은 모두 사용자별로 세분화됩니다. I2U 사용자는 어떻게 온라인 벡터 엔진에 들어가나요?

A1: I2U 모델은 오프라인 프로세스 동안 인덱스 라이브러리에서 가장 유사한 사용자를 지속적으로 검색한 다음, 발견된 가장 유사한 사용자와 항목을 기반으로 이를 사용자-항목 쌍으로 변환하고 최종적으로 사용자를 얻습니다. -item pair 목록의 집계 결과는 온라인 사용을 위해 Redis에 저장됩니다

Q2: 콜드 스타트의 다른 측면은 헤더 콘텐츠가 과열되고 샘플 비율이 너무 높아지는 것을 방지하는 방법입니다. 집중 푸시 방법이 있나요?

A2: 공유에서 여러 가지 방법이 언급되었지만 근본적으로는 여전히 일반화, 탐구 및 수정의 관점에서 해결합니다. 예를 들어, 더 나은 초기 지점을 갖도록 항목 ID를 초기화하는 방법과 동시에 일부 일반화된 기능을 도입하여 일반화된 기능을 행동 의미 공간에 매핑하는 방법입니다. 그런 다음 베타 분포를 사용하여 탐색성을 향상시키고 순수 콘텐츠 타워를 도입하여 pid와 같은 강력한 메모리를 가진 기능을 제거함으로써 열 편향이 없는 순수 일반화 추정 및 수정 작업을 도입하여 학습 개선을 기대합니다. 그 과정에서 인기도 요인이 학습되고 별도로 제한하여 순수한 관심기준과 인기기준을 제공하고, 인기기준의 사용강도를 온라인상에서 합리적으로 배분합니다. 물론 이러한 방법들 외에도 데이터 향상을 통해 Cold-Start 콘텐츠의 희소성을 완화하려고 노력하고 있으며, 인기 있는 콘텐츠를 활용하여 전이 학습 관점에서 Cold-Start 콘텐츠의 학습을 돕기도 합니다.

Q3: 인기 풀의 최적 비율은 어떻게 계산되나요?

A3: 최적화 비율은 실제로 수동 참여도가 매우 높은 작업입니다. 모델을 완전히 사용하여 동영상의 최적화 비율을 평가하는 것은 불가능합니다. 노출수가 50,000회인 동영상과 같은 콘텐츠를 평가하기 위해 모델을 사용할 수 있다면 전체 우수 비율이 수동으로 참여하게 되며 어떤 것이 우수한지 검토하기 위해 반드시 리뷰어에게 푸시될 것입니다.

위 내용은 Kuaishou 콘텐츠 콜드 스타트 ​​추천 모델의 실제 적용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제