이 공유의 주제는 인과 추론을 기반으로 한 추천 시스템입니다. 과거 관련 작업을 검토하고 이에 대한 향후 전망을 제안합니다.
추천 시스템에 인과 추론 기술을 사용해야 하는 이유는 무엇인가요? 기존 연구 작업에서는 세 가지 유형의 문제를 해결하기 위해 인과 추론을 사용합니다(TOIS 2023 논문 Causal Inference in Recommender Systems: A Survey and Future Directions by Gao et al. 참조).
먼저 추천 시스템에서는, 다양한 편견(BIAS)이 존재하므로 인과 추론은 이러한 편견을 제거하는 효과적인 도구입니다.
데이터 부족 문제와 인과 효과를 정확하게 예측할 수 없는 문제를 해결하기 위해 추천 시스템은 어려움에 직면할 수 있습니다. 이러한 문제를 해결하기 위해 데이터 강화나 인과 추론 기반의 인과 효과 추정 방법을 활용하면 데이터 부족 및 인과 효과 추정의 어려움 문제를 효과적으로 해결할 수 있다.
마지막으로, 인과 지식이나 인과 사전 지식을 활용하여 추천 시스템 설계를 안내함으로써 추천 모델을 더 잘 구축할 수 있습니다. 이 방법을 사용하면 추천 모델이 기존 블랙박스 모델을 능가할 수 있어 정확도가 향상될 뿐만 아니라 해석성과 공정성이 크게 향상됩니다.
이 세 가지 아이디어를 시작으로 이번 공유에서는 다음과 같은 세 가지 작업 부분을 소개합니다.
먼저, 인과 추론 방법을 통해 사용자 관심과 적합성 차별에 대한 대응 표현을 학습합니다. 이는 앞서 언급한 분류 프레임워크의 세 번째 부분에 속하며, 이는 원인과 결과에 대한 사전 지식이 있을 때 모델을 더 쉽게 해석할 수 있도록 만드는 것입니다.
연구 배경으로 돌아갑니다. 사용자와 제품 간의 상호 작용 뒤에는 뿌리깊고 다양한 이유가 있다는 것을 알 수 있습니다. 한편으로는 사용자 자신의 이익이고, 다른 한편으로는 사용자는 다른 사용자의 관행(순응)을 따르는 경향이 있을 수 있습니다. 특정 시스템에서는 이는 판매량이나 인기로 나타날 수 있습니다. 예를 들어, 기존 추천 시스템에서는 판매량이 높은 제품을 앞쪽에 표시하게 되는데, 이로 인해 사용자의 관심 범위를 넘어서는 인기가 상호 작용에 영향을 미치고 편견을 불러일으키게 됩니다. 따라서 보다 정확한 추천을 위해서는 두 부분의 표현을 학습하는 것과 해결하는 것을 구분할 필요가 있습니다.
왜 우리는 풀린 표현을 배워야 할까요? 여기서는 좀 더 자세한 설명을 해보겠습니다. 분리된 표현은 오프라인 훈련 데이터와 온라인 실험 데이터의 불일치 분포(OOD) 문제를 극복하는 데 도움이 될 수 있습니다. 실제 추천 시스템에서 오프라인 추천 시스템 모델이 특정 데이터 분포 하에서 학습된다면, 온라인 배포 시 데이터 분포가 변경될 수 있다는 점을 고려해야 합니다. 사용자의 최종 행동은 적합성과 관심의 공동 행동에 의해 생성됩니다. 이 두 부분의 상대적 중요성은 온라인 환경과 오프라인 환경에서 다르기 때문에 데이터 분포가 변경될 수 있으며, 분포가 변경되면 보장할 수 없습니다. 학습에 대한 관심은 여전히 효율적입니다. 이는 교차 배포 문제입니다. 아래 그림은 이 문제를 시각적으로 보여줍니다. 이 그림에서는 훈련 데이터 세트와 테스트 데이터 세트 사이에 분포 차이가 있습니다. 모양은 동일하지만 크기와 색상이 변경되었습니다. 모양 예측의 경우 기존 모델은 훈련 데이터 세트의 크기와 색상을 기반으로 모양을 추론할 수 있습니다. 예를 들어 직사각형은 파란색이고 가장 크지만 추론은 테스트 데이터 세트에 적용되지 않습니다.
이 어려움을 더 잘 극복하려면 각 부분의 표현이 해당 요소에 의해 결정되도록 효과적으로 보장해야 합니다. 이것이 분리된 표현을 학습하는 한 가지 동기입니다. 잠재 요인을 분리할 수 있는 모델은 위 그림과 유사한 교차 분포 상황에서 더 나은 결과를 얻을 수 있습니다. 예를 들어 분리는 윤곽선, 색상, 크기와 같은 요인을 학습하고 윤곽선을 사용하여 모양을 예측하는 것을 선호합니다.
전통적인 접근 방식은 IPS 방식을 사용하여 제품의 인기도 균형을 맞추는 것입니다. 이 방법은 추천 시스템 모델의 학습 과정에서 지나치게 인기 있는 항목(이러한 항목은 적합성 측면에서 더 큰 가중치를 가짐)에 불이익을 줍니다. 그러나 이 접근 방식은 관심과 적합성을 효과적으로 분리하지 않고 함께 묶습니다.
인과 추론을 통해 인과 표현(인과 임베딩)을 학습하는 초기 작업이 있습니다. 이러한 유형의 작업의 단점은 편향되지 않은 일부 데이터 세트에 의존해야 하고 편향되지 않은 데이터 세트를 통해 편향된 데이터 세트의 학습 과정을 제한해야 한다는 것입니다. 많이 필요하지는 않지만, 얽힌 표현을 학습하려면 편향되지 않은 소량의 데이터가 여전히 필요합니다. 따라서 실제 시스템에서의 적용 가능성은 상대적으로 제한적입니다.
관심과 순응을 풀고 싶다면 세 가지 과제를 해결해야 합니다.
1. 인과 임베딩
사용자 측과 항목 측의 각 측면에는 두 가지 표현 부분이 있습니다. 일치하는 점수를 계산하려면 전통적인 내적을 사용하세요. 최종 예측 작업에서는 두 부분의 내부 적분 점수가 고려됩니다.
위와 같은 충돌 구조가 주어지면 조건 c가 고정되면 a와 b는 실제로 독립이 아닙니다. 이 효과를 설명하는 예를 들어보십시오. 예를 들어 a는 학생의 재능을 나타내고 b는 학생의 근면함을 나타내며 c는 학생이 시험에 합격할 수 있는지 여부를 나타냅니다. 이 학생이 시험에 합격하고 특별히 뛰어난 재능이 없다면 그는 매우 열심히 일했을 것입니다. 또 다른 학생은 시험에 떨어졌지만 매우 재능이 있어서 이 친구는 충분히 열심히 공부하지 못할 수도 있습니다.
이 아이디어를 바탕으로 관심 매칭과 적합 매칭을 나누어서 제품의 인기를 적합성의 대용으로 활용하는 방법을 고안했습니다.
첫 번째 경우: 지금의 예와 마찬가지로 사용자가 더 인기 있는 항목 a를 클릭하고 덜 인기 있는 다른 항목 b를 클릭하지 않으면 아래와 같은 관심 관계가 형성됩니다. 사용자 a의 적합성은 b의 적합성보다 크고(a가 b보다 인기가 높기 때문에) 사용자에 대한 a의 전반적인 매력(관심사 + 적합성)은 b의 적합성보다 큽니다(사용자가 a를 클릭했지만 클릭하지 않았기 때문입니다). 비).
두 번째 사례: 사용자가 인기 없는 항목 c를 클릭했지만 인기 있는 항목 d를 클릭하지 않아 다음 관계가 발생합니다. 사용자에 대한 c의 적합성은 d보다 작습니다(d가 c보다 인기가 높기 때문입니다). 그러나 사용자에 대한 c의 전반적인 매력(관심도 + 적합성)은 d보다 큽니다(사용자가 c를 클릭했지만 d를 클릭하지 않았기 때문에). 따라서 c에 대한 사용자의 관심은 d보다 큽니다(위에서 언급한 충돌 관계 때문에). .
일반적으로 위의 방법을 통해 두 개의 세트가 구성됩니다. 하나는 포지티브 샘플보다 덜 인기 있는 네거티브 샘플(포지티브 샘플과 네거티브 샘플에 대한 사용자의 관심도 간의 대조 관계는 알 수 없음)이고, 다른 것은 양성 샘플보다 덜 인기 있는 샘플입니다. 음성 샘플은 샘플이 더 인기가 있습니다(사용자는 음성 샘플보다 양성 샘플에 더 관심이 있습니다). 이 두 부분에서 대조 학습의 관계를 구성하여 두 부분의 표현 벡터를 목표 방식으로 훈련할 수 있습니다.
물론 실제 훈련 과정에서도 주요 목표는 여전히 관찰된 상호 작용 동작을 맞추는 것입니다. 대부분의 추천 시스템과 마찬가지로 BPR 손실은 클릭 행동을 예측하는 데 사용됩니다. (u: 사용자, i: 양성 샘플 제품, j: 음성 샘플 제품).
또한 위의 아이디어를 바탕으로 대조 학습 방법의 두 부분도 설계하고 대조 학습의 손실 함수를 도입했으며 표현 벡터의 두 부분에 대한 제약 조건을 추가로 도입하여 두 부분을 최적화했습니다. 부분의 표현 벡터
또한, 이 두 부분의 표현 벡터는 최대한 서로 멀어지도록 제한되어야 합니다. 너무 가까우면 구별력을 잃을 수 있기 때문이다. 따라서 두 부분 표현 벡터 사이의 거리를 제한하기 위해 추가적인 손실 함수가 도입되었습니다.
결국 다중 작업 학습은 여러 목표를 하나로 통합합니다. 이 과정에서 학습 난이도가 쉬운 수준에서 어려운 수준으로 점진적으로 전환되도록 전략이 설계되었습니다. 훈련 초기에는 식별력이 덜한 샘플을 사용하여 모델 매개변수가 올바른 일반 방향으로 최적화되도록 안내한 다음 점차적으로 학습하기 어려운 샘플을 찾아 모델 매개변수를 추가로 미세 조정합니다. (Positive 샘플과 인기도 차이가 큰 Negative 샘플은 Simple 샘플로 간주되고, 차이가 작은 Negative 샘플은 어려운 샘플로 간주됩니다.)
는 주요 순위 지표에 대한 방법의 성능을 조사하기 위해 일반 데이터 세트에서 테스트되었습니다. DICE는 특정 추천 모델에 의존하지 않는 일반적인 프레임워크이므로 다양한 모델을 백본으로 간주할 수 있으며 DICE는 플러그 앤 플레이 프레임워크로 사용할 수 있습니다.
우선 주인공 다이스입니다. DICE의 개선은 서로 다른 백본에서 상대적으로 안정적이라고 볼 수 있어 성능 개선을 가져올 수 있는 일반적인 프레임워크라고 볼 수 있다.
DICE에서 학습한 표현은 관심도와 적합도에 대한 표현을 별도로 학습한 후 적합성 부분의 벡터에 제품의 인기도가 포함됩니다. 시각화를 통해 실제로 인기도와 관련이 있음을 알 수 있습니다(다양한 인기도를 표현하면 녹색, 주황색, 노란색 점 등 분명한 계층화가 나타납니다).
또한 인기도가 다른 항목의 관심 벡터 표현이 공간에 고르게 분포되어 있습니다(시아닌 크로스). 적합성 벡터 표현과 관심 벡터 표현 역시 서로 다른 공간을 차지하며 분리되어 분리됩니다. 이 시각화는 DICE가 학습한 표현이 실제로 의미가 있는지 검증합니다.
DICE는 디자인이 의도한 효과를 달성했습니다. 다양한 개입 강도를 갖는 데이터에 대해 추가 테스트를 수행한 결과, 다양한 실험 그룹에서 DICE의 성능이 IPS 방법보다 우수한 것으로 나타났습니다.
요약하자면, DICE는 인과 추론 도구를 사용하여 각각 관심도와 적합성에 대한 해당 표현 벡터를 학습하여 IID가 아닌 상황에서 우수한 견고성과 해석 가능성을 제공합니다.
두 번째 작품은 주로 장기관심과 단기관심의 풀림 문제를 해결합니다. 시퀀스 추천, 특히 사용자 관심은 복잡합니다. 일부 관심은 상대적으로 안정적이어서 장기 관심이라고 하며, 다른 관심은 갑작스러울 수 있어 단기 관심이라고 합니다. 아래 예에서 사용자는 장기적으로 전자 제품에 관심이 있지만 단기적으로는 옷을 사고 싶어합니다. 이러한 관심사를 잘 식별할 수 있다면 각 행동의 이유를 더 잘 설명할 수 있고 전체 추천 시스템의 성능이 향상될 수 있습니다.
이러한 문제는 장기 관심과 단기 관심의 모델링이라고 할 수 있습니다. 즉, 장기 관심과 단기 관심을 각각 적응적으로 모델링할 수 있으며, 더 나아가 어느 부분이 사용자의 현재 행동은 주로 주도됩니다. 현재 행동을 유도하는 관심사를 식별할 수 있다면 현재 관심사를 기반으로 더 나은 추천을 제공할 수 있습니다. 예를 들어, 사용자가 짧은 시간에 동일한 카테고리를 탐색한다면 단기적인 관심일 수도 있고, 짧은 시간에 광범위하게 탐색한다면 이전에 관찰한 내용을 더 많이 참조해야 할 수도 있습니다. 기간적 이익은 현재 이익에만 국한되지 않습니다. 일반적으로 장기적인 이해관계와 단기적인 이해관계는 성격이 다르며, 장기적인 필요와 단기적 필요를 잘 풀어야 합니다.
일반적으로 협업 필터링은 관심의 동적 변화를 무시하는 반면 기존 시퀀스 추천은 단기 관심 모델링에 더 중점을 두기 때문에 실제로 장기적인 관심을 포착하는 방법이라고 간주할 수 있습니다. 이는 장기적인 이익을 망각하게 만들고, 장기적인 이익을 고려하더라도 모델링할 때 여전히 단기적인 이익에 주로 의존합니다. 따라서 기존 방법은 학습에 대한 이 두 가지 관심을 결합하는 데 여전히 부족합니다.
일부 최근 연구에서는 장기 관심과 단기 관심의 모델링을 고려하여 단기 모듈과 장기 모듈을 별도로 설계한 후 직접 결합하는 방식을 고려하기 시작했습니다. 그러나 이러한 방법에는 최종적으로 학습된 사용자 벡터가 하나만 있으며, 여기에는 단기 신호와 장기 신호가 모두 포함되어 있으며 둘은 여전히 얽혀 있으며 추가 개선이 필요합니다.
그러나 장기 이익과 단기 이익을 분리하는 것은 여전히 어려운 일입니다.
이 문제에 대응하여 장기 관심과 단기 관심을 동시에 모델링하는 비교 학습 방법이 제안되었습니다. (CLSR(장단기 관심의 대조 학습 프레임워크)
첫 번째 도전 - 장기 관심과 단기 관심의 분리 - 기간적 이익, 우리는 장기 이익과 단기 이익을 분리하여 상응하는 진화 메커니즘을 각각 확립하는 데 관심이 있습니다. 구조적 인과모형에서는 장기이자는 시간과 무관하게 설정되고, 단기이자는 직전 순간의 단기이자와 일반 장기이자가 결정된다. 즉, 모델링 과정에서 장기 관심은 상대적으로 안정적인 반면, 단기 관심은 실시간으로 변합니다.
두 번째 과제는 관심 있는 두 부분에 대한 명시적 감독 신호가 부족하다는 것입니다. 이 문제를 해결하기 위해 감독을 위한 대조 학습 방법을 도입하고 명시적 레이블을 대체하기 위해 프록시 레이블을 구성합니다.
에이전트 라벨은 두 부분으로 나누어져 있는데, 하나는 장기적인 관심을 가진 에이전트를 위한 것이고 다른 하나는 단기적인 관심을 가진 에이전트를 위한 것입니다.
풀링의 전체 기록을 장기 관심 대리 레이블로 사용하여 인코더에서 학습한 표현이 장기 관심 학습에서 이 방향으로 더 최적화되도록 합니다.
사용자의 최근 여러 행동에 대한 평균 풀링은 마찬가지로 단기 프록시로 사용되지만 사용자의 관심을 직접적으로 나타내지는 않습니다. 사용자의 단기적인 관심을 학습 과정에서 이 방향으로 최적화할 수 있습니다.
와 같은 에이전트 표현은 엄격하게 관심사를 나타내지는 않지만 최적화 방향을 나타냅니다. 장기 관심 표현과 단기 관심 표현의 경우 해당 표현에 최대한 가깝고 다른 방향의 표현에서는 멀리 떨어져 대조 학습을 위한 제약 함수를 구성합니다. 마찬가지로, 프록시 표현은 실제 인코더 출력에 최대한 가까워야 하기 때문에 대칭적인 두 부분으로 구성된 손실 기능입니다. 이 설계는 방금 언급한 감시 신호의 부족을 효과적으로 보완합니다.
세 번째 과제는 주어진 행동에 대한 두 가지 관심 요소의 중요성을 판단하는 것입니다. 해결책은 두 가지 관심 요소를 적응적으로 융합하는 것입니다. 이 부분의 디자인은 이전에 이미 두 부분의 표현 벡터가 있고 이를 혼합하는 것이 어렵지 않기 때문에 비교적 간단하고 간단합니다. 구체적으로, 두 부분의 관심의 균형을 맞추기 위해 가중치 α를 계산해야 합니다. α가 상대적으로 크면 현재 관심이 주로 장기 관심에 의해 지배됩니다. 마지막으로 상호작용 행동의 추정치를 얻습니다.
예측의 경우 위에서 언급한 일반 추천 시스템의 손실이 한편으로는 대조 학습의 손실 함수가 가중 형태로 추가됩니다.
전체 블록 다이어그램은 다음과 같습니다.
두 개의 별도 인코더(BCD), 해당 에이전트 표현 및 대조 학습의 목표(A), 자동 두 부분의 관심 사항을 적응적으로 혼합합니다.
이 작업에서는 Taobao의 전자상거래 데이터 세트와 Kuaishou의 짧은 비디오 데이터 세트를 포함한 시퀀스 추천 데이터 세트가 사용되었습니다. 방법은 장기, 단기, 장기와 단기 혼합의 세 가지 유형으로 나뉩니다.
전체적인 실험 결과를 관찰해 보면, 장기적인 관심만 고려한 모델보다 단기적인 관심만 고려한 모델이 더 나은 성능을 발휘한다는 것을 알 수 있습니다. 시퀀스 추천 모델은 일반적으로 순수 모델보다 우수합니다. 이는 단기 관심 모델링이 현재 행동에 가장 큰 영향을 미치는 가장 최근 관심 중 일부를 더 잘 식별할 수 있기 때문에 합리적입니다.
두 번째 결론은 장기 관심과 단기 관심을 모두 모델링하는 SLi-Rec 모델이 전통적인 시퀀스 추천 모델보다 반드시 더 나은 것은 아니라는 것입니다. 이는 기존 작업의 단점을 강조합니다. 그 이유는 여기서 볼 수 있듯이 단순히 두 모델을 혼합하면 편향이나 노이즈가 발생할 수 있기 때문입니다. 실제로 가장 좋은 기준은 순차적인 단기 관심 모델입니다.
우리가 제안한 장기 및 단기 관심 디커플링 방법은 장기 및 단기 관심 간의 분리 모델링 문제를 해결하고 2개의 데이터 세트와 4개의 지표에 대해 안정적인 최상의 결과를 얻을 수 있습니다.
이 분리 효과를 더 자세히 연구하기 위해 장기 및 단기 관심 사항에 해당하는 두 부분 표현에 대한 실험을 수행했습니다. CLSR 학습의 장기 관심, 단기 관심과 Sli-Rec 학습의 두 가지 관심을 비교합니다. 실험 결과 우리 작업(CLSR)은 각 부분에서 지속적으로 더 나은 결과를 얻을 수 있음을 보여주고 있으며, 장기 관심 모델링과 단기 관심 모델링을 모두 사용하므로 융합의 필요성도 입증했습니다. 가장 좋은 결과는 관심 통합입니다. .
또한 구매 행동과 좋아요 행동을 비교 연구에 사용하세요. 이러한 행동의 비용은 클릭보다 높기 때문입니다. 구매에는 비용이 들고 좋아요에는 특정 운영 비용이 필요하므로 이러한 관심사는 실제로 더 강한 선호도를 반영합니다. 안정적인 장기적 이익을 위해. 첫째, 성능 비교 측면에서 CLSR이 더 나은 결과를 얻습니다. 또한 모델링의 두 가지 측면에 가중치를 부여하는 것이 더 합리적입니다. CLSR은 SLi-Rec 모델보다 장기적인 이익에 더 편향된 행동에 더 큰 가중치를 할당할 수 있으며 이는 이전 동기와 일치합니다.
추가 절제 실험과 하이퍼파라미터 실험이 수행되었습니다. 첫째, 대조학습의 손실함수를 제거하고 성능이 감소하는 것으로 나타나 장기 관심과 단기 관심을 풀기 위해서는 대조 학습이 매우 필요함을 알 수 있다. 이 실험은 CLSR이 기존 방법(자기 지도 대조 학습이 DIEN의 성능을 향상시킬 수 있음) 위에서도 작동하고 플러그 앤 플레이 방법이기 때문에 더 나은 일반 프레임워크임을 입증합니다. β에 대한 연구에서는 합리적인 값이 0.1인 것으로 나타났습니다.
다음으로 적응 융합과 단순 융합의 관계에 대해 더 자세히 연구하겠습니다. 적응형 가중치 융합은 모든 다른 α 값에서 고정 가중치 융합보다 더 안정적이고 더 나은 성능을 발휘하여 각 상호 작용 행동이 서로 다른 크기의 가중치에 의해 결정될 수 있음을 확인하고 적응형 융합을 통해 관심 융합이 이루어짐을 확인하고 최종 행동 예측의 필요성 .
본 연구에서는 시퀀스 관심 분야에 대한 장기 관심과 단기 관심을 모델링하고 해당 표현 벡터를 각각 학습하여 분리를 달성하는 대조 학습 방법을 제안합니다. 실험 결과는 이 방법의 효율성을 보여줍니다. ㅋㅋㅋ 세 번째 작업은 관심 학습의 행동 교정에 중점을 둡니다.
짧은 영상 추천은 추천 시스템에서 매우 중요한 부분이 되었습니다. 그러나 기존의 짧은 영상 추천 시스템은 여전히 기존의 장편 영상 추천 패러다임을 따르고 있어 몇 가지 문제점이 있을 수 있습니다.
예를 들어 짧은 동영상 추천에서 사용자 만족도와 활동을 평가하는 방법은 무엇인가요? 최적화 목표는 무엇입니까? 일반적인 최적화 목표는 시청 시간 또는 시청 진행률입니다. 완료율과 시청 시간이 더 높을 것으로 예상되는 짧은 동영상은 추천 시스템에서 더 높은 순위를 매길 수 있습니다. 훈련 중 시청 시간을 기준으로 최적화될 수 있으며, 서비스 중 예상 시청 시간을 기준으로 정렬되며, 시청 시간이 높은 영상을 추천합니다.
보시다시피 짧은 영상에는 두 가지 형태가 있습니다. 하나는 브이로그와 같은 긴 동영상이고, 다른 하나는 짧은 엔터테인먼트 동영상입니다. 실제 트래픽을 분석한 결과, 긴 동영상을 게시한 사용자가 기본적으로 추천 트래픽을 더 많이 얻을 수 있다는 사실을 발견했는데, 이 비율은 매우 다릅니다. 시청 시간만으로 평가하는 것은 사용자의 관심을 만족시키지 못할 뿐만 아니라 불공평할 수도 있습니다.
이 작업에서 우리는 두 가지 문제를 해결하기를 희망합니다.
편향 없이 사용자 만족도를 더 잘 평가하는 방법.
좋은 추천을 제공하기 위해 이러한 편견 없는 사용자 관심을 학습하는 방법.
사실 핵심 과제는 길이가 다른 짧은 동영상을 직접 비교할 수 없다는 것입니다. 이 문제는 다양한 추천 시스템에서 자연스럽고 어디에나 존재하며 다양한 추천 시스템의 구조가 크게 다르기 때문에 설계된 방법은 모델에 구애받지 않아야 합니다.
곡선을 보면 지속 시간 편차가 강화된 것을 알 수 있습니다. Ground Truth 곡선에 비해 긴 동영상 시청 시간에 대한 예측 결과에서 추천 모델이 훨씬 더 높습니다. 예측 모델에서는 긴 동영상을 과도하게 추천하는 것이 문제가 됩니다.
또한 추천 결과(#BC)에서도 부정확한 추천이 많은 것으로 확인되었습니다.
시청 시간이 2초도 되지 않아 사용자들이 싫어하는 영상 등 안 좋은 사례도 볼 수 있습니다. 하지만 편견의 영향으로 인해 이러한 영상은 잘못 추천되고 있습니다. 즉, 모델은 추천 동영상 길이의 차이만 학습했고, 기본적으로 동영상 길이만 구분할 수 있었습니다. 원하는 예측 결과는 사용자의 시청 시간을 늘리기 위해 더 긴 동영상을 추천하는 것이기 때문입니다. 그래서 모델은 사용자가 좋아하는 동영상 대신 긴 동영상을 선택합니다. 이러한 모델에는 무작위 추천과 동일한 수의 불량 사례가 있으므로 이러한 편향은 매우 부정확한 추천으로 이어진다는 것을 알 수 있습니다.
게다가 여기에는 불공정의 문제도 있습니다. 컨트롤 상위 k 값이 작으면 키가 작은 동영상 게시자는 추천하기 어렵습니다. k 값이 충분히 크더라도 그러한 추천 비율은 20% 미만입니다.
이 문제를 해결하기 위해 먼저 시청 시간을 고려하여 공정한 달성을 시도하는 WTG(Watch Time Gain)라는 새로운 지표를 제안했습니다. 예를 들어 사용자가 60초 길이의 동영상을 50초 동안 시청한 경우, 또 다른 동영상의 길이도 60초였지만 5초 동안만 시청한 경우가 있습니다. 60초짜리 동영상을 통제한다면 두 동영상의 관심도 차이는 분명합니다. 이는 간단하지만 효과적인 아이디어입니다. 시청 시간은 다른 비디오 데이터의 지속 시간이 비슷한 경우에만 의미가 있습니다.
먼저 모든 동영상을 동일한 간격으로 서로 다른 기간 그룹으로 나눈 다음 각 기간 그룹에서 사용자의 관심 강도를 비교합니다. 고정 기간 그룹에서는 사용자의 관심 사항을 기간으로 나타낼 수 있습니다. WTG 도입 이후 실제로 WTG는 원래 지속 시간에 신경 쓰지 않고 사용자의 관심 강도를 표현하는 데 직접 사용됩니다. WTG 등급에서는 분포가 더 균일합니다.
WTG를 기반으로 정렬 위치의 중요성이 더욱 고려되었습니다. WTG는 하나의 지표(단일 포인트)만 고려하므로 이 누적 효과도 추가로 고려됩니다. 즉, 정렬된 목록의 각 요소에 대한 인덱스를 계산할 때 각 데이터 요소의 상대적 위치도 고려해야 합니다. 이 아이디어는 NDCG와 유사합니다. 따라서 이를 바탕으로 DCWTG가 정의되었습니다.
앞서 기간에 관계없이 사용자의 관심을 반영할 수 있는 지표, 즉 WTG와 NDWTG를 정의했습니다. 다음으로, 편향을 제거할 수 있고 특정 모델에 독립적이며 다양한 백본에 적용할 수 있는 추천 방법을 설계합니다. DVR(Debiased Video Recommendation) 방식을 제안하는 핵심 아이디어는 추천 모델에서 지속 시간과 관련된 특징을 제거할 수 있다면, 입력 특징이 복잡하고 지속 시간 관련 정보를 포함할 수 있는 한, 모델의 출력이 이러한 기간 특성을 무시하는 경우 편향되지 않은 것으로 간주될 수 있습니다. 즉, 모델이 기간 관련 특성을 필터링하여 편견 없는 권장 사항을 얻을 수 있음을 의미합니다. 여기에는 추천 모델의 출력을 기반으로 기간을 예측하는 다른 모델이 필요한 대립적인 아이디어가 포함됩니다. 기간을 정확하게 예측할 수 없으면 이전 모델의 출력에 기간 특성이 포함되지 않은 것으로 간주됩니다. 따라서, 예측된 WTG를 기반으로 원래 기간을 예측하는 추천 모델에 회귀 레이어를 추가하기 위해 적대적 학습 방법이 사용됩니다. 백본 모델이 실제로 편향되지 않은 결과를 얻을 수 있다면 회귀 레이어는 원래 기간을 다시 예측하고 복원할 수 없습니다.
이상은 적대적 학습을 구현하는 데 사용되는 방법의 세부 사항입니다.
실험은 WeChat과 Kuaishou의 두 가지 데이터 세트에서 수행되었습니다. 첫 번째는 WTG와 시청 시간입니다. 두 가지 최적화 목표가 별도로 사용되어 실제 시청 시간과 비교되는 것을 볼 수 있습니다. WTG를 타겟으로 사용한 후, 짧은 영상과 긴 영상 모두에서 모델의 추천 효과가 더 좋아졌고, WTG 곡선은 시청 지속 시간 곡선 위에 안정적으로 위치했습니다.
또한 WTG를 타겟으로 사용하면 긴 동영상과 짧은 동영상의 추천 트래픽이 더욱 균형 있게 발생합니다(기존 모델에서는 분명히 긴 동영상의 추천 점유율이 더 높습니다).
제안된 DVR 방법은 다양한 백본 모델에 적합합니다. 7개의 일반적인 백본 모델을 테스트한 결과 편향 제거 방법을 사용하지 않은 경우 성능이 좋지 않은 반면 DVR은 모든 백본 모델과 모든 모델에서 좋은 성능을 보였습니다. 지표가 어느 정도 개선되었습니다.
추가 절제 실험을 수행했습니다. 이전 기사에서 언급했듯이 이 방법은 디자인의 세 부분으로 구성되어 있으며 이 세 부분은 각각 제거되었습니다. 첫 번째는 입력 특성인 지속 시간을 제거하는 것이고, 두 번째는 예측 대상인 WTG를 제거하는 것이며, 세 번째는 적대적 학습 방법을 제거하는 것입니다. 각 부분을 제거하면 성능 저하가 발생함을 알 수 있습니다. 따라서 세 가지 디자인 모두 중요합니다.
작업을 요약하자면: 편차를 줄이는 관점에서 짧은 동영상 추천을 연구하고 지속 시간 편차에 주의하세요. 먼저, WTG라는 새로운 지표가 제안되었습니다. 실제 행동(사용자 관심분야 및 기간)의 편견을 제거하는 데 효과적입니다. 둘째, 모델이 더 이상 비디오 길이에 영향을 받지 않고 편견 없는 추천을 생성할 수 있도록 일반적인 방법을 제안합니다.
마지막으로 이 공유를 요약합니다. 먼저, 사용자 관심과 적합성에 대한 얽힘 학습을 이해합니다. 다음으로, 순차적 행동 모델링 측면에서 장기 및 단기 관심의 분리를 연구합니다. 마지막으로 단편 영상 추천 시 시청 시간 최적화 문제를 해결하기 위한 편향성 제거 학습 방법을 제안한다.
위 내용은 이번에 공유한 내용입니다. 모두 감사드립니다.
[1] Gao et al. 추천 시스템의 인과 추론: 설문 조사 및 향후 방향, TOIS 2024
[2] Zheng et al. , WWW 2021.
[3] Zheng 외 DVR: 기간 바이어스 하에서 시청 시간 이득 최적화, MM 2022
[4] Zheng 외 추천에 대한 관심, WWW 2022 .
위 내용은 인과 추론 기반 추천 시스템: 검토 및 전망의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!