추천 시스템은 지능형 정보 필터링 기술로 실제 시나리오에서 널리 사용되었습니다. 그러나 추천 시스템의 성공은 사용자의 개인정보 및 민감한 정보가 포함될 수 있는 대량의 사용자 데이터를 기반으로 하는 경우가 많습니다. 사용자 정보가 개인 정보 보호로 제한되거나 얻을 수 없는 경우 기존 추천 시스템은 제대로 작동하지 않는 경우가 많습니다. 따라서 개인 정보 보호와 보안을 보장하면서 신뢰할 수 있는 추천 시스템을 구축하는 방법은 해결해야 할 시급한 문제입니다.
최근 몇 년 동안 사용자가 자신의 개인 정보 보호에 점점 더 많은 관심을 가지면서 로그인하지 않고 온라인 플랫폼을 사용하는 사용자가 점점 더 많아지고 있으며, 이는 익명 세션 기반 추천도 중요한 연구 방향으로 만듭니다. 최근 홍콩과기대, 북경대, 마이크로소프트 아시아 연구소 등의 연구자들이 다단계 사용자 의도를 효율적으로 활용하는 새로운 모델 Atten-Mixer를 제안했습니다. 해당 연구 논문은 WSDM2023에서 Best Paper로 Honorable Mention을 받았습니다.
페이퍼 링크: https://dl.acm.org/doi/abs/10.1145/3539597.3570445
연구 배경
세션 기반 추천(SBR)은 사용자의 짧고 역동적인 세션(즉, 사용자의 행동 순서)을 기반으로 추천하는 방법입니다.
기존 사용자 또는 항목 기반 추천 시스템과 비교하여 SBR은 현재 세션에서 사용자의 즉각적인 요구 사항을 포착하는 데 더 중점을 두고 사용자 관심 분야와 롱테일의 급속한 발전이라는 과제에 보다 효과적으로 적응할 수 있습니다. 효과.
SBR 모델의 진화 과정에서 RNN(Recurrent Neural Network) 기반 모델부터 CNN(Convolutional Neural Network) 기반 모델, 그리고 최근 GNN(Graph Neural Network) 기반 모델까지 항목 간의 복잡한 전송 관계를 더 잘 채굴하기 위해 SBR 연구에서 널리 사용됩니다.
그러나 벤치마크 데이터 세트에서 이러한 모델의 성능 향상은 모델 복잡성이 기하급수적으로 증가하는 것에 비해 매우 제한적입니다. 이러한 현상에 직면하여 본 논문에서는 다음과 같은 질문을 제기합니다. 이러한 GNN 기반 모델은 SBR에 비해 너무 단순합니까, 아니면 너무 복잡합니까?
사전 분석
이 질문에 답하기 위해 저자는 기존 GNN 기반 SBR 모델을 해체하고 SBR 작업에서 해당 모델의 역할을 분석하려고 했습니다.
일반적으로 일반적인 GNN 기반 SBR 모델은 두 부분으로 분해될 수 있습니다.
(1) GNN 모듈. 매개변수는 그래프 컨볼루션을 위한 전파 가중치와 원래 임베딩 및 그래프 컨볼루션 출력을 융합하기 위한 GRU 가중치로 나눌 수 있습니다.
(2) 판독 모듈. 매개변수에는 장기 표현을 생성하기 위한 어텐션 풀링 가중치와 예측을 위한 세션 표현을 생성하기 위한 변환 가중치가 포함됩니다.
다음으로 저자는 이 두 부분에 각각 일반적으로 사용되는 신경망 희소화 기술인 SparseVD(Sparse Variational Dropout)를 사용하고 모델 학습 시 매개변수를 계산합니다. .
매개변수의 밀도 비율은 매개변수의 가중치에서 특정 임계값보다 큰 요소 수의 비율을 의미하며 이 값은 매개변수의 중요도를 측정하는 데 사용할 수 있습니다.
GNN 모듈.
GNN은 매개변수가 많고, 무작위 초기화로 초반에 업데이트할 지식이 많을 겁니다. 따라서 그래프 컨볼루션 전파 가중치의 밀도 비율이 처음 몇 개의 데이터 배치에서 변동한다는 것을 알 수 있습니다. 훈련이 안정화됨에 따라 밀도 비율은 0이 되는 경향이 있습니다.
읽기 모듈.
훈련이 진행됨에 따라 attention pooling 가중치의 밀도 비율이 높은 수준으로 유지되는 것을 확인할 수 있습니다. 다른 데이터 세트 및 기타 GNN 기반 SBR 모델에서도 동일한 추세를 관찰할 수 있습니다.
따라서 저자는 훈련 과정에서 GNN 모듈의 많은 매개 변수가 중복된다는 것을 발견했습니다. 이를 바탕으로 저자는 SBR에 대해 다음과 같이 더 간단하고 효과적인 모델 설계 지침을 제안합니다.
(1) 복잡한 GNN 설계를 지나치게 추구하지 않고 저자는 GNN 전파 부분을 삭제하고 Keep만 사용하는 경향이 있습니다. 초기 임베딩 레이어 ;
(2) 모델 디자이너는 읽기 모듈에 더 많은 주의를 기울여야 합니다 .
Attention Pooling Weight 매개변수는 높은 밀도 비율을 유지하므로, Attention-Based Readout 방식을 기반으로 한 보다 발전된 아키텍처 설계가 더 유리할 것이라고 저자는 추측합니다.
이 기사에서는 GNN의 전파 부분에 대한 의존성을 포기하므로 읽기 모듈은 모델 추론에 대해 더 많은 책임을 져야 합니다.
기존 인스턴스 뷰 기반 Readout 모듈의 추론 능력이 제한적이라는 점을 고려하여, 이번 글에서는 더 강력한 추론 능력을 갖춘 Readout 모듈을 설계해야 합니다.
더 강력한 추론 기능을 갖춘 읽기 모듈을 설계하는 방법
정신병리학 연구에 따르면 인간의 추론은 본질적으로 다단계 정보 처리 프로세스입니다.
예를 들어, 앨리스가 상호 작용하는 기본 제품을 종합적으로 고려함으로써 인간은 앨리스가 결혼식을 계획할지, 새 집을 꾸밀지 여부와 같은 더 높은 수준의 개념을 얻을 수 있습니다. 앨리스가 결혼식을 계획할 가능성이 있다고 판단한 후, 인간은 벽화와 같은 부케와 관련된 장식 아이템보다는 웨딩 풍선과 같은 부케와 관련된 웨딩 아이템을 고려합니다.
추천 시스템에서 이러한 다단계 추론 전략을 채택하면 사용자의 전반적인 행동 추세를 고려하여 많은 양의 검색 공간을 정리하고 로컬 최적 솔루션을 피하며 보다 만족스러운 솔루션으로 수렴하는 데 도움이 될 수 있습니다.
따라서 이 기사에서는 이 다층 추론 메커니즘 을 읽기 모듈 설계에 도입하려고 합니다.
그러나 이러한 상위 개념을 단순히 열거하는 것은 현실적이지 않고 관련 없는 개념을 도입하고 모델의 성능을 방해할 가능성이 높기 때문에 이러한 상위 개념을 얻는 것은 쉬운 작업이 아닙니다.
이 과제를 해결하기 위해 이 문서는 두 가지 SBR 관련 귀납적 편향, 즉 로컬 불변성과 고유 우선순위를 채택하여 검색 공간을 줄입니다.
여기서 꼬리 항목은 고유 우선순위에 해당하고, 그룹은 지역 불변성에 해당하며, 서로 다른 숫자는 이 기사에서 고려하는 다층적인 상위 수준 개념을 나타냅니다.
따라서 이 글에서는 Atten-Mixer라는 모델을 제안합니다. 이 모델은 다양한 인코더와 통합될 수 있습니다. 입력 세션의 경우 모델은 임베딩 레이어에서 각 항목의 임베딩을 얻습니다. 그런 다음 모델은 결과 그룹 표현에 선형 변환을 적용하여 다단계 사용자 의도 쿼리를 생성합니다.
여기서 Q1은 인스턴스 뷰 어텐션 쿼리이고 나머지는 다양한 수용 필드와 로컬 불변 정보가 있는 상위 수준 어텐션 쿼리입니다. 다음으로, 모델은 생성된 주의 쿼리를 사용하여 세션 내 각 항목의 숨겨진 상태에 참석하고 최종 세션 표현을 얻습니다.
오프라인 실험에서 이 기사는 세 가지 다른 분야의 데이터 세트를 사용합니다. Digitalica는 전자 상거래용 데이터 세트, Gowalla는 소셜 네트워크용 데이터 세트, Last.fm 음악 추천을 위한 데이터 세트입니다.
오프라인 실험 결과
(1) 전체 비교
저자는 Atten-Mixer를 CNN 기반, RNN 기반, GNN 기반 및 판독 기반의 4가지 기본 방법과 비교했습니다. .
실험 결과에 따르면 Atten-Mixer는 세 가지 데이터 세트의 정확성과 효율성 측면에서 기본 방법을 능가하는 것으로 나타났습니다.
(2) 성능 개선 분석
또한 저자는 Atten-Mixer 모듈을 SR-GNN 및 SGNN-HN에 내장하여 이 방법이 원본 모델에 미치는 성능 개선 효과를 검증했습니다. .
오프라인 실험 결과에 따르면 Atten-Mixer는 특히 평가 지수의 K 값이 작은 경우 모든 데이터 세트에서 모델 성능을 크게 향상시키는 것으로 나타났습니다. 이는 Atten-Mixer가 원본 모델을 더욱 정확하고 사용자화하는 데 도움이 될 수 있음을 나타냅니다. 친절한 추천.
온라인 실험 결과
저자는 2021년 4월 대규모 전자상거래 온라인 서비스에도 Atten-Mixer를 배포했습니다. 온라인 실험에 따르면 다단계 Atten-Mixer는 다양한 온라인 비즈니스 지표에서 상당한 성과를 거두었습니다. .
실험 결론
요약하자면 Atten-Mixer는 다단계 추론 능력을 갖추고 있으며 정확성과 효율성 측면에서 뛰어난 온라인 및 오프라인 성능을 보여줍니다. 주요 기여 사항은 다음과 같습니다.
마지막으로, 이 기사의 저자 중 한 명인 UIUC의 Haohan Wang이 소개한 것처럼, 이 기사는 WSDM2023 최고의 논문 명예 후보로 지명된 뒤에 험난한 개발 경험이 있다는 점을 언급할 가치가 있습니다. 그 경우, 이 글은 투고 과정에서 너무 단순하다는 이유로 실제로 여러 번 거절당했습니다. 다행스럽게도 글을 쓴 사람은 단지 글을 방해하기 위해 리뷰어들의 취향에 맞추지 않고 자신의 주장을 고집했습니다. 자신만의 단순함을 추구했고 궁극적으로 이 기사가 인정받게 되었습니다.
위 내용은 다단계 사용자 의도를 효과적으로 활용하기 위해 홍콩과기대, 북경대 등에서는 새로운 세션 추천 모델 Atten-Mixer를 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!