Home >Technology peripherals >AI >Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

王林
王林Original
2024-09-02 15:07:09717browse
Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本實驗室工作由認知智慧陳恩紅團隊與華為諾亞方舟實驗室完成。陳恩紅教授團隊深耕資料探勘、機器學習領域,在頂尖期刊與會議發表多篇論文,Google學術論文引用超兩萬次。諾亞方舟實驗室是華為公司從事人工智慧基礎研究的實驗室,秉持理論研究與應用創新並重的理念,致力於推動人工智慧領域的技術創新與發展。
8 月25 日- 29 日在西班牙巴塞隆納舉行的第30 屆ACM 知識發現與資料探勘大會(KDD2024) 上,中國科學技術大學認知智能全國重點實驗室陳恩紅教授、 IEEE Fellow,和華為諾亞聯合發表的論文“Dataset Regeneration for Sequential Recommendation”,獲2024 年大會Research Track 唯一最佳學生論文獎。論文第一作者為中科大認知智能全國重點實驗室陳恩紅教授,連德富教授,與王皓特任副研究員共同指導的博士生尹銘佳同學,華為諾亞劉勇、郭威研究員也參與了論文的相關工作。這是自 KDD 於 2004 年設立該獎項以來,陳恩紅教授團隊的學生第二次榮獲該獎項。

  • Paper link: https://arxiv.org/abs/2405.17795
  • Code link: https://github.com/USTC -StarTeam/DR4SR

Research motivation

Sequence recommendation System (Sequential Recommender, SR) is an important part of modern recommendation systems because it aims to capture users' changing preferences. In recent years, researchers have made a lot of efforts to enhance the capabilities of sequence recommendation systems. These methods usually follow a model-centric paradigm, which is to develop effective models based on fixed data sets. However, this approach often overlooks potential quality issues and flaws in the data. In order to solve these problems, academic circles have proposed a data-centric paradigm, which focuses on using fixed models to generate high-quality data sets. We frame this as the “dataset reconstruction” problem.

In order to obtain the best training data, the key idea of ​​the research team is to learn a new data set that explicitly contains item transfer patterns. Specifically, they divided the modeling process of the recommender system into two stages: extracting transfer patterns 〈🎜〉 from the original data set, and learning user preferences 〈🎜〉 based on 〈🎜〉. This process is challenging since learning a mapping from Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR involves two implicit mappings: Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR . To this end, the research team explored the possibility of developing a dataset that explicitly represents the item transfer patterns in Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR, which allows us to explicitly separate the learning process into two stages, where Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR is relatively easier to learn . Therefore, their main focus is to learn an efficient mapping function for Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR, which is a one-to-many mapping. The research team defines this learning process as the dataset regeneration paradigm, as shown in Figure 1, where “regeneration” means that they do not introduce any additional information and only rely on the original dataset. Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRInterpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRInterpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR
                                                                                 그림 1 중앙 패러다임인 DR4SR(Dataset Regeneration for Sequence Recommendation)은 원본 데이터세트를 유익하고 일반화 가능한 데이터세트로 재구성하는 것을 목표로 합니다. 구체적으로 연구팀은 먼저 데이터 세트를 재생성할 수 있도록 사전 훈련 작업을 구축했습니다. 다음으로 그들은 재생 과정에서 서열과 패턴 사이의 일대다 관계를 모델링하기 위해 다양성이 강화된 재생기를 제안했습니다. 마지막으로 그들은 새로운 데이터세트를 생성하기 위해 탐색과 활용 사이의 균형을 맞추는 하이브리드 추론 전략을 제안합니다.

데이터 세트 재구성 프로세스는 일반적이지만 특정 대상 모델에 완전히 적합하지 않을 수 있습니다. 연구팀은 이 문제를 해결하기 위해 대상 모델의 특성에 따라 데이터 세트를 맞춤화하는 모델 인식 재생 프로세스인 DR4SR+를 제안했습니다. DR4SR+는 점수를 개인화하고 2계층 최적화 문제와 암시적 차별화 기술을 통해 재구성된 데이터 세트의 패턴을 최적화하여 데이터 세트 효과를 향상시킵니다.

연구 방법

본 연구에서 연구팀은 A 데이터를 제안했다. "시퀀스 추천을 위한 데이터 재생성"(DR4SR)이라는 중심 프레임워크는 그림 2와 같이 원본 데이터 세트를 유익하고 일반화 가능한 데이터 세트로 재구성하는 것을 목표로 합니다. 데이터 재생성 프로세스는 대상 모델과 독립적이므로 재생성된 데이터 세트가 반드시 대상 모델의 요구 사항을 충족하지 못할 수도 있습니다. 따라서 연구팀은 DR4SR을 모델 인식 버전, 즉 DR4SR+로 확장하여 재생성된 데이터 세트를 특정 대상 모델에 맞게 조정했습니다.

모델에 구애받지 않는 데이터 세트 재구성

> 그림 2 재생기 데이터 세트의 자동 재생성을 용이하게 합니다. 그러나 원본 데이터 세트에는 데이터 세트 재생기 학습을 위한 감독 정보가 부족합니다. 그러므로 자기주도 학습 방식으로 이를 달성해야 합니다. 이를 위해 다양성이 강화된 재생기의 학습을 안내하기 위한 사전 훈련 작업을 도입합니다. 사전 훈련을 마친 후 연구팀은 하이브리드 추론 전략을 사용하여 새로운 데이터 세트를 재생성했습니다.

Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

데이터 재구성 사전 학습 작업 구축:‍
                                                                                              ~                                그림 3 그런 다음 재생성기 을 해당 패턴
으로 재생성할 수 있어야 합니다. 연구팀은 전체 사전 훈련 데이터 세트를

Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRInterpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR 다양성을 촉진하는 재생기: Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRInterpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

으로 표시합니다. 사전 훈련 작업을 통해 연구팀은 이제 데이터 세트 재생기를 사전 훈련할 수 있습니다. 본 논문에서는 재생기의 주요 아키텍처로 Transformer 모델을 채택하고 그 생성 능력이 널리 검증되었습니다. 데이터 세트 재생기는 원본 데이터 세트에서 시퀀스 표현을 얻는 인코더, 패턴을 재생성하는 디코더, 일대다 매핑 관계를 캡처하는 다양성 향상 모듈의 세 가지 모듈로 구성됩니다. 다음으로 연구팀은 이들 모듈을 별도로 소개할 예정이다.

인코더는 다중 스택형 MHSA(Multi-Head Self-Attention) 및 FFN(Feed-Forward Network) 레이어로 구성됩니다. 디코더의 경우 데이터 세트 X'의 패턴을 입력으로 재현합니다. 디코더의 목표는 인코더에서 생성된 시퀀스 표현을 바탕으로

패턴을 재구성하는 것입니다. 그러나 시퀀스에서 여러 패턴을 추출할 수 있습니다. . 훈련 중에 어려움을 겪을 수 있는 모드입니다. 이러한 일대다 매핑 문제를 해결하기 위해 연구팀은 다양성 향상 모듈을 추가로 제안했습니다.

Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

구체적으로 연구팀은 타겟 패턴의 정보를 디코딩 단계에 통합하여 원본 시퀀스의 영향을 적응적으로 변조합니다. 먼저, 인코더에 의해 생성된 메모리
K
다양한 벡터 공간, 즉
에 투영합니다. 이상적으로는 서로 다른 대상 패턴이 서로 다른 메모리와 일치해야 합니다. 이를 위해 대상 패턴을 인코딩하고
을 얻기 위해 Transformer 인코더도 도입했습니다.
를 확률 벡터로 압축했습니다.
Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRInterpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRInterpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRInterpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR 여기서
,
는 k번째 메모리를 선택할 확률입니다. 각 메모리 공간이 완전히 훈련되었는지 확인하기 위해 하드 선택을 수행하지 않고 대신 가중치 합을 통해 최종 메모리를 얻습니다.

Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

궁극적으로 획득한 메모리를 활용하여 디코딩 프로세스를 촉진하고 시퀀스와 패턴 간의 복잡한 일대다 관계를 효과적으로 캡처할 수 있습니다.

모델 인식 데이터 세트 재생성

이전 재생 프로세스 및 대상 모델로 인해 불가지론적이므로 재구성된 데이터 세트가 특정 대상 모델에 적합하지 않을 수 있습니다. 따라서 모델 독립적 데이터 세트 재구성 프로세스를 모델 인식 재구성 프로세스로 확장합니다. 이를 위해 데이터 세트 재생성을 기반으로 재생성된 데이터 세트의 각 데이터 샘플 점수를 평가하는 데이터 세트 개인화 도구를 도입합니다. 그런 다음 연구팀은 암시적 차별화를 통해 데이터 세트 개인화 프로그램을 더욱 효율적으로 최적화했습니다.

Dataset Personalizer:

연구팀의 목표는 구현된 Dataset PersonalizerInterpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR를 기반으로 매개변수를 훈련하는 것입니다. MLP를 통해 대상 모델에 대한 각 데이터 샘플 Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRW의 점수를 평가합니다. 연구팀은 프레임워크의 일반성을 보장하기 위해 계산된 점수를 사용하여 훈련 손실의 가중치를 조정했으며 이는 대상 모델에 대한 추가 수정이 필요하지 않았습니다. 원래 다음 항목 예측 손실을 정의하는 것부터 시작합니다.

Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

이어서 개인화된 데이터 세트에 대한 훈련 손실 함수는 다음과 같이 정의할 수 있습니다.

Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

실험 결론

본 실험

연구팀은 제안된 프레임워크의 유효성을 검증하기 위해 각 대상 모델의 성능을 “DR4SR” 및 “DR4SR+” 변형과 비교했습니다. 그림 4

Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

그림 4 성능의 전체 그림을 보면 다음과 같은 결론을 내릴 수 있습니다.

DR4SR은 유익하고 일반적으로 적용 가능한 데이터 세트를 재구성할 수 있습니다

다른 대상 모델은 다른 데이터 세트를 선호합니다
  • 노이즈 제거는 데이터 재구성 문제의 일부일 뿐입니다

The above is the detailed content of Interpretation of KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR. For more information, please follow other related articles on the PHP Chinese website!

Statement:
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn