CTR 추정에서 주류 방법은 기능이 매우 중요한 기능 임베딩+MLP를 사용합니다. 그러나 동일한 기능의 경우 다른 샘플에서 표현이 동일합니다. 이러한 방식으로 다운스트림 모델에 입력하면 모델의 표현 능력이 제한됩니다.
이 문제를 해결하기 위해 CTR 추정 분야에서 기능 향상 모듈이라고 하는 일련의 관련 작업이 제안되었습니다. 특징 강화 모듈은 다양한 샘플의 특징 표현에 적응하고 모델의 표현 능력을 향상시키기 위해 다양한 샘플을 기반으로 임베딩 레이어의 출력 결과를 수정합니다.
최근 푸단대학교와 Microsoft Research Asia는 다양한 기능 향상 모듈의 구현 방법과 효과를 비교하는 기능 향상 작업에 대한 리뷰를 공동으로 발표했습니다. 이제 여러 기능 향상 모듈의 구현 방법과 본 기사에서 수행한 관련 비교 실험을 소개하겠습니다
논문 제목: CTR 예측을 위한 기능 개선 모듈의 종합 요약 및 평가
다운로드 주소: https:/ / arxiv.org/pdf/2311.04625v1.pdf
특징 강화 모듈은 CTR 예측 모델에서 Embedding 레이어의 표현 능력을 향상시키고, 동일한 특징을 서로 다른 모델에서 차별화할 수 있도록 설계되었습니다. 견본. . 기능 강화 모듈은 다음과 같은 통일된 수식으로 표현할 수 있으며 원본 Embedding을 입력하고 함수를 전달한 후 본 샘플의 개인화된 Embedding을 생성할 수 있습니다.
Pictures
이 방법의 일반적인 아이디어는 각 특징의 초기 임베딩을 얻은 후 샘플 자체의 표현을 사용하여 특징 임베딩을 변환하여 현재 샘플의 개인화된 임베딩을 얻는 것입니다. 여기서는 몇 가지 고전적인 기능 향상 모듈 모델링 방법을 소개합니다.
희소 예측을 위한 입력 인식 인수 분해 기계(IJCAI 2019) 이 기사에서는 임베딩 레이어 뒤에 재가중 레이어를 추가하고 샘플의 초기 임베딩을 MLP에 입력하여 표현을 얻습니다. 샘플의 벡터는 소프트맥스를 사용하여 정규화됩니다. Softmax 뒤의 각 요소는 특성에 해당하며 이 특성의 중요성을 나타냅니다. 이 소프트맥스 결과에 해당 특성의 초기 임베딩을 곱하여 샘플 세분성에서 특성 임베딩 가중치를 얻습니다.
Pictures
FiBiNET: 기능 중요도와 2차 기능 상호 작용을 결합한 클릭률 예측 모델(RecSys 2019)도 비슷한 아이디어를 채택합니다. 모델은 각 샘플에 대한 특성의 개인화된 가중치를 학습합니다. 전체 과정은 압착, 추출, 재중량의 세 단계로 나누어집니다. 스퀴징 단계에서는 풀링 방법을 통해 각 특징의 임베딩 벡터를 통계적 스칼라로 얻습니다. 추출 단계에서 이러한 스칼라는 다층 퍼셉트론(MLP)에 입력되어 각 특징의 가중치를 얻습니다. 마지막으로, 이러한 가중치에 각 특징의 임베딩 벡터를 곱하여 가중치 임베딩 결과를 얻습니다. 이는 샘플 수준에서 특징 중요도를 필터링하는 것과 동일합니다
Picture
CTR 예측을 위한 이중 입력 인식 인수분해 기계( IJCAI 2020)은 이전 기사와 유사하며, self-attention을 사용하여 기능을 향상시킵니다. 전체는 벡터 방식과 비트 방식의 두 가지 모듈로 나뉩니다. 벡터 방식은 각 기능의 포함을 시퀀스의 요소로 처리하고 이를 Transformer에 입력하여 융합된 기능 표현을 얻습니다. 비트 방식 부분은 다층 MLP를 사용하여 원래 기능을 매핑합니다. 두 부분의 입력 결과를 더한 후 각 특징 요소의 가중치를 구하고, 해당 원래 특징의 각 비트를 곱하여 향상된 특징을 얻습니다.
Image
GateNet: 클릭률 예측을 위한 향상된 Gated Deep Network(2020) 각 기능의 초기 임베딩 벡터를 활용하여 MLP 및 시그모이드 함수를 통해 독립적인 기능 가중치 점수를 생성하는 동시에 MLP를 사용하여 결합합니다. 모든 기능은 비트별 가중치 점수에 매핑되고 두 기능이 결합되어 입력 기능에 가중치를 부여합니다. 피처 레이어 외에도 MLP의 히든 레이어에서도 비슷한 방법을 사용하여 각 히든 레이어의 입력에 가중치를 부여합니다
picture
Hierarchical Attention을 통한 해석 가능한 클릭률 예측(WSDM 2020)도 self-attention을 사용하여 기능 변환을 달성하지만 고차 기능 생성을 추가합니다. 여기서는 계층적 self-attention이 사용됩니다. self-attention의 각 레이어는 이전 self-attention 레이어의 출력을 입력으로 사용합니다. 각 레이어는 계층적 다중 차수 특징 추출을 달성하기 위해 1차 고차 특징 조합을 추가합니다. 구체적으로, 각 레이어가 self-attention을 수행한 후 생성된 새로운 특징 행렬을 소프트맥스를 통해 각 특징의 가중치를 구한 후, 원래 특징의 가중치에 따라 새로운 특징에 가중치를 부여한 후 내적을 수행합니다. 원래 기능을 사용하여 하나의 기능 수준을 증가시킵니다.
Pictures
ContextNet: A Click-Through Rate Prediction Framework Using Contextual information to Refine Feature Embedding(2021)도 MLP를 사용하여 모든 기능을 각 기능 임베딩 크기의 차원으로 매핑하는 유사한 접근 방식입니다. 원래 기능의 크기가 조정되고 각 기능에 개인화된 MLP 매개변수가 사용됩니다. 이러한 방식으로 각 기능은 샘플의 다른 기능을 상위 및 하위 비트로 사용하여 향상됩니다.
Pictures
컨텍스트 인식 기능 표현 학습(SIGIR 2022)으로 CTR 예측 향상은 기능 향상을 위해 self-attention을 사용합니다. 일련의 입력 기능에 대해 각 기능이 다른 기능에 미치는 영향 정도는 다릅니다. 셀프 어텐션을 통해 각 특징의 임베딩에 대해 셀프 어텐션을 수행하여 샘플 내 특징 간의 정보 상호 작용을 달성합니다. 기능 간의 상호 작용 외에도 이 기사에서는 비트 수준 정보 상호 작용을 위해 MLP도 사용합니다. 위에서 생성된 새로운 임베딩은 게이트 네트워크를 통해 원래 임베딩과 병합되어 최종적으로 정제된 특징 표현을 얻습니다.
Pictures
다양한 기능 향상 방법의 효과를 비교한 후 종합적인 결론에 도달했습니다. 많은 기능 향상 모듈 중에서 GFRL, FRNet-V 및 FRNetB가 가장 성능이 좋았으며, 다른 기능 강화 방법보다 효과가 더 좋습니다
Pictures
위 내용은 이 문서에서는 CTR 추정에서 기능 향상 및 개인화의 고전적인 방법과 효과 비교를 요약합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!