>기술 주변기기 >일체 포함 >친구들도 보고 있어요! Google STUDY 알고리즘은 학생들이 독서에 빠지도록 도서 목록 추천 시스템을 지원합니다.

친구들도 보고 있어요! Google STUDY 알고리즘은 학생들이 독서에 빠지도록 도서 목록 추천 시스템을 지원합니다.

WBOY
WBOY앞으로
2023-09-16 20:29:021296검색

책을 펼치는 것은 유익합니다. 이것이 우리가 항상 이해해 온 것입니다. 독서는 사람들의 언어 능력을 향상시키고 새로운 기술을 배우는 데 도움이 될 수 있습니다....

독서는 또한 기분을 개선하고 정신 건강을 향상시킬 수 있습니다. 정기적으로 책을 읽는 사람들은 일반 지식이 더 많고 다른 문화에 대해 더 깊이 이해합니다.

게다가, 즐거운 독서가 학업 성공과 관련이 있다는 연구 결과도 있습니다.

하지만 정보 폭발 시대에는 온라인과 오프라인 독서 자원이 풍부합니다. 무엇을 읽어야 하는가는 어려운 도전이 됩니다.

특히 독서 콘텐츠는 다양한 연령층에 어울리고 흥미로워야 합니다.

그리고 추천 시스템은 이러한 도전에 대한 해결책입니다. 독자에게 관련 독서 자료를 제공하고 관심을 유지하는 데 도움이 됩니다.

추천 시스템의 핵심은 머신러닝(ML)으로, 동영상부터 도서, 전자상거래 플랫폼까지 다양한 유형의 추천 시스템을 구축하는 데 널리 사용됩니다.

학습된 ML 모델은 사용자 선호도, 사용자 참여, 추천 항목을 기반으로 각 사용자에게 개별적으로 추천을 제공하여 사용자 경험을 향상시킬 수 있습니다.

Google의 최신 연구에서는 독서의 사회적 특성(예: 교육 환경)을 고려한 오디오북 콘텐츠 추천 시스템인 STUDY 알고리즘을 제안합니다.

동료가 현재 읽고 있는 내용이 읽기에 관심 있는 내용에 큰 영향을 미칠 수 있으므로 Google은 Learning Ally와 파트너십을 맺었습니다.

Learning Ally는 학생들을 위해 엄선된 오디오북으로 구성된 대규모 디지털 라이브러리를 갖춘 교육 비영리 단체로, 사회적 추천 모델을 구축하는 데 적합합니다.

이를 통해 모델은 학생들의 지역화된 사회 그룹(예: 교실)에 대한 실시간 정보를 활용할 수 있습니다.

STUDY 알고리즘

STUDY 알고리즘은 추천 콘텐츠 문제를 클릭률 예측 문제로 모델링하는 방식을 채택하고 있습니다.

각 특정 항목과 시뮬레이션된 사용자의 상호 작용 확률은 다음에 따라 달라집니다.

1) 사용자 및 항목 특성

2) 사용자의 항목 상호 작용 기록 순서.

이전 작업에서는 Transformer 모델이 이 문제를 모델링하는 데 매우 적합하다는 것을 보여주었습니다.

각 사용자를 개별적으로 처리할 때 상호 작용을 시뮬레이션하는 것은 자동 회귀 시퀀스 모델링 문제가 됩니다.

STUDY 알고리즘은 이러한 개념적 프레임워크를 통해 데이터를 모델링한 후 이 프레임워크를 확장하는 최종 결과물입니다.

클릭률 예측 문제는 개별 사용자의 과거 및 미래 항목 선호도 간의 종속성을 모델링하고 훈련 시 사용자 간의 유사성 패턴을 학습할 수 있습니다.

하지만 한 가지 문제는 클릭률 예측 방법이 서로 다른 사용자 간의 종속성을 모델링할 수 없다는 것입니다.

이를 위해 Google은 독서의 사회적 성격을 모델링할 수 없는 자동회귀 시퀀스 모델링의 단점을 해결할 수 있는 STUDY 모델을 개발했습니다.

STUDY는 한 학급의 여러 학생이 읽은 책의 시퀀스를 하나의 시퀀스로 연결하여 하나의 모델에서 여러 학생의 데이터를 수집할 수 있습니다.

그러나 이 데이터 표현은 Transformer로 모델링할 때 주의 깊게 연구되어야 합니다.

Transformer에서 어텐션 마스크는 어떤 입력을 사용하여 어떤 출력을 예측할지 제어하는 ​​매트릭스입니다.

출력 예측을 알리기 위해 시퀀스의 모든 이전 토큰을 사용하는 패턴은 일반적으로 인과 디코더에서 발견되는 상부 삼각 주의 매트릭스를 생성합니다.

하지만 STUDY 모델에 입력된 시퀀스는 시간순이 아니기 때문에 각 구성 요소 하위 시퀀스는 시간순으로 되어 있기 때문에 전통적인 인과 디코더는 더 이상 이 시퀀스에 적합하지 않습니다.

각 토큰을 예측할 때 모델은 시퀀스에서 앞에 나타나는 각 토큰에 주의를 기울이는 것을 허용하지 않습니다. 이러한 토큰 중 일부는 이후 타임스탬프를 가지며 배포 시 사용할 수 없는 정보를 포함할 수 있습니다. .

친구들도 보고 있어요! Google STUDY 알고리즘은 학생들이 독서에 빠지도록 도서 목록 추천 시스템을 지원합니다.사진

인과 디코더에 일반적으로 사용되는 주의 마스크입니다. 각 열은 출력을 나타내고, 각 열은 출력을 나타냅니다. 특정 위치에서 값이 1(파란색으로 표시)인 행렬 항목은 모델이 해당 열의 출력을 예측할 때 해당 행에 대한 입력을 관찰할 수 있음을 나타내고, 값이 0(흰색으로 표시)은 반대임을 나타냅니다. .

STUDY 모델은 삼각 행렬 어텐션 마스크를 유연한 타임스탬프 기반 어텐션 마스크로 대체하는 인과 변환기를 기반으로 하여 다양한 하위 시퀀스에 걸쳐 주의를 허용합니다.

일반 변환기에 비해 STUDY 모델은 인과삼각형 주의 행렬을 시퀀스로 유지하고 타임스탬프에 따라 다양한 시퀀스에서 유연한 값을 갖습니다.

따라서 시퀀스의 출력 지점에 대한 예측은 시퀀스의 현재 입력 지점 이전 또는 이후에 발생했는지 여부에 관계없이 현재 시점을 기준으로 과거에 발생한 모든 입력 지점을 참조합니다.

이 인과적 제약이 중요한 이유는 훈련 중에 이 제약이 적용되지 않으면 모델이 실제 배포에서는 불가능한 미래 정보를 사용하여 예측하는 방법을 학습할 수 있기 때문입니다.

친구들도 보고 있어요! Google STUDY 알고리즘은 학생들이 독서에 빠지도록 도서 목록 추천 시스템을 지원합니다.Pictures

(a) 각 사용자를 개별적으로 처리할 수 있는 인과적 주의를 갖춘 순차적 자동 회귀 변환기 (b) 다음과 같이 계산하는 등가 조인트 순방향 전달; 주의 마스크(보라색으로 표시)에 0이 아닌 새로운 값이 추가되면 사용자 간에 정보 흐름이 허용됩니다. 이를 위해 우리는 상호 작용이 동일한 사용자로부터 발생했는지 여부에 관계없이 이전 타임스탬프와의 모든 상호 작용에 대해 조건부 예측을 허용했습니다. 여러 기준선 비교.

팀에서는 자동 회귀 CTR 디코더("개별"이라고 함), KNN(k-최근접 이웃 기준) 및 유사한 사회적 기준인 SAMN(Social Attention Memory Network)을 사용했습니다.

첫 번째 학년의 데이터를 교육에 사용하고 두 번째 학년의 데이터를 검증 및 테스트에 사용했습니다.

팀은 사용자가 실제로 상호 작용하는 다음 항목이 모델의 상위 n개 제안 내에 포함되는 시간의 비율을 측정하여 이러한 모델을 평가합니다.

팀은 전체 테스트 세트에서 모델을 평가하는 것 외에도 전체 데이터 세트보다 더 어려운 테스트 세트의 두 하위 세트에 대한 모델 점수도 보고합니다.

학생들은 일반적으로 오디오북과 여러 번 상호 작용하는 것을 볼 수 있으므로 단순히 사용자가 마지막으로 읽은 책을 추천하는 것은 쉽지 않습니다.

따라서 연구자들은 첫 번째 테스트 하위 집합을 "비연속"이라고 부릅니다. 이 하위 집합에서는 학생들이 이전 상호 작용과 다른 책과 상호 작용할 때 각 모델의 추천 성능만 조사합니다.

또한 팀에서는 학생들이 과거에 읽은 책을 복습하는 것을 관찰했기 때문에 각 학생의 추천 도서는 과거에 읽은 책으로 제한되며 이는 시험에서 볼 수 있습니다. set 훌륭한 성능을 달성하십시오.

학생들에게 과거에 가장 좋아했던 책을 추천하는 데 어느 정도 가치가 있을 수 있지만, 추천 시스템의 가치 대부분은 새롭고 알려지지 않은 콘텐츠를 사용자에게 추천하는 데서 비롯됩니다.

이를 측정하기 위해 팀에서는 학생들이 처음으로 참고문헌과 상호 작용하는 테스트 세트의 하위 집합에서 모델을 평가했습니다. 이 평가 하위 집합을 "새 하위 집합"이라고 명명합니다.

거의 모든 평가에서 'STUDY'가 다른 모델보다 우수하다는 것을 알 수 있습니다.

Pictures

올바른 그룹화의 중요성

친구들도 보고 있어요! Google STUDY 알고리즘은 학생들이 독서에 빠지도록 도서 목록 추천 시스템을 지원합니다.STUDY 알고리즘의 핵심은 사용자를 그룹화하고 모델의 단일 전달 패스에서 동일한 그룹의 여러 사용자에 대해 공동 추론을 수행하는 것입니다.

연구원들은 절제 연구를 통해 모델 성능에 대한 실용적인 그룹화의 중요성을 조사했습니다.

제안된 모델에서 연구자들은 같은 학년과 학교의 모든 학생을 그룹화했습니다.

그런 다음 같은 학년 및 학군의 모든 학생이 정의한 그룹화를 실험했을 뿐만 아니라 모든 학생을 하나의 그룹으로 그룹화하고 각 전달 패스에서 무작위 하위 집합을 사용했습니다.

연구원들은 또한 참고용으로 이 모델을 "개인" 모델과 비교했습니다.

연구에 따르면 지역화된 그룹을 더 많이 사용하는 것이 더 효과적이라는 사실이 밝혀졌습니다. 즉, 학교 및 학년 그룹화가 학군 및 학년 그룹화보다 더 좋습니다.

이는 독서와 같은 활동이 사회적이기 때문에 연구 모델이 성공한다는 가설을 뒷받침합니다. 사람들의 독서 선택은 주변 사람들의 독서 선택과 상관관계가 있을 가능성이 높습니다.

두 모드 모두 학생을 그룹화하기 위해 학년 수준을 사용하지 않고 다른 두 모드(단일 그룹 모드 및 개인 모드)보다 성능이 뛰어납니다.

이는 비슷한 독서 수준과 관심분야를 가진 사용자의 데이터가 모델 성능을 향상시키는 데 도움이 된다는 것을 보여줍니다.

마지막으로 이번 Google 연구는 사회적 관계가 동질적이라는 가정 하에 사용자 그룹을 모델링하는 것으로 제한되었습니다.

참조:

https://www.php.cn/link/0b32f1a9efe5edf3dd2f38b0c0052bfe

위 내용은 친구들도 보고 있어요! Google STUDY 알고리즘은 학생들이 독서에 빠지도록 도서 목록 추천 시스템을 지원합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제