ホームページ >テクノロジー周辺機器 >AI >あなたの友達も見ています! Google STUDY アルゴリズムは、学生が読書に夢中になる書籍リストの推奨システムをサポートしています
私たちは、本を開くことが有益であることを常に知っています。読書は言語スキルを向上させ、新しいスキルを学ぶのに役立ちます....
読書は気分や精神的健康も改善します。定期的に読書をする人は、より一般的な知識を持ち、他文化についての理解も深まります。
さらに、楽しみのために読書することが学業の成功に関連していることが研究によって確認されています。
しかし、情報爆発の時代には、オンラインおよびオフラインの読書リソースが豊富にあります。何を読むかは難しい課題になります。
特に、読書コンテンツはさまざまな年齢層にマッチし、魅力的である必要があります。
推奨システムは、この課題に対する解決策です。読者に関連する読み物を提供し、興味を維持するのに役立ちます。
レコメンデーション システムの中核となるのは機械学習 (ML) であり、ビデオから書籍、電子商取引プラットフォームまで、さまざまなタイプのレコメンデーション システムの構築に広く使用されています。
トレーニングされた ML モデルは、ユーザーの好み、ユーザー エンゲージメント、推奨アイテムに基づいて各ユーザーに個別に推奨を行うことで、ユーザー エクスペリエンスを向上させることができます。
Google の最新の研究では、読書の社会的性質 (教育環境など) を考慮したオーディオブック コンテンツ推奨システム、つまり STUDY アルゴリズムが提案されています。
同僚が現在読んでいる内容は、その人が興味を持って読んでいる内容に大きな影響を与える可能性があるため、Google は Learning Ally と提携しています。
Learning Ally は、学生向けに厳選されたオーディオブックの大規模なデジタル ライブラリを備えた教育非営利団体で、ソーシャル レコメンデーション モデルの構築に最適です。
これにより、モデルは学生の地域的な社会グループ (教室など) に関するリアルタイム情報を活用できるようになります。
STUDY アルゴリズムは、推奨コンテンツの問題をクリック率予測問題としてモデル化する方法を採用しています。
シミュレートされたユーザーと特定の各アイテムとのインタラクション確率は次の要素に依存します:
1) ユーザーとアイテムの特性
2) ユーザーのプロジェクト インタラクション履歴シーケンス。
これまでの研究では、Transformer モデルがこの問題のモデル化に適していることが示されています。
各ユーザーが個別に扱われる場合、インタラクションのシミュレーションは自己回帰シーケンス モデリングの問題になります。
STUDY アルゴリズムは、この概念的なフレームワークを通じてデータをモデル化し、このフレームワークを拡張した最終製品です。
クリックスルー率予測問題は、個々のユーザーの過去と将来のアイテムの好みの間の依存関係をモデル化し、トレーニング中にユーザー間の類似性パターンを学習できます。
しかし、1 つの問題は、クリックスルー率の予測方法では、異なるユーザー間の依存関係をモデル化できないことです。
この目的を達成するために、Google は読書の社会的性質をモデル化できない自己回帰シーケンス モデリングの欠点を解決できる STUDY モデルを開発しました。
STUDY は、クラス内の複数の生徒が読んだ本のシーケンスを 1 つのシーケンスに接続し、それによって 1 つのモデルで複数の生徒からのデータを収集できます。
ただし、このデータ表現を Transformer でモデル化する場合は、慎重に検討する必要があります。
Transformer では、アテンション マスクは、どの入力をどの出力を予測するために使用できるかを制御するマトリックスです。
シーケンス内のすべての前のトークンを使用して、上三角アテンション行列の出力結果の予測を通知するパターン。これは通常、因果デコーダーで見られます。
ただし、STUDY モデルへのシーケンス入力は時間順ではないため、コンポーネントの各サブシーケンスは時間順にありますが、従来の因果デコーダーは適切ではなくなりました。 。
各トークンを予測しようとする際、モデルでは、シーケンス内でその前に出現する各トークンに注意を向けることはできません。これらのトークンの一部には、より後のタイムスタンプがあり、In 情報が含まれている可能性があります。導入時には利用できません。 ###############写真###### 因果デコーダで一般的に使用されるアテンション マスク。各列は出力を表し、各列は出力を表します。特定の位置の値 1 (青で表示) を持つ行列エントリは、モデルが対応する列の出力を予測するときにその行の入力を観察できることを示し、値 0 (白で表示) はその逆を示します。 。 STUDY モデルは、三角行列アテンション マスクを柔軟なタイムスタンプ ベースのアテンション マスクに置き換える因果変換に基づいており、さまざまなサブシーケンスにわたるアテンションを可能にします。 通常のコンバーターと比較して、STUDY モデルはシーケンス内で因果三角形アテンション マトリックスを維持し、タイムスタンプに応じてさまざまなシーケンスで柔軟な値を持ちます。 したがって、シーケンス内の出力ポイントの予測は、前後に発生したかどうかに関係なく、現在の時点を基準にして過去に発生したすべての入力ポイントを参照します。シーケンス内の現在の入力ポイント。 この因果的制約が重要なのは、トレーニング中にこの制約が強制されないと、モデルが将来の情報を使用して予測を行うことを学習するリスクが生じるためです。これは現実世界のデプロイメントでは不可能です。達成するために。 図 (a) 各ユーザーを個別に処理できる因果的注意を備えた逐次自己回帰変換器、(b) 同等のもの(a) と同じことを計算するジョイント フォワード パス、(c) アテンション マスク (紫色で表示) にゼロ以外の新しい値を導入することで、ユーザー間で情報が流れるようにします。これを行うために、インタラクションが同じユーザーからのものであるかどうかに関係なく、以前のタイムスタンプを持つすべてのインタラクションを条件として予測できるようにしました。 ## Google は Learning Ally データセットを使用して STUDY モデルをトレーニングし、比較のために複数のベースラインを使用します。 彼らは、トレーニングには 1 学年度のデータを使用し、検証とテストには 2 学年度のデータを使用しました。 チームは、ユーザーが実際に操作する次のアイテムがモデルの上位 n 個の提案内にある時間の割合を測定することによって、これらのモデルを評価します。 チームは、テスト セット全体でモデルを評価することに加えて、データセット全体よりも正確な、テスト セットの 2 つのサブセットでのモデルのスコアも報告します。 学生は通常、オーディオブックを複数回操作していることがわかります。そのため、ユーザーが最後に読んだ本を単に推奨するのは簡単ではありません。 したがって、研究者は最初のテスト サブセットを「非継続」と呼びます。このサブセットでは、学生が以前の対話とは異なる学生と対話する場合にのみ各モデルを検査します。本がインタラクティブな場合のパフォーマンス。 さらに、チームは、学生が過去に読んだ本を再訪していることも観察したため、各学生に推奨される本は、過去に読んだ本に限定されます。テスト セットで優れたパフォーマンスを達成できます。 学生に過去のお気に入りの本を勧めることにはある程度の価値があるかもしれませんが、推奨システムの価値の多くは、新しい未知のコンテンツをユーザーに勧めることから生まれます。 これを測定するために、チームは、学生が初めて参考文献を操作するテスト セットのサブセットでモデルを評価しました。この評価サブセットを「新しいサブセット」と名付けます。 「STUDY」は、ほぼすべての評価において他のモデルを上回っていることがわかります。 写真 適切なグループ分けの重要性 研究の核心アルゴリズムは、ユーザーをグループにグループ化し、モデルの単一の前方パスで同じグループ内の複数のユーザーに対して共同推論を実行します。 提案されたモデルでは、研究者は同じ学年および学校のすべての生徒をグループ化しました。 次に、同じ学年と学区内のすべての生徒によって定義されたグループ分けと、すべての生徒を 1 つのグループにグループ化し、各前方パスでランダムなサブセットを使用する実験を行いました。 研究者らはまた、参考としてこれらのモデルを「個々の」モデルと比較しました。 研究によると、よりローカライズされたグループ、つまり学区や学年のグループよりも学校や学年のグループを使用する方が効果的であることがわかっています。 これは、読書などの活動が社会的であるため、研究モデルが成功するという仮説を裏付けています。つまり、人々の読書の選択は、周囲の人々の読書の選択と相関している可能性が高いということです。 両方のモデルは、学生をグループ化するために学年レベルを使用せずに、他の 2 つのモデル (単一グループ モデルと個人モデル) を上回りました。 これは、同様の読書レベルと興味を持つユーザーからのデータがモデルのパフォーマンスの向上に有益であることを示しています。 最後に、この Google の調査は、社会的関係が同質であると仮定するユーザー グループのモデル化に限定されていました。 #参考:チームは、自己回帰 CTR デコーダ (「個人」と呼ばれる)、k 最近傍ベースライン (KNN)、および同等のソーシャル ベースラインであるソーシャル アテンション メモリ ネットワーク (SAMN) を使用しました。
研究者らは、アブレーション研究を通じて、モデルのパフォーマンスにおける実際のグループ化の重要性を検討しました。
以上があなたの友達も見ています! Google STUDY アルゴリズムは、学生が読書に夢中になる書籍リストの推奨システムをサポートしていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。