論文メモ

Explore, Exploit, and Explain: Personalizing Explainable Recommendations with Bandits

概要

  • recsys2018
  • Bartは、アイテム、説明、文脈の任意の組み合わせに対する満足度(例えば、クリックスルー率、消費確率)を学習し、予測する
  • ログを記録し、文脈に応じたバンディットの再トレーニングを行う
  • ユーザー満足度の不確実性の下での説明付き推薦の問題に対処する文脈的バンディットベースのフレームワークであるBartを提示
  • 無作為化された過去のデータを用いたオフライン実験と、大規模な音楽推薦システムのホームページ上でのユーザーを用いたオンライン実験により、Bartを実証的に評価し、説明の静的な順序付けを大幅に上回ることを明らかにした
  • Bartの目的は、ユーザーの満足度を予測するために、アイテムと説明が任意のコンテキスト内でどのように相互作用するかを学習すること
  • 形式的には、コンテキストx∈Xが与えられたときに、アイテムj∈J、説明e∈Eに対するユーザーのエンゲージメントを正確に予測する報酬関数r : J × E × X → Rを求める