[論文レビュー] Deep reinforcement learning for page-wise recommendations

論文メモ

ページ単位の推薦問題を研究
(1)ユーザのリアルタイムなフィードバックに応じて推薦戦略を更新する方法
(2)アイテムのページを適切に表示する方法
相補的なアイテムのセットを共同で生成するための原理的なアプローチと、それらを2次元ページに表示するための対応する戦略を提案し、深層強化学習に基づいた新しいページ単位の推薦フレームワーク
強化学習を用いて最適な推薦戦略を自動的に学習する。
(1)多様で補完的なアイテムのセットを生成
(2)最大の報酬を得ることができる2次元ページにアイテムを配置するアイテム表示戦略を共同で形成
ページ単位の推薦のための深層強化学習をこの問題に適用する場合、2つの大きな課題
- (a)大きな（あるいは連続した）動的な行動空間（アイテム空間）
- (b)最適な行動（アイテムのページ）を選択するための計算コストである
図2(c)に示すActor-Criticフレームワーク[35]に基づいて推薦政策を構築
Actor-Criticアーキテクチャは、図2(a)と(b)に示すように、大規模で動的な行動空間に適しており、また、他のアーキテクチャと比較して、同時に冗長な計算を削減することができる