Diffusion Recommender Model;拡散モデルを推薦システムに応用

- ユーザー・アイテム間のインタラクションを生成モデルを利用して予測するというアプローチのレコメンドモデルが一般的に知られている。
- GANベースのときはいまいちであったが、VAE出てきたときに盛り上がった印象
- 拡散モデルをレコメンドに使ってみようぜ論文
- インタラクションにノイズを加えてそれを再現する形で学習させる。
- 所感:そもそもレコメンドのインタラクションってノイズが多いことが知られているため、うまいことそのあたりが除去されてハマるのかな。
- 画像のDMのようにランダムにノイズ加えると、パーソナライズに重要な情報が欠落してしまうため、ある程度パーソナライズ情報を残す形でノイズをコントロール
- レコメンド特有な課題へも対応
- 「大規模データへの推論」→ アイテムをクラスタリングして次元圧縮
- 「ユーザー嗜好の時系列変化」→ インタラクションに重みづけ
Generative models such as Generative Adversarial Networks (GANs) and Variational Auto-Encoders (VAEs) are widely utilized to model the generative process of user interactions. However, these generative models suffer from intrinsic limitations such as the instability of GANs and the restricted representation ability of VAEs. Such limitations hinder the accurate modeling of the complex user interaction generation procedure, such as noisy interactions caused by various interference factors. In light of the impressive advantages of Diffusion Models (DMs) over traditional generative models in image synthesis, we propose a novel Diffusion Recommender Model (named DiffRec) to learn the generative process in a denoising manner. To retain personalized information in user interactions, DiffRec reduces the added noises and avoids corrupting users' interactions into pure noises like in image synthesis. In addition, we extend traditional DMs to tackle the unique challenges in practical recommender systems: high resource costs for large-scale item prediction and temporal shifts of user preference. To this end, we propose two extensions of DiffRec: L-DiffRec clusters items for dimension compression and conducts the diffusion processes in the latent space; and T-DiffRec reweights user interactions based on the interaction timestamps to encode temporal information. We conduct extensive experiments on three datasets under multiple settings (e.g. clean training, noisy training, and temporal training). The empirical results and in-depth analysis validate the superiority of DiffRec with two extensions over competitive baselines.
Generative Adversarial Networks (GANs) や Variational AutoEncoders (VAEs) などの生成モデルは、ユーザインタラクションの生成過程をモデル化するために広く利用されている。しかし、GANの不安定性やVAEの表現能力の制限など、本質的な制約がある。このような制約は、様々な干渉要因によるノイズの多い相互作用など、複雑なユーザインタラクション生成手順の正確なモデリングを妨げている。画像合成における従来の生成モデルに対する拡散モデル(DM)の優れた優位性を踏まえ、我々はノイズ除去方式で生成過程を学習する新しい拡散推薦モデル(DiffRec)を提案する。DiffRecは、ユーザとのインタラクションにおいて個人化された情報を保持するために、付加されるノイズを低減し、画像合成のようにユーザのインタラクションを純粋なノイズに破損させないようにする。さらに、従来のDMを拡張し、大規模なアイテム予測のための高いリソースコストとユーザ嗜好の時間的シフトという推薦におけるユニークな課題に取り組む。この目的のために、我々はDiffRecの2つの拡張を提案する。L-DiffRecは次元圧縮のためのアイテムをクラスタリングし、潜在空間における拡散処理を行う 。また、T-DiffRecは相互作用のタイムスタンプに基づいてユーザの相互作用を再重み付けして時間情報を符号化する。我々は3つのデータセットに対して、複数の設定(例えば、クリーントレーニング、ノイズトレーニング、時間トレーニング)のもとで広範な実験を行った。実証結果は、競争力のあるベースラインに対する2つの拡張を用いたDiffRecの優位性を検証するものである。