港大与腾讯的研究人员提出了一种全新的多模态推荐系统范式 ——DiffMM,旨在提高短视频推荐的精准度。该系统通过创建一个包含用户和视频信息的图,并利用图扩散和对比学习技术,更好地理解用户和视频之间的关系,从而实现更准确的推荐。
DiffMM 的模型方法主要包含三个部分:多模态图扩散模型、多模态图聚合和跨模态对比增强。其中,多模态图扩散模型通过模态感知去噪扩散概率模型,将用户 - 物品协同信号与多模态信息统一起来,有效解决多模态推荐系统中的负面影响。同时,通过图概率扩散范式和模态感知的图扩散优化,实现了模态感知的用户 - 物品图生成和优化。
在跨模态对比增强方面,DiffMM 利用模态感知的对比视图和对比增强方法,捕捉不同物品模态上的用户交互模式的一致性,提高推荐系统性能。
论文:https://arxiv.org/abs/2406.1178