推荐系统-矩阵分解-拓冰建站

概述

矩阵分解相当于一种Embedding 方法。矩阵分解的主要过程，就是先分解矩阵协同过滤生成的共现矩阵，生成用户和物品的隐向量，再通过用户和物品隐向量的相似性进行推荐。那么该通过什么方法把共现矩阵分解开？最常用的方法就是梯度下降。

矩阵分解协同过滤的核心思想是将用户-物品共现矩阵（如评分矩阵）分解为两个低维矩阵的乘积，从而得到用户和物品的隐向量（Embedding），然后通过向量相似度进行推荐。

分解的过程通常采用梯度下降优化算法来最小化预测误差。

什么是共现矩阵

在协同过滤中，我们通常有一个用户-物品评分矩阵（或交互矩阵），行是用户，列是物品，单元格是评分（或隐式反馈如点击、购买）。

这个矩阵通常非常稀疏，大部分单元格是空的。

**示例数据：**假设我们有 3 个用户（U1, U2, U3）和 4 个物品（I1, I2, I3, I4），评分范围 1~5。

用户\物品	I1	I2	I3	I4
U1	5	3	?	1
U2	4	?	?	2
U3	1	1	5	?

（“?”表示未知，需要预测）

矩阵分解的目标

我们要将这个 3×4 的矩阵 R 近似分解为两个小矩阵的乘积：
R ≈ P × Q T R≈P× Q^TR≈P×QT

其中：

P 是 3×k 的用户隐向量矩阵（每一行代表一个用户）。
Q 是 4×k 的物品隐向量矩阵（每一行代表一个物品）。
k 是隐向量维度（超参数，通常远小于用户数和物品数，例如 k=2）。

分解后，预测评分:r ^ u i = p u ⋅ q i T \hat{r}_{ui} = p_u \cdot q_i^Tr^ui=pu⋅qiT(点积)

如何分解？通过最小化预测误差，即对已知评分，让预测值尽可能接近真实值。

损失函数与梯度下降

我们定义损失函数（正则化后的平方误差）：
L = ∑ ( u , i ) ∈ K ( r u i − p u ⋅ q i T ) 2 + λ ( ∥ p u ∥ 2 + ∥ q i ∥ 2 ) L = \sum_{(u,i) \in \mathcal{K}} \left( r_{ui} - p_u \cdot q_i^T \right)^2 + \lambda \left( \|p_u\|^2 + \|q_i\|^2 \right)L=(u,i)∈K∑(rui−pu⋅qiT)2+λ(∥pu∥2+∥qi∥2)

K 是已知评分的集合。
第二项是正则化项，防止过拟合。

梯度下降：

我们随机初始化 P 和 Q，然后迭代更新每个参数，沿着负梯度方向减小损失。

对每个已知评分 (u,i)，预测误差e u i = r u i − p u ⋅ q i T e_{ui} = r_{ui} - p_u \cdot q_i^Teui=rui−pu⋅qiT

梯度:

∂ L ∂ p u = − 2 e u i q i + 2 λ p u ∂ L ∂ q i = − 2 e u i p u + 2 λ q i \begin{array}{l} \frac{\partial L}{\partial p_{u}} = -2e_{ui}q_{i} + 2\lambda p_{u} \\ \\ \frac{\partial L}{\partial q_{i}} = -2e_{ui}p_{u} + 2\lambda q_{i} \end{array}∂pu∂L=−2euiqi+2λpu∂qi∂L=−2euipu+2λqi

更新规则（学习率 η）：
p u ← p u + η ( e u i q i − λ p u ) q i ← q i + η ( e u i p u − λ q i ) \begin{array}{l} p_u \leftarrow p_u + \eta (e_{ui} q_i - \lambda p_u) \\ \\ q_i \leftarrow q_i + \eta (e_{ui} p_u - \lambda q_i) \end{array}pu←pu+η(euiqi−λpu)qi←qi+η(euipu−λqi)

具体计算示例

设置 k=2，正则化系数 λ=0.1，学习率 η=0.01。

初始化隐向量（随机小值）

用户向量：

U1: p1=[0.1,0.2]
U2: p2=[0.3,0.4]
U3: p3=[0.5,0.6]

物品向量：

I1: q1=[0.7,0.8]
I2: q2=[0.9,1.0]
I3: q3=[1.1,1.2]
]I4: q4=[1.3,1.4]

一次迭代（以已知评分 U1-I1 = 5 为例）

计算预测值：r ^ 11 = p 1 ⋅ q 1 T = 0.1 ∗ 0.7 + 0.2 ∗ 0.8 = 0.07 + 0.16 = 0.23 \hat{r}_{11} = p_1 \cdot q_1^T = 0.1 * 0.7 + 0.2 * 0.8 = 0.07 + 0.16 = 0.23r^11=p1⋅q1T=0.1∗0.7+0.2∗0.8=0.07+0.16=0.23