SHARK A Lightweight Model Compression Approach for Large-scale Recommender Systems

Ads_RecSys

Created At : 2023-10-11 20:43

Motivation
Reference.

Motivation

1.提出一种轻量级模型压缩方法
2.提出一个轻量级的特种重要性评估器

总共有 $|d|$ 个样本, $x\in d$ 是一个样本, 每个样本共有 $N$ 个特征, 其中第 $i$ 个特征真实值是 $v_i^*$, 我们用全量 $x$ 的全量特征计算一个损失函数为

$loss(v_1^*,\cdots,v_N^*)$

对第 $i$ 个特征, 它的一个采样值是 $v_i^{\prime}$, 我们可以看做从某个分布中采样得到的, 比如从全集数据集中采样或者在训练过程中某个 batch 中采样, 被采集到的概率为 $p(v_i^{\prime})$;
为评估第 $i$ 个特征的重要性: 我们可以先跑样本 $x$ 在全量真实特征的 loss; 然后再执行采样特征 $i$ 的过程, 计算一个新的 loss;

$\begin{aligned} \text{importance}(i) =&\frac{1}{|d|}\sum_{x\in d}\text{importance}(i, x) \\ =&\frac{1}{|d|}\sum_{x\in d}\text{shuffle-feature-i-loss}-\text{origin-loss} \\ =&\frac{1}{|d|}\sum_{x\in d}\sum_{v_i\in s,v_i\sim s}loss(v_1^*,\cdots,v_N^*)p(v_i)-loss(v_1^*,\cdots,v_N^*) \end{aligned}$

拆解复杂性来看, 需要遍历一遍特征空间, 也就是以 $O(N)$ 复杂度计算所有特征, 我们能否将对每个特征改成并行评估, 也就是目标将 $O(N)$ 改成 $O(1)$;

回顾一下 Taylor expansion 的定义, 函数 $f$ 在 $x=a$ 处的 $n$ 次泰勒多项式实现了用 $n$ 次多项式去逼近函数 $f$ 在 $x=a$ 的一个结果;

$T_n(x)=f(a)+\frac{f^{'}(a)}{1!}(x-a)+\frac{f^{''}(a)}{2!}(x-a)^2+\cdots+\frac{f^{(n)}(a)}{n!}(x-a)^{n}$

我们迁移 Taylor expansion 思想到特征重要性评估任务上, 核心衡量指标是以全量特征作为输入的损失函数的情况; 将损失函数视为函数 $f$, 考察的自变量位置就是这个特征的变化位置 $v_i^{*}$, 逼近的结果就是它的一个 $n$ 次展开, 例如我们就只考察 1 阶展开

$\begin{aligned} {\rm importance}(i,x) =&\frac{\partial loss(v_1^*,\cdots,v_N^*)}{\partial v_i^*}\sum_{v_i^{\prime}\in s} p(v_i^{\prime}) (v_i^{\prime}-v_i^*) \\ =&\frac{\partial loss(v_1^*,\cdots,v_N^*)}{\partial v_i^*}(E(v_i)-v_i^*) \end{aligned}$

exhuasitvely,
1.用期望 $E(v_i)$ 去替代 $v_i^{\prime}$
2.在训练的过程中, 采用 mini_batch 训练的方法, 每个 batch 可以计算一个 loss, 然后将 loss 并行对所有特征计算一个重要性结果

Reference.

[1]. SHARK: A Lightweight Model Compression Approach for Large-scale Recommender Systems

转载请注明来源 goldandrabbit.github.io