Motivation
1.提出一种轻量级模型压缩方法
2.提出一个轻量级的特种重要性评估器
总共有 $|d|$ 个样本, $x\in d$ 是一个样本, 每个样本共有 $N$ 个特征, 其中第 $i$ 个特征真实值是 $v_i^*$, 我们用全量 $x$ 的全量特征计算一个损失函数为
对第 $i$ 个特征, 它的一个采样值是 $v_i^{\prime}$, 我们可以看做从某个分布中采样得到的, 比如从全集数据集中采样或者在训练过程中某个 batch 中采样, 被采集到的概率为 $p(v_i^{\prime})$;
为评估第 $i$ 个特征的重要性: 我们可以先跑样本 $x$ 在全量真实特征的 loss; 然后再执行采样特征 $i$ 的过程, 计算一个新的 loss;
拆解复杂性来看, 需要遍历一遍特征空间, 也就是以 $O(N)$ 复杂度计算所有特征, 我们能否将对每个特征改成并行评估, 也就是目标将 $O(N)$ 改成 $O(1)$;
回顾一下 Taylor expansion 的定义, 函数 $f$ 在 $x=a$ 处的 $n$ 次泰勒多项式实现了用 $n$ 次多项式去逼近函数 $f$ 在 $x=a$ 的一个结果;
我们迁移 Taylor expansion 思想到特征重要性评估任务上, 核心衡量指标是以全量特征作为输入的损失函数的情况; 将损失函数视为函数 $f$, 考察的自变量位置就是这个特征的变化位置 $v_i^{*}$, 逼近的结果就是它的一个 $n$ 次展开, 例如我们就只考察 1 阶展开
exhuasitvely,
1.用期望 $E(v_i)$ 去替代 $v_i^{\prime}$
2.在训练的过程中, 采用 mini_batch 训练的方法, 每个 batch 可以计算一个 loss, 然后将 loss 并行对所有特征计算一个重要性结果
Reference.
[1]. SHARK: A Lightweight Model Compression Approach for Large-scale Recommender Systems
转载请注明来源, from goldandrabbit.github.io