Tree based Progressive Regression Model for Watch-Time Prediction in Short-video Recommendation

  1. Motivation
  2. Formulation
  3. Tree-based Progressive regression model 基于树的渐进式回归模型
  4. 树节点的建模
  5. Reference

Motivation

1.快手短视频播放时长预估框架, 提出 Tree-based Progressive regression model (TPM), 用于解决 ordinal relation 建模的问题
2.TPM 提供了一种非常系统化地定义 ordinal regression 问题结构的框架, 将 ordinal regression 问题分解成三个结构之和的形式

Formulation

  • $T$ 是短视频播放时长
  • $X$ 是用户和视频特征
  • $\mathcal T$ 是生成好的一颗树
  • $\mathcal M_i$ 是第 $i$ 个二分类模型
  • $N_{\mathcal T}$ 是树 $\mathcal T$ 的节点集合
  • $L_{\mathcal T}$ 是树 $\mathcal T$ 的叶子节点集合
  • $d(l_k)$ 是叶子节点 $l_k$ 对应的深度
  • $\phi_{l_k}$ 是从根节点到叶子叶子结点 $l_k$ 有序节点集合, $\phi_{l_k}=\{\hat n_{\phi_{l_k}}(0), \ldots, \hat n(d(l_k))\}$

Tree-based Progressive regression model 基于树的渐进式回归模型

1.TPM 的建模思路将 ordinal regression 的问题转化成一个基于叶子节点的多项分布建模问题: 给定一个样本的特征 $X$ 和 一棵树 $\mathcal T$ , 预估的观看时长 $T$ 服从一个多项分布

intuitively,
1.对于一棵树 $\mathcal T$ 来说, 每个节点都对应一个有序的区间, 每个非叶子节点都对应一个二分类的任务;
2.每个非叶子节点属于右孩子所在的区间被看做是正样本;
3.每个非叶子节点都以特征 $X$ 作为输入, 然后沿着孩子节点的路径进行识别序关系 label;
4.给定训练样本 $(X,T)$ 和 一棵树 $\mathcal T$, 我们沿着一系列二分类模型的判断结果往下走, 直到找到最终属于的一个叶子节点; 比如一个样本 $T=0.8$ 它会先经过 $\mathcal M_0$ 二分类模型判断它是大于 0.5 的存在所以走到 $n_2$ 节点, 然后再通过一个 $\mathcal M_2$ 模型判断它是大于 0.75 的存在, 最终落脚到叶子节点 $n_6$ 之上

树节点的建模

目标函数包括三个部分
1.沿着从根节点到叶子节点路径上分类误差. TPM 模型做的事是最大化似然函数

2.预测方差

3.回归损失. 也就是真实的时长和预测时长之间的 gap

总结下算法流程如下

intuitively,
1.输入是一系列样本数据 $(X,T)$, 和一个已经定义好的树 $\mathcal T$
2.输出是各种非叶子节点模型, $M_j$, 其中 $\forall j \in N_{\mathcal T} \setminus L_{\mathcal T}$
3.算法流程: 对于每个样本
(i). 先划分到相应的叶子节点上 => 沿着路径去安排对应的分类器 => 根据已有路径和路径上的模型计算数最大似然
(ii). 协同计算期望和方差项 (目的是考虑bias和预估准度), 然后计算考虑了期望和方差之后的对数似然 $\mathcal L$
(iii). 更新刚才路径上所有参与计算的模型参数

Reference

[1]. Tree based Progressive Regression Model for Watch-Time Prediction in Short-video Recommendation.


转载请注明来源, from goldandrabbit.github.io

💰

×

Help us with donation