深度CTR预估模型的演化之路2019最新进展

<div>
<img alt="640?wx_fmt=png" class="rich_pages" src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-dba7383ec818d79661b6530e02ae0d66">
</div>
<div>
<br>
</div>
<div>
作者 | 锅逗逗
</div>
<div>
来源 | 深度传送门（ID: deep_deliver）
</div>
<div>
<strong><br></strong>
</div>
<div>
<strong>导读</strong>：本文主要介绍深度CTR经典预估模型的演化之路以及在2019工业界的最新进展。
<br>
</div>
<p></p>
<div>
<strong>介绍</strong>
</div>
<p></p>
<div>
在计算广告和推荐系统中，点击率（Click Through Rate，以下简称CTR）预估是一个重要问题。在CTR预估任务中（以下简称CTR任务），我们通常利用user信息、item信息和context信息来预测user对item的CTR。
</div>
<p></p>
<div>
传统CTR预估任务采用的方法不外乎特征工程+LR/FM的组合，这种通过大量特征工程来提高预测效果的工作费时费力，且构造过程不具有通用性。此外，传统的人工特征工程处理开放式的特征（如用户ID）似乎难如登天，而这些特征往往能够为模型提供许多正向的收益。
</div>
<p></p>
<div>
随着深度学习的发展，近年来越来越多的深度学习模型被应用到CTR任务中来。Wide&Deep、DeepFM等模型相信大家都耳熟能详，DIN、DIEN等结合用户历史行为的模型最近更是被人津津乐道。
</div>
<p></p>
<div>
本文主要关注利用仅根据user信息、item信息、context信息，不考虑用户历史信息的“传统”深度CTR模型的演化过程，希望通过梳理，大家能够对近年来深度学习模型在CTR任务上的探索有一个大体的认知。
</div>
<p></p>
<div>
<strong>深度CTR模型的基本框架</strong>
</div>
<p></p>
<div>
典型的深度CTR模型可以分成以下四个部分：输入、特征嵌入（Embedding）、特征交互（有时候也称为特征提取）和输出。
</div>
<div>
<img alt="640?wx_fmt=jpeg" src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-9ae206d8877fe051ba28abecf6c3dd6c">
</div>
<div>
<strong>输入</strong>
：输入通常包含若干个<特征ID, 特征值>对，当然也可以One-Hot Encoding展开（如上图所示）。
</div>
<p></p>
<div>
<strong>特征嵌入（Embedding）</strong>
：在CTR任务中数据特征呈现高维、稀疏的特点，假设特征数为N，直接将这些特征进行One-Hot Encoding会产生巨大的参数数量。以FM的二阶项为例子，如一万个特征，两两构造二阶特征时将会产生一亿规模的特征权重参数。
</div>
<p></p>
<div>
<strong>Embedding可以减小模型复杂度</strong>，具体过程如下：
</div>
<p></p>
<div>
通过矩阵乘法将1*N的离散特征向量通过维度为N*k的参数矩阵W压缩成1*k的低维度稠密向量，通常k<<N，参数从N^2降到N*k。
</div>
<p></p>
<div>
此外，在CTR任务中特征常以<strong>分组</strong>（group, 有时也称领域field）的离散特征信息，如user gender、item category等，在从FM推演各深度学习CTR预估模型（附代码）[1]中提到“将特征具有领域关系的特点作为先验知识加入到神经网络的设计中去：同领域的特征嵌入后直接求和作为一个整体嵌入向量”。沿用这样的方法基于以下三个原因：
</div>
<ol class="list-paddingleft-2"><li>
  <div>
经分组特征嵌入后送入后续模块得到的是定长向量，且特征组个数<<特征数，减少后续模块的参数量。
  </div></li><li>
  <div>
不同组的嵌入维度（即上文中的k）可以不同，可以根据特征组内的特征个数合理设计嵌入维度。
  </div></li><li>
  <div>
如果特征组的嵌入维度相同，则不同特征组间的嵌入向量可以两两组合得到大有裨益的二阶特征信息。
  </div></li></ol>
<p></p>
<div>
<strong>特征交互：</strong>
<strong></strong><strong></strong>经过特征嵌入可以获得稠密向量，在特征交互模块中设计合理的模型结构将稠密向量变成标量，该模块直接决定模型的质量好坏。本文接下来的内容将重点介绍这个模块的设计过程。
</div>
<p></p>
<div>
<strong>输出：</strong>
将特征交互模块输出的标量用sigmoid函数映射到[0, 1]，即表示CTR。
</div>
<p></p>
<div>
<strong>万丈高楼平地起：LR、FM、Embedding+MLP</strong>
</div>
<p></p>
<div>
<strong>LR: Logistic Regression</strong><strong></strong>
</div>
<p></p>
<div>
不积跬步无以至千里，从最简单的LR模型说起。一言以蔽之，LR将特征加权求和并经sigmoid即得到CTR值，在深度CTR模型的基本框架下的LR表示如下图：
</div>
<div>
<img alt="640?wx_fmt=jpeg" src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-697b267806d8f078a906860dc3db7cb3">
</div>
<div>
其中嵌入部分的维度大小均为1；特征交互中具体工作是将嵌入部分