KDD2020 | 揭秘Facebook搜索中的语义检索技术

<div id="js_content">
<img src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-6471c4539f187ac897d61d1424efa97a">
星标/置顶小屋，带你解锁
最萌最前沿的NLP、搜索与推荐技术
文 | 江城 
编 | 可盐可甜兔子酱
<hr>
导读：今天分享一下 Facebook 发表在 KDD2020 的一篇关于社交网络搜索中的 embedding 检索问题的工作，干货很多，推荐一读。
<img src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-82e29c7ba461c64fd6c542cdb7ef48fc">
论文题目： Embedding-based Retrieval in Facebook Search 论文链接： https://arxiv.org/abs/2006.11632 Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【0731】下载论文PDF~
<hr>
相对于传统的网页搜索，社交网络中的搜索问题不仅需要关注输入 query 的信息，还需要考虑用户的上下文信息，在 Facebook 搜索场景中用户的社交图网络便是这种上下文信息中非常重要的一部分。
怎么把各式各样的信息进行融合呢？
虽然语义检索技术（Embedding-based Retrieval，EBR）在传统的搜索引擎中得到了广泛应用，但是 Facebook 搜索之前主要还是使用布尔匹配模型，本文就来谈谈如何将 Embedding 检索技术应用在 Facebook 搜索场景中。
文中共介绍了三方面的经验：
<ol><li>提出了一套统一的 embedding 框架用于建模个性化搜索中的语义</li><li>提出了基于经典的倒排索引进行在线 embedding 检索的系统</li><li>讨论了整个个性化搜索系统中很多端对端的优化技巧，例如最近邻搜索调参经验、全链路优化等</li></ol>
最后，在Facebook 垂直搜索场景下验证了本文方法的有效性，在线上 A/B 实验取得了显著的收益。
<h1>背景</h1>
从 query 中准确计算出用户的搜索意图以及准确表征文档的语义是非常困难的。之前的搜索算法主要还是通过关键词匹配的方式进行检索，但是对于字面不匹配但是语义相似的 case 基于关键词匹配的方法就不奏效了。而通过 embedding 可以建模句子之间的语义相似度，所以基于 embedding 的语义检索就应运而生了。
<blockquote>
所谓 embedding 就是将高维稀疏的 id 映射成为一个低维稠密的向量，这样就可以在同一个向量空间中同时表示query 和候选集文档，从而进行譬如计算相似度等方面的操作。
</blockquote>
一般来说，搜索主要包含检索和排序两个阶段。尽管 embedding 技术可以同时被应用在两个阶段，但相对来说应用在召回阶段可以发挥出更大的作用。简单来说，EBR 就是用 embedding 来表示 query 和 doc，然后将检索问题转化为一个在 Embedding 空间的最近邻搜索的问题。它要解决的问题是如何从千万个候选集中找到最相关的 topK 个，难点有如下的两个：一方面是如何构建千万级别的超大规模索引以及如何在线上进行服务；另一方面是如何在召回阶段同时考虑语义信息和关键词匹配信息。
本文从三个方面详细讲述了在 Facebook 搜索中应用 Embedding 检索技术遇到的挑战：
<ul><li>modeling: 本文提出了一套统一的 Embedding 模型框架，也就是经典的双塔结构，一侧是抽取用户侧 query 特征；另一侧则是抽取 document 侧的特征。</li><li>serving: 为了优化系统检索和排序的综合效果，Facebook 提出了将 EBR 的 embedding 作为特征整合进 ranking 模型中，以及创建了一套数据反馈机制，以便更好地识别和利用 EBR 的召回结果。</li><li>full-stack optimization: 针对实际的搜索效果优化提出了多个实用的 tricks。</li></ul>
<img src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-9d61874df518b084b75f3e744b7ec9d7">
<h1>系统建模</h1>
本文将搜索引擎中的检索任务建模为一个召回优化问题。从离线指标的角度，我们希望最大化 topK 返回结果的recall 指标。给定一个 query，以及期望被检索到的目标文档集合 T，T 中包含的文档可以来自用户的点击数据，也可以是经过人工筛选排序后的文档，我们的优化目标则是 recall@K。
<img src="https://201907.oss-cn

KDD2020 | 揭秘Facebook搜索中的语义检索技术

浏览过的版块