最近因为工作需要,涉及到了Learning to Rank的问题,这里会记录我学习中的每一个有意义的步骤。
抽象问题
想要解决一个日常生活中的问题,最关键的往往不是使用具体哪一种方法,用什么框架,而是如何把问题抽象出来?并且如何设计训练集?
那网页排名来举例,这个问题传统上是利用人为构造得分函数来实现的,比如BM25等;但近年来这一问题已经被转变为一种监督式的机器学习。
- 训练集
训练集可以表示为{(xqj,lqj)}
其中:q∈(0,n)表示querys的数量;j∈(1,mq)表示该条query所含有的文件数;xqj∈d表示query q 和第j个文档所对应的d维向量,而lqj表示xqj的相关系数。
|