|
讲原理的这篇讲得最好了:
https://www.cnblogs.com/dlml/p/4403482.html
下面补充一些直观的解释和例子:
TPR / FPR:
事实上从TPR和FPR的定义中并没有显示地指出这个Rate是相对于什么的Rate,事实上TPR的分母是*所有正例*,FPR的分母是*所有负例*。
画一个类似下图(上面那个博客链接中出现过)的图:

直观地看TPR和FPR。下图中绿色代表阈值,黄色是TN,紫色FP,粉色FN,灰色TP

TPR = 灰色/整个正样本 。 TPR越大越好
FPR = 紫色/整个负样本 。 FPR越小越好
注意到灰色和紫色都是阈值线右边的部分,也就是说都是被预测为positive的样本。对于TPR来说,绿线越靠左越好;对于FPR来说,绿线越靠右越好。阈值线从右到左的过程,就是ROC曲线从左下角到右上角的过程。

阈值线从右到左 对应 ROC曲线从左下角到右上角的点
举两个极端例子:

上图又画了两条阈值线:
①. 在所有样本左边。 TPR = 1 , FPR = 1. 所有样本都被预测为positive
②. 在所有样本右边。 TPR = 0 , FPR = 1. 所有样本都被预测为negative
再考虑最优情况下的ROC曲线,也就是正负样例完全可分的时候,AUC = 1. 样本分布如下图。可以自己模拟一下阈值线移动来构造ROC。

然后再说课题中遇到的问题,
Tobecontinued。。。
|