真正例、假正例、真负例、假负例、精确度、召回率快速理解

什么是“正例”？比如说，医学中癌症的良、恶性分类，“正例”是指“良性”还是“恶性”？看你自己的目标是什么，你想找恶性的就定义恶性为正例，反之就定义良性为正例，全看自己的定义。

用下面这种方式：

对于分类问题来说，可以将模型预测的结果和样本的真实类别的组合划分为真正例(True Positive,TP)、真反例(True Negative,TN)、假正例(False Positive,FP)、假反例(False Negative,FN)，其中 TP 表示模型预测为正的正样本，TN 表示模型预测为负的负样本，FP 表示模型预测为正的负样本，FN 表示模型预测为负的正样本。

本质上根据中文名字其实就可以知道了，真正例和真反例都很好理解，就是预测和实际是一样的，正例正好也被预测为正例，负例正好也被预测为负例，而假正例表示是假的正例，也就是说预测为正例的负例，预测的是错的；同理，假负例表示预测为负例实际为正例的样本。

其中精度又称为查准率：预测为正例的预测集内，正例预测正确的比率

召回率，又可称为查全率：整个正类样本中，预测正确的样本所占的比率

精度通常与另一个指标一起使用，这个指标就是召回率（recall），也称为灵敏度（sensitivity）或者真正类率（TPR）：它是分类器正确检测到的正类实例的比率.

你不能同时增加精度并减少召回率，反之亦然。这称为精度/召回率权衡。

因此我们可以很方便地将精度和召回率组合成一个单一的指标，称为F1 分数。当你需要一个简单的方法来比较两种分类器时。F1 分数是精度和召回率的谐波平均值。谐波平均值会给予较低的值更高的权重。因此，只有当召回率和精度都很高时，分类器才能得到较高的F1 分数。

单一的用recall或者precision来评价分类器也是不合理的，譬如文章开头说到的那个简单的classifier

我们通过公式可以惊奇的发现在两个样本集上的recall都是100%，这是因为所有的iphone6样本，分类器都可以把它预测对，但是准确率就大不相同了；在第一个数据集上的准确率precision为0.6，但是第二个样本集上的准确率只有可怜的0.05；对于第二个样本集的结果，我可以说classifier很好，因为recall很高，也可以说classifier不好，因为precision很低。不过很明显，这些说法都是不合理的；综合考虑两种指标才是直观的比较可靠的指标。

微平均Micro-average=(TP + FP) / (TP + TN + FP + FN)，分母就是输入分类器的预测样本个数，分子就是预测正确的样本个数（无论类别）

宏平均比微平均更合理，但也不是说微平均一无是处，具体使用哪种评测机制，还是要取决于数据集中样本分布