# 混淆矩阵

使用准确率进行模型评估的局限性
(以预测 0/1 数据为例,不用模型,直接预测结果全是 1 的准确率也可能很高)

  • 没有体现数据预测的实际分布情况
  • 没有体现模型错误预测的类型

混淆矩阵:又称误差矩阵,用于衡量分类算法的准确程度

  • True Positives (TP):预测准确、实际为正样本的数量
  • True Negatives (TN):预测准确、实际为负样本的数量
  • False Positives (FP):预测错误、实际为正样本的数量
  • False Negatives (FN):预测错误、实际为负样本的数量

更丰富的模型评估指标

指标 公式 定义
准确率(Accuracy) TP+TNTP+TN+FP+FN\frac{TP+TN}{TP+TN+FP+FN} 总样本中,预测正确的比例
错误率(Misclassification Rate) FP+FNTP+TN+FP+FN\frac{FP+FN}{TP+TN+FP+FN} 总样本中,预测错误的比例
召回率(Recall) TPTP+FN\frac{TP}{TP+FN} 正样本中,预测正确的比例
特异度(Specificity) TNTN+FP\frac{TN}{TN+FP} 负样本中,预测正确的比例
精确率(Precision) TPTP+FP\frac{TP}{TP+FP} 预测结果为正的样本中,预测正确的比例
F1 分数(F1 Score) 2×Precision×RecallPrecision+Recall\frac{2\times Precision\times Recall}{Precision+Recall} 综合 Precision 和 Recall 的指标