机器学习-指标

目录：

精确率
召回率
F1 Score
support

示例

                    precision    recall  f1-score   support
  news_agriculture       0.86      0.88      0.87      3908
          news_car       0.92      0.92      0.92      7101
      news_culture       0.83      0.85      0.84      5719
          news_edu       0.89      0.89      0.89      5376
news_entertainment       0.86      0.88      0.87      7908
      news_finance       0.81      0.79      0.80      5409
         news_game       0.91      0.88      0.89      5899
        news_house       0.91      0.91      0.91      3463
     news_military       0.86      0.82      0.84      4976
       news_sports       0.93      0.93      0.93      7611
        news_story       0.83      0.82      0.83      1308
         news_tech       0.84      0.86      0.85      8168
       news_travel       0.80      0.80      0.80      4252
        news_world       0.79      0.81      0.80      5370
             stock       0.00      0.00      0.00        70
----人工分界线----------------------------------------------
          accuracy                           0.86     76538
         macro avg       0.80      0.80      0.80     76538
      weighted avg       0.86      0.86      0.86     76538

报告上线分两部分，上面每个预测类型一行数据。下面三行是汇总指标

分类信息

精确率（Precision）

模型预测100个是A，这100个里面有80个的确是A，20个不是A，准确率：80/100=0.8

精确率衡量的是模型预测为正例的样本中实际为正例的比例。它可以通过以下公式计算：
精确率 = TP / (TP + FP)
其中，TP（True Positive）表示模型正确预测为正例的样本数量，FP（False Positive）表示模型错误预测为正例的负例样本数量。精确率的取值范围是0到1，较高的精确率表示模型的预测结果中更多的正例是正确的。

召回率（Recall）

模型预测100个是A，其中有80个是A，20个是C，还有另外20个A被预测

召回率衡量的是模型正确识别出的正例样本在所有实际正例样本中的比例。它可以通过以下公式计算：
召回率 = TP / (TP + FN)
其中，TP（True Positive）表示模型正确预测为正例的样本数量，FN（False Negative）表示模型错误预测为负例的正例样本数量。召回率的取值范围是0到1，较高的召回率表示模型能够更好地捕捉到正例样本。

F1值(F1Score)

F1值是精确率和召回率的综合指标，用于综合评估模型的性能。它是精确率和召回率的调和平均值，可以通过以下公式计算：
F1值 = 2 * (精确率 * 召回率) / (精确率 + 召回率)
F1值的取值范围也是0到1，较高的F1值表示模型在精确率和召回率之间取得了较好的平衡。

Support

支持度表示每个类别在数据集中的样本数量。在多分类问题中，支持度表示每个类别的样本数量，用于评估数据集中各个类别的平衡情况。支持度越高，表示该类别在数据集中的样本越多。

汇总

第一行

Accuracy（准确性），只有一个指标，虽然在F1 Score列，但不是F1分数。而是：模型总共判断对的分类/模型测试的样本数，也就是模型的整体准确率。

第二行

Macro Average（宏平均），上面所有分类sum(指标值)/分类个数。当数据分类不平衡时，帮助我们衡量模型的效果。

比如，数据中A得占比99%，B的占比1%。当A的准去率有98%时，B的准确率只有50%。通过宏平均来看，模型的准确率：74%（质量不太好，一般80%以上算好）

第三行

Weighted Average（加权平均），也就是我们把每一个指标，按照分类里面支持的样本量加权，算出来的一个值。无论是 Precision、Recall 还是 F1 Score 都要这么按照各个分类加权平均一下。