不平衡分类
分类是一种有监督的学习技术,用于对分类结果进行预测分析,它可以是一个二分类或多分类。
目前,关于分类的研究和应用案例很多,从基础到高级的算法有logistic回归、LDA、朴素贝叶斯、决策树、随机林、支持向量机、神经网络等,它们都得到了很好的发展,并成功地应用于许多应用领域。
然而,数据集的不平衡类分布对于大多数假设相对均衡分布的分类学习算法来说遇到了严重困难。
所有的模型都是错误的,但有些是有用的 -George E. P. Box。
此外,当一个类(通常是更感兴趣的类,即正类或少数类)没有得到充分的表示时,数据集中的类分布就会出现不平衡。这意味着其中一个类比另一个类小得多。它发生在我们研究一种罕见的现象时,比如医学诊断、风险管理、骗局检测等等。
混淆矩阵概述
在深入讨论不平衡分类和如何处理这一情况之前,如果我们有混淆矩阵的基础就更好。
根据Kohavi和Provost(1998)的说法,混淆矩阵包含了由分类算法进行的实际分类和预测分类的信息。通常使用矩阵中的数据来评估此类算法的性能。下表显示了两类分类器的混淆矩阵。
使用分类器的分类将有四种可能的结果,如下所示。
真正例或TP-模型正确预测正例的结果假正例或FP(I型错误)-模型错误预测正例的结果真反例或TN-模型正确预测反例的结果假反例或FN(II型错误)-模型错误预测反例的结果在这里阅读更多关于类型I错误和类型II错误的信息:https://en.wikipedia.org/wiki/Type_I_and_type_II_errors#:~:text=In%20statistical%20hypothesis%20testing%2C%20a,false%20negative%22%20finding%20or%20conclusion 。
此外,为了在分类情况下评估我们的机器学习模型或算法,有一些评估指标需要探索,但如果我们遇到不平衡的类,这是很棘手的。
准确度-正确预测的样本与总样本的比率召回率或敏感度-正确预测的正例样本与实际上所有正例样本的比率特异性-正确预测的反例样本与实际类别中所有反例样本的比率精确度-正确预测的正例样本与总预测正例样本的比率F1分数-精确度和召回率的调和平均数。因此,这个分数同时考虑了假正例和假反例注意:不产生假正例的模型的精确度为1.0,而不产生假反例的模型的召回率为1.0。
对于不平衡分类,我们必须选择正确的评价指标,并在其有效和无偏的条件下使用。这意味着这些评估指标的值必须代表数据的实际情况。例如,在不平衡分类中,由于类别分布的不同,分类的准确性实际上会有偏差。看看下面的研究案例来理解上面的陈述。
平衡分类
假设我们是一家科技公司的数据科学家,要求开发一个机器学习模型来预测我们的客户是否会流失。我们有165个客户,其中105个客户被归类为非客户流失,其余客户被归类为客户流失。该模型产生如下给定结果。
作为一种平衡分类,准确度可能是评价的无偏指标。它正确地表示了模型在均衡类分布上的性能。在这种情况下,准确度与查全率、特异性、准确度等有很高的相关性。
不平衡分类
与前面的案例类似,但是我们修改了客户的数量来构建不平衡分类。目前,共有450个客户,其中15个客户被归类为客户流失,其余435个客户被归类为非客户流失。该模型产生如下给定结果。
从上述混淆矩阵的准确度来看,由于类别分布的不平衡,这个结论可能会产生误导。当算法的准确度达到0.98时,会发生什么变化?
在这种情况下,准确度会有偏差。它不能代表模型的性能。准确率很高,但召回率很低。此外,由于模型或算法不产生假正例,因此特异度和精确度均为1.0。这是分类不平衡的后果之一。然而,F1分数将是模型性能的真实表现,因为它在计算中考虑了召回率和精确度。
注:要将数据分为正例和负例,目前还没有一个严格的策略。
除了上面提到的一些评估指标外,还有两个重要指标需要理解,如下所示。
假正例率-错误预测的正例样本与实际类正例样本的比率假反例率-错误预测的反例样本与实际类别中所有样本的比率-反例分类的默认阈值
为了比较评价指标的使用情况,确定不平衡分类的概率阈值,我们模拟生成了10000个样本,其中包含两个变量,即依赖变量和独立变量,主要类和次要类的比例约为99:1。毫无疑问,它属于不平衡的分类。
为了处理不平衡类,提出了阈值移动作为处理不平衡类的替代方法。从理论上讲,删除样本或对某一数据进行重采样都有其自身的风险,比如创建一个新的样本实际上并不出现在数据中,减少了数据本身有价值的信息,因为产生了无用信息。
# 导入数据操作模块 import pandas as pd # 导入线性代数模块 import numpy as np #导入数据模拟模块 from sklearn.datasets import make_classification # 创建一个合成数据帧 from sklearn.linear_model import LogisticRegression # 分类模型 from sklearn.model_selection import train_test_split # 分割数据帧 from sklearn.metrics import roc_curve # 计算ROC曲线 from sklearn.metrics import Precision_Recall_curve # 计算精确召回曲线 from sklearn.metrics import f1_score # 计算f分数 # 导入数据可视化模块 from plotnine import * import plotnine # 生成数据集 X, y = make_classification(n_samples = 10000, n_features = 2, n_redundant = 0, n_clusters_per_class = 1, weights = [0.99], flip_y = 0, random_state = 0) # 数据划分 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0, stratify=y) # 拟合模型 reglogModel = LogisticRegression(random_state = 0) reglogModel.fit(X_train, y_train) # 预测概率 y_pred = reglogModel.predict_proba(X_test) # 获取正类的概率 y_pred = y_pred[:, 1]
寻找最佳阈值的ROC曲线
ROC曲线是一个二维图,它说明了在预测变量的范围内,当判别的阈值发生变化时,分类器系统的工作情况如何。
X轴或自变量是假正例率。Y轴或因变量是真正例率。一个完美的结果是点(0,1),表示0%假正例和100%真正例。
值得注意的是,越靠近ROC空间的左上侧,分类器就越好。此外,对角线上的所有分类器都具有随机行为,因此应该丢弃这条直线下的分类器。
# 创建ROC曲线 fpr, tpr, thresholds = roc_curve(y_test, y_pred) # 绘制ROC曲线 df_fpr_tpr = pd.DataFrame({'FPR':fpr, 'TPR':tpr, 'Threshold':thresholds}) df_fpr_tpr.head() # 创建数据 plotnine.options.figure_size = (8, 4.8) ( ggplot(data = df_fpr_tpr)+ geom_point(aes(x = 'FPR', y = 'TPR'), size = 0.4)+ geom_line(aes(x = 'FPR', y = 'TPR'))+ labs(title = 'ROC Curve')+ xlab('False Positive Rate')+ ylab('True Positive Rate')+ theme_minimal() )
几何平均数
几何平均数或G-平均数是灵敏度(称为召回率)和特异性的几何平均数。
这项措施试图最大限度地提高每个类的准确性,同时保持这些精度平衡。因此,它将成为非平衡分类的无偏评价指标之一。
# 计算G-mean gmean = np.sqrt(tpr * (1 - fpr)) # 查找最佳阈值 index = np.argmax(gmean) thresholdOpt = round(thresholds[index], ndigits = 4) gmeanOpt = round(gmean[index], ndigits = 4) fprOpt = round(fpr[index], ndigits = 4) tprOpt = round(tpr[index], ndigits = 4) print('Best Threshold: {} with G-Mean: {}'.format(thresholdOpt, gmeanOpt)) print('FPR: {}, TPR: {}'.format(fprOpt, tprOpt)) # 创建数据 plotnine.options.figure_size = (8, 4.8) ( ggplot(data = df_fpr_tpr)+ geom_point(aes(x = 'FPR', y = 'TPR'), size = 0.4)+ # 最佳阈值 geom_point(aes(x = fprOpt, y = tprOpt), color = '#981220', size = 4)+ geom_line(aes(x = 'FPR', y = 'TPR'))+ geom_text(aes(x = fprOpt, y = tprOpt), label = 'Optimal threshold n for class: {}'.format(thresholdOpt), nudge_x = 0.14, nudge_y = -0.10, size = 10, fontstyle = 'italic')+ labs(title = 'ROC Curve')+ xlab('False Positive Rate (FPR)')+ ylab('True Positive Rate (TPR)')+ theme_minimal() )
以G-均值作为无偏评价指标,以阈值移动为重点,生成二分类的最优阈值为0.0131。理论上,当观测值的概率低于0.0131时,将被归为次要类别,反之亦然。
约登指数
约登指数将敏感性和特异性结合为一个单一的测量值(敏感性+特异性-1),其值介于0和1之间。约登指数常与ROC分析结合使用。
对于单个决策阈值,它也相当于对角线上方到ROC曲线的垂直距离。
# 计算约登指数 youdenJ = tpr - fpr # 找到最佳阈值 index = np.argmax(youdenJ) thresholdOpt = round(thresholds[index], ndigits = 4) youdenJOpt = round(gmean[index], ndigits = 4) fprOpt = round(fpr[index], ndigits = 4) tprOpt = round(tpr[index], ndigits = 4) print('Best Threshold: {} with Youden J statistic: {}'.format(thresholdOpt, youdenJOpt)) print('FPR: {}, TPR: {}'.format(fprOpt, tprOpt)) # 创建数据图 plotnine.options.figure_size = (8, 4.8) ( ggplot(data = df_fpr_tpr)+ geom_point(aes(x = 'FPR', y = 'TPR'), size = 0.4)+ # 最佳阈值 geom_point(aes(x = fprOpt, y = tprOpt), color = '#981220', size = 4)+ geom_line(aes(x = 'FPR', y = 'TPR'))+ # 注释 geom_text(aes(x = fprOpt, y = tprOpt), label = 'Optimal threshold for n negative class {}'.format(thredholdOpt), nudge_x = 0.14, nudge_y = -0.10, size = 10, fontstyle = 'italic')+ labs(title = 'ROC Curve')+ xlab('False Positive Rate (FPR)')+ ylab('True Positive Rate (TPR)')+ theme_minimal() )
约登指数给出的阈值结果与使用G-均值的结果相等。最佳阈值为0.0131。
寻找最佳阈值的精确召回曲线
精确度-查全率曲线显示了不同阈值下精确度和查全率之间的折衷。曲线下的高区域表示高召回率和高精度,其中高精度表示低假正例率,高召回率表示低假反例率。
# 创建PR曲线 precision, recall, thresholds = precision_recall_curve(y_test, y_pred) # 绘制ROC曲线 df_recall_precision = pd.DataFrame({'Precision':precision[:-1], 'Recall':recall[:-1], 'Threshold':thresholds}) df_recall_precision.head() # 创建数据图 plotnine.options.figure_size = (8, 4.8) ( ggplot(data = df_recall_precision)+ geom_point(aes(x = 'Recall', y = 'Precision'), size = 0.4)+ geom_line(aes(x = 'Recall', y = 'Precision'))+ labs(title = 'Recall Precision Curve')+ xlab('Recall')+ ylab('Precision')+ theme_minimal() )
有几个评估指标可以作为计算的主要焦点。它们是G-均值、F1分数等,只要它们是不平衡分类的无偏度量,就可以应用于计算中。
# 计算F分数 fscore = (2 * precision * recall) / (precision + recall) # 找到最佳阈值 index = np.argmax(fscore) thresholdOpt = round(thresholds[index], ndigits = 4) fscoreOpt = round(fscore[index], ndigits = 4) recallOpt = round(recall[index], ndigits = 4) precisionOpt = round(precision[index], ndigits = 4) print('Best Threshold: {} with F-Score: {}'.format(thresholdOpt, fscoreOpt)) print('Recall: {}, Precision: {}'.format(recallOpt, precisionOpt)) # 创建数据图 plotnine.options.figure_size = (8, 4.8) ( ggplot(data = df_recall_precision)+ geom_point(aes(x = 'Recall', y = 'Precision'), size = 0.4)+ # 最佳阈值 geom_point(aes(x = recallOpt, y = precisionOpt), color = '#981220', size = 4)+ geom_line(aes(x = 'Recall', y = 'Precision'))+ # 注释 geom_text(aes(x = recallOpt, y = precisionOpt), label = 'Optimal threshold n for class: {}'.format(thresholdOpt), nudge_x = 0.18, nudge_y = 0, size = 10, fontstyle = 'italic')+ labs(title = 'Recall Precision Curve')+ xlab('Recall')+ ylab('Precision')+ theme_minimal() )
使用精确召回率曲线和F1分数,它产生了0.3503这个阈值来确定一个给定的观察是属于大类还是小类。由于方法的不同,它与以前使用ROC曲线的技术有很大的不同。
附加方法-阈值调整
阈值调整是确定非平衡分类最优阈值的常用方法。阈值序列是由研究者根据需要生成的,而以往的方法是利用ROC和精确度&召回率来生成阈值序列。其优点是可以根据需要定制阈值序列,但计算量较大。
# 查找最佳阈值的数组 thresholds = np.arange(0.0, 1.0, 0.0001) fscore = np.zeros(shape=(len(thresholds))) print('Length of sequence: {}'.format(len(thresholds))) # 拟合模型 for index, elem in enumerate(thresholds): # 修正概率 y_pred_prob = (y_pred > elem).astype('int') # 计算f值 fscore[index] = f1_score(y_test, y_pred_prob) # 查找最佳阈值 index = np.argmax(fscore) thresholdOpt = round(thresholds[index], ndigits = 4) fscoreOpt = round(fscore[index], ndigits = 4) print('Best Threshold: {} with F-Score: {}'.format(thresholdOpt, fscoreOpt)) # 绘制阈值 df_threshold_tuning = pd.DataFrame({'F-score':fscore, 'Threshold':thresholds}) df_threshold_tuning.head() plotnine.options.figure_size = (8, 4.8) ( ggplot(data = df_threshold_tuning)+ geom_point(aes(x = 'Threshold', y = 'F-score'), size = 0.4)+ # 最佳阈值 geom_point(aes(x = thresholdOpt, y = fscoreOpt), color = '#981220', size = 4)+ geom_line(aes(x = 'Threshold', y = 'F-score'))+ # 注释 geom_text(aes(x = thresholdOpt, y = fscoreOpt), label = 'Optimal threshold n for class: {}'.format(thresholdOpt), nudge_x = 0, nudge_y = -0.10, size = 10, fontstyle = 'italic')+ labs(title = 'Threshold Tuning Curve')+ xlab('Threshold')+ ylab('F-score')+ theme_minimal() )
语法**np.arrange(0.0, 1.0, 0.0001)**表示有10000个阈值候选。利用循环机制,以最大化F1分数作为无偏度量,寻找最优阈值。最后停止循环,打印出最佳阈值0.3227。
结论
机器学习算法主要适用于均衡分类,因为其算法假设使用目标变量的均衡分布。
此外,准确率不再与不平衡的情况有关,它是有偏见的。因此,必须将重点转向无偏度量,如G-均值、F1分数等。使用ROC曲线、精确召回曲线、阈值调整可以作为处理不平衡分布的替代方案,因为重采样技术似乎对业务逻辑没有意义。但是,选项是开放的,实现必须考虑业务需求。
参考引用
[1] A. Ali, S.M. Shamsuddin, A. Ralescu. Classification with class imbalance problem: a review (2013). International Journal of Soft Computing and Its Applications. 5(3): 1–30.
[2] Anonim. Confusion Matrix*(2020). https://www.ic.unicamp.br/.
[1] A. Wong, M.S. Kamel. Classification of imbalanced data: a review (2011). International Journal of Pattern Recognition and Artificial Intelligence. 23(4): 687–719.
[3] J. Brownlee. A Gentle Introduction to Threshold-Moving for Imbalanced Classification (2020). https://machinelearningmastery.com/.
[4] N. Smits. A note on Youden’s Jand its cost ratio (2010). BMC Med Res Methodol 10(89). https://doi.org/10.1186/1471-2288-10-89.
[5] S. Yang, G. Berdine. The receiver operating characteristic (ROC) curve(2017). The Southwest Respiratory and Critical Care Chronicles. 5(19):34–36.
[6] S. Visa, B. Ramsay, A. Ralescu, E.v.d. Knaap. Confusion matrix-based feature selection (2011). Proceedings of The 22nd Midwest Artificial Intelligence and Cognitive Science Conference 2011, Cincinnati, Ohio, USA. April 16–17, 2011.
[7] T. Fawcett. Introduction to ROC analysis (2006). Pattern Recognition Letters. 27(8):861–874.
还没有评论,来说两句吧...