数据挖掘模型选择.pptx-

模型评估与选择泛化误差 vs 经验误差泛化误差在未来样本上的误差经验误差在训练集上的误差亦称训练误差训练数据模型新样本数据新样本属于什么类别过拟合 vs 欠拟合模型选择三个关键问题如何获得测试结果评估方法如何评估性能优劣性能度量如何判断实质差别比较检验评估方法关键怎么获得测试集原则测试集与训练集互斥常见方法留出法 hold out 交叉验证法 cross validation 自助法 bootstrap 留出法保持数据分布一致性例如分层采样多次重复划分例如 100次随机划分测试集不能太大不能太小例如 1 5 1 3 K 折交叉验证法当K m时则得到留一法 leave one out LOO 自助法基于自助采样 bootstrap sampling Pull up by your own bootstraps 有放回采样可重复采样训练集与原样本集同规模数据分布有所改变约有36 8 的样本不出现包外估计 out of bag estimation 模型选择三个关键问题如何获得测试结果评估方法如何评估性能优劣性能度量如何判断实质差别比较检验性能度量性能度量 performance measure 是衡量模型泛化能力的评价标准反映了任务需求使用不同的性能度量往往会导致不同的评判结果什么样的模型是好的不仅取决于算法和数据还取决于任务需求性能度量回归任务分类任务错误率与精度查准率查全率与F1 性能度量错误率与精度错误率精度性能度量查准率与查全率查准率 precision 准确率 P 预测结果中是正例的比率查全率 recall sensitivity 召回率 R 所有的正例中被正确预测出的比列 True Positive Rate TPR Sensitivity True Negative Rate TNR Specificity Positive Predictive Value PPV False Positive Rate FPR False Negative Rate FNR False Discovery Rate FDR PR图学习器A优于学习器C 学习器B优于学习器C 学习器A 学习器B 平衡点 BEP Break Even Point 学习器A优于学习器B 学习器A优于学习器C 学习器B优于学习器C 性能度量 F1度量性能度量 ROC与AUC 集成学习定义通过构建并结合多个学习器来完成学习任务又称为多分类学习器系统基于委员会的学习等两大类个体学习器间存在强依赖关系必须串行生产的序列化方法 Boosting 个体学习器间不存在强依赖关系可同时生成的并行化方法 Bagging and Random Forest 集成学习随机森林 Bagging 策略 bootstrap aggregation 从样本集中重采样有重复的选出n个样本在所有属性上对这n个样本建立分类器 ID3 C4 5 CART SVM Logistic回归等重复以上两步m次即获得了m个分类器将数据放在这m个分类器上最后根据这m个分类器的投票结果决定数据属于哪一类随机森林在bagging基础上做了修改从样本集中用Bootstrap采样选出n个样本从所有属性中随机选择k个属性选择最佳分割属性作为节点建立CART决策树重复以上两步m次即建立了m棵CART决策树这m个CART形成随机森林通过投票表决结果决定数据属于哪一类投票机制简单投票机制一票否决一致表决少数服从多数有效多数加权阈值表决贝叶斯投票机制但也可以使用SVM Logistic回归等其他分类器习惯上这些分类器组成的总分类器仍然叫做随机森林