资源预览内容
第1页 / 共31页
第2页 / 共31页
第3页 / 共31页
第4页 / 共31页
第5页 / 共31页
第6页 / 共31页
第7页 / 共31页
第8页 / 共31页
第9页 / 共31页
第10页 / 共31页
亲,该文档总共31页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1模式识别与机器学习模式识别与机器学习w任课教师:李冰锋w单位:电气工程及自动化学院w办公室:D507w电话:156391796902第二章 基本监督学习算法模式识别与机器学习模式识别与机器学习感知机算法2024/9/2132.1 2.1 监督学习基本概念监督学习基本概念样本空间将每个对象的 个特征构成的向量 称为该对象的特征向量。设 是特征向量的所有可能取值构成的集合,称 为样本空间。标签空间在监督学习中,每个训练数据含有一个数值标签 。设 为全体可能的标签取值,称 为标签空间。假设空间监督学习目的是学习一个由输入到输出的映射,称为模型。模型的集合就是假设空间。4训练集:测试集:独立同分布(I.I.D)2.1 2.1 监督学习基本概念监督学习基本概念2024/9/2152.2 2.2 感知机算法感知机算法 感知机(Perceptron)于1957年由Rosenblatt提出,它是神经网络与支持向量机的基础。o输入为样本的特征向量,输出为样本的类别为+1和-1;o感知机是在输入空间中将样本划分为正、负两类的分离 超平面,属于判别模型;o感知机学习算法具有简单而易于实现的优点,分为 原始形式和对偶形式。2024/9/216山鸢尾维吉尼亚鸢尾变色鸢尾三种鸢尾花区别很明显,主要体现在花瓣和花萼上。1、单株鸢尾花的植物学特征包含花瓣(petals)的长度和宽度、花萼(sepals)的长度和宽度,单位CM;2、标签则确定了此鸢尾花所属品种:山鸢尾(0)、变色鸢尾(1)、维吉尼亚鸢尾(2)。2.2 2.2 感知机算法感知机算法2024/9/217利用花萼长、宽这两个特征预测给定鸢尾花是否为山鸢尾2.2 2.2 感知机算法感知机算法2024/9/218假设输入空间是 ,输出空间是 ;输入 表示样本的特征向量,对应于输入空间的点,输出 表示样本的类别;由输入空间到输出空间的函数:符号函数:模型参数:权值向量 ,偏置 ,未知。2.2.1 2.2.1 感知机模型感知机模型2024/9/219o分离超平面方程:o分离超平面方程法线方向o空间内任一点到超平面距离o对于误分类的样本-损失函数o已经被正确分类的花,对于寻找的权重无意义2.2.1 2.2.1 感知机模型感知机模型2024/9/2110一般情况下,损失函数的 取值0最优情况下,损失函数的 取值=02.2.1 2.2.1 感知机模型感知机模型2024/9/2111o梯度下降法凸函数&凸优化2.2.2 2.2.2 感知机模型求解感知机模型求解2024/9/2112o采用误分类点的数目作为损失函数,直观但关于未知量非连续可导,难以优化。o采用误分类点到超平面的总距离作为损失函数,关于未知量连续可导,容易优化。-优化方法优化方法2.2.2 2.2.2 感知机模型求解感知机模型求解2024/9/2113o求解最优化问题o梯度下降法o最优模型2.2.2 2.2.2 感知机模型求解感知机模型求解2024/9/21142.2.3 2.2.3 感知机模型代码实现感知机模型代码实现2024/9/2115Precision = 98.3%Precision = 98.3%2.2.3 2.2.3 感知机模型代码实现感知机模型代码实现2024/9/2116testtestpredictpredict2.2 2.2 感知机模型感知机模型2024/9/2117 经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。o感知机模型的收敛性2.2 2.2 感知机模型感知机模型2024/9/2118误分类的次数k是有上界的,当训练数据集线性可分时,感知机学习算法原始形式迭代是收敛的。感知机算法存在许多解,既依赖于初值,也依赖迭代过程中误分类点的选择顺序。为得到唯一分离超平面,需要增加约束,如SVM。对于线性不可分数据集,迭代震荡。 2.2 2.2 感知机模型感知机模型2024/9/21192.2 2.2 感知机模型感知机模型2024/9/21202.2 2.2 感知机模型感知机模型2024/9/2121实现统计学习方法的步骤如下 : 1.得到一个有限的训练数据集合; 2.确定包含所有可能的模型的假设空间,即学习模型的集合:3.确定模型选择的准则,即学习的策略;4.实现求解最优模型的算法,即学习的算法;5.通过学习方法选择最优模型;6.利用学习的最优模型对新数据进行预测或分析。 2.2 2.2 感知机模型感知机模型2024/9/21222.3 2.3 分类问题的评价指标分类问题的评价指标TP(true positive)FP(false positive)FN(false negative)TN(true negative)confusion_matrix2024/9/21232.3 2.3 分类问题的评价指标分类问题的评价指标精确率(Precision)在被所有预测为正的样本中实际为正样本的概率2024/9/21242.3 2.3 分类问题的评价指标分类问题的评价指标召回率(Recall)在实际为正的样本中被预测为正样本的概率在实际为正的样本中被预测为正样本的概率2024/9/21252.3 2.3 分类问题的评价指标分类问题的评价指标 实际 有贼无贼预测报警TPFP不报警FNTN精度低 or 召回率低 可接受哪个?2024/9/21262.3 2.3 分类问题的评价指标分类问题的评价指标精度低 or 召回率低 可接受哪个? 实际放心不放心 预测放心TPFP不放心FNTN2024/9/21272.3 2.3 分类问题的评价指标分类问题的评价指标2024/9/2128Roc曲线2.3 2.3 分类问题的评价指标分类问题的评价指标计算多个不同阈值下的Tpr和Frp,然后绘制曲线。2024/9/2129ROC曲线是通过遍历所有阈值来绘制曲线的。通过遍历所有阈值,预测的正样本和负样本是在不断变化的,相应的ROC曲线TPR和FPR也会沿着曲线滑动。Roc曲线2.3 2.3 分类问题的评价指标分类问题的评价指标2024/9/2130AUC(Area Under Curve) 表示ROC中曲线下的面积,用于判断模型的优劣。理想值是1,即正方形。所以AUC的值一般是介于0.5和1之间的。AUC评判标准可参考如下:0.5-0.7:效果较低。0.7-0.85:效果一般。0.85-0.95:效果很好。0.95-1:效果非常好。2.3 2.3 分类问题的评价指标分类问题的评价指标Roc曲线2024/9/21312.3 2.3 分类问题的评价指标分类问题的评价指标
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号