机器学习的定义-－金锄头文库

-机器学习的定义从广义上来说，机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。机器学习的围其实，机器学习跟模式识别，统计学习，数据挖掘，计算机视觉，语音识别，自然语言处理等领域有着很深的联系。从围上来说，机器学习跟模式识别，统计学习，数据挖掘是类似的，同时，机器学习与其他领域的处理技术的结合，形成了计算机视觉、语音识别、自然语言处理等穿插学科。因此，一般说数据挖掘时，可以等同于说机器学习。同时，我们平常所说的机器学习应用，应该是通用的，不仅仅模式识别模式识别=机器学习。两者的主要区别在于前者是从工业界开展起来的概念，后者那么主要源自计算机学科。在著名的Pattern Recognition And Machine Learning这本书中，Christopher M. Bishop在开头是这样说的模式识别源自工业界，而机器学习来自于计算机学科。不过，它们中的活动可以被视为同一个领域的两个方面，同时在过去的10年间，它们都有了长足的开展。数据挖掘数据挖掘=机器学习+数据库。这几年数据挖掘的概念实在是太耳熟能详。几乎等同于炒作。但凡说数据挖掘都会吹嘘数据挖掘如何如何，例如从数据中挖出金子，以及将废弃的数据转化为价值等等。但是，我尽管可能会挖出金子，但我也可能挖的是石头啊。这个说法的意思是，数据挖掘仅仅是一种思考方式，告诉我们应该尝试从数据中挖掘出知识，但不是每个数据都能挖掘出金子的，所以不要神话它。一个系统绝对不会因为上了一个数据挖掘模块就变得无所不能(这是IBM最喜欢吹嘘的)，恰恰相反，一个拥有数据挖掘思维的人员才是关键，而且他还必须对数据有深刻的认识，这样才可能从数据中导出模式指引业务的改善。大局部数据挖掘中的算法是机器学习的算法在数据库中的优化。统计学习统计学习近似等于机器学习。统计学习是个与机器学习高度重叠的学科。因为机器学习中的大多数方法来自统计学，甚至可以认为，统计学的开展促进机器学习的繁荣兴盛。例如著名的支持向量机算法，就是源自统计学科。但是在某种程度上两者是有分别的，这个分别在于：统计学习者重点关注的是统计模型的开展与优化，偏数学，而机器学习者更关注的是能够解决问题，偏实践，因此机器学习研究者会重点研究学习算法在计算机上执行的效率与准确性的提升。计算机视觉计算机视觉=图像处理+机器学习。图像处理技术用于将图像处理为适合进入机器学习模型中的输入，机器学习那么负责从图像中识别出相关的模式。计算机视觉相关的应用非常的多，例如百度识图、手写字符识别、车牌识别等等应用。这个领域是应用前景非常炽热的，同时也是研究的热门方向。随着机器学习的新领域深度学习的开展，大大促进了计算机图像识别的效果，因此未来计算机视觉界的开展前景不可估量。语音识别语音识别=语音处理+机器学习。语音识别就是音频处理技术与机器学习的结合。语音识别技术一般不会单独使用，一般会结合自然语言处理的相关技术。目前的相关应用有苹果的语音助手siri等。自然语言处理自然语言处理=文本处理+机器学习。自然语言处理技术主要是让机器理解人类的语言的一门领域。在自然语言处理技术中，大量使用了编译原理相关的技术，例如词法分析，语法分析等等，除此之外，在理解这个层面，那么使用了语义理解，机器学习等技术。作为唯一由人类自身创造的符号，自然语言处理一直是机器学习界不断研究的方向。按照百度机器学习专家余凯的说法听与看，说白了就是阿猫和阿狗都会的，而只有语言才是人类独有的。如何利用机器学习技术进展自然语言的的深度理解，一直是工业和学术界关注的焦点。可以看出机器学习在众多领域的外延和应用。机器学习技术的开展促使了很多智能领域的进步，改善着我们的生活。局限在构造化数据，还有图像，音频等应用。机器学习的方法1、回归算法在大局部机器学习课程中，回归算法都是介绍的第一个算法。原因有两个：一.回归算法比拟简单，介绍它可以让人平滑地从统计学迁移到机器学习中。二.回归算法是后面假设干强大算法的基石，如果不理解回归算法，无法学习那些强大的算法。回归算法有两个重要的子类：即线性回归和逻辑回归。线性回归就是我们前面说过的房价求解问题。如何拟合出一条直线最正确匹配我所有的数据？一般使用最小二乘法来求解。最小二乘法的思想是这样的，假设我们拟合出的直线代表数据的真实值，而观测到的数据代表拥有误差的值。为了尽可能减小误差的影响，需要求解一条直线使所有误差的平方和最小。最小二乘法将最优问题转化为求函数极值问题。函数极值在数学上我们一般会采用求导数为0的方法。但这种做法并不适合计算机，可能求解不出来，也可能计算量太大。计算机科学界专门有一个学科叫数值计算，专门用来提升计算机进展各类计算时的准确性和效率问题。例如，著名的梯度下降以及牛顿法就是数值计算中的经典算法，也非常适合来处理求解函数极值的问题。梯度下降法是解决回归模型中最简单且有效的方法之一。从严格意义上来说，由于后文中的神经网络和推荐算法中都有线性回归的因子，因此梯度下降法在后面的算法实现中也有应用。逻辑回归是一种与线性回归非常类似的算法，但是，从本质上讲，线型回归处理的问题类型与逻辑回归不一致。线性回归处理的是数值问题，也就是最后预测出的结果是数字，例如房价。而逻辑回归属于分类算法，也就是说，逻辑回归预测结果是离散的分类，例如判断这封是否是垃圾，以及用户是否会点击此广告等等。实现方面的话，逻辑回归只是对对线性回归的计算结果加上了一个Sigmoid函数，将数值结果转化为了0到1之间的概率(Sigmoid函数的图像一般来说并不直观，你只需要理解对数值越大，函数越逼近1，数值越小，函数越逼近0)，接着我们根据这个概率可以做预测，例如概率大于0.5，那么这封就是垃圾，或者肿瘤是否是恶性的等等。从直观上来说，逻辑回归是画出了一条分类线，见下列图。图7 逻辑回归的直观解释假设我们有一组肿瘤患者的数据，这些患者的肿瘤中有些是良性的(图中的蓝色点)，有些是恶性的(图中的红色点)。这里肿瘤的红蓝色可以被称作数据的标签。同时每个数据包括两个特征：患者的年龄与肿瘤的大小。我们将这两个特征与标签映射到这个二维空间上，形成了我上图的数据。当我有一个绿色的点时，我该判断这个肿瘤是恶性的还是良性的呢？根据红蓝点我们训练出了一个逻辑回归模型，也就是图中的分类线。这时，根据绿点出现在分类线的左侧，因此我们判断它的标签应该是红色，也就是说属于恶性肿瘤。逻辑回归算法划出的分类线根本都是线性的(也有划出非线性分类线的逻辑回归，不过那样的模型在处理数据量较大的时候效率会很低)，这意味着当两类之间的界限不是线性时，逻辑回归的表达能力就缺乏。下面的两个算法是机器学习界最强大且重要的算法，都可以拟合出非线性的分类线。2、神经网络神经网络(也称之为人工神经网络，ANN)算法是80年代机器学习界非常流行的算法，不过在90年代中途衰落。现在，携着深度学习之势，神经网络重装归来，重新成为最强大的机器学习算法之一。神经网络的诞生起源于对大脑工作机理的研究。早期生物界学者们使用神经网络来模拟大脑。机器学习的学者们使用神经网络进展机器学习的实验，发现在视觉与语音的识别上效果都相当好。在BP算法(加速神经网络训练过程的数值算法)诞生以后，神经网络的开展进入了一个热潮。BP算法的创造人之一是前面介绍的机器学习大牛Geoffrey Hinton(图1中的中间者)。具体说来，神经网络的学习机理是什么？简单来说，就是分解与整合。在著名的Hubel-Wiesel试验中，学者们研究猫的视觉分析机理是这样的。图8 Hubel-Wiesel试验与大脑视觉机理比方说，一个正方形，分解为四个折线进入视觉处理的下一层中。四个神经元分别处理一个折线。每个折线再继续被分解为两条直线，每条直线再被分解为黑白两个面。于是，一个复杂的图像变成了大量的细节进入神经元，神经元处理以后再进展整合，最后得出了看到的是正方形的结论。这就是大脑视觉识别的机理，也是神经网络工作的机理。让我们看一个简单的神经网络的逻辑架构。在这个网络中，分成输入层，隐藏层，和输出层。输入层负责接收信号，隐藏层负责对数据的分解与处理，最后的结果被整合到输出层。每层中的一个圆代表一个处理单元，可以认为是模拟了一个神经元，假设干个处理单元组成了一个层，假设干个层再组成了一个网络，也就是神经网络。图9 神经网络的逻辑架构在神经网络中，每个处理单元事实上就是一个逻辑回归模型，逻辑回归模型接收上层的输入，把模型的预测结果作为输出传输到下一个层次。通过这样的过程，神经网络可以完成非常复杂的非线性分类。下列图会演示神经网络在图像识别领域的一个著名应用，这个程序叫做LeNet，是一个基于多个隐层构建的神经网络。通过LeNet可以识别多种手写数字，并且到达很高的识别精度与拥有较好的鲁棒性。图10 LeNet的效果展示右下方的方形中显示的是输入计算机的图像，方形上方的红色字样answer后面显示的是计算机的输出。左边的三条竖直的图像列显示的是神经网络中三个隐藏层的输出，可以看出，随着层次的不断深入，越深的层次处理的细节越低，例如层3根本处理的都已经是线的细节了。LeNet的创造人就是前文介绍过的机器学习的大牛Yann LeCun(图1右者)。进入90年代，神经网络的开展进入了一个瓶颈期。其主要原因是尽管有BP算法的加速，神经网络的训练过程仍然很困难。因此90年代后期支持向量机(SVM)算法取代了神经网络的地位。3、SVM支持向量机支持向量机算法是诞生于统计学习界，同时在机器学习界大放光荣的经典算法。支持向量机算法从某种意义上来说是逻辑回归算法的强化：通过给予逻辑回归算法更严格的优化条件，支持向量机算法可以获得比逻辑回归更好的分类界限。但是如果没有某类函数技术，那么支持向量机算法最多算是一种更好的线性分类技术。但是，通过跟高斯核的结合，支持向量机可以表达出非常复杂的分类界限，从而达成很好的的分类效果。核事实上就是一种特殊的函数，最典型的特征就是可以将低维的空间映射到高维的空间。例如下列图所示：图11 支持向量机图例我们如何在二维平面划分出一个圆形的分类界限？在二维平面可能会很困难，但是通过核可以将二维空间映射到三维空间，然后使用一个线性平面就可以达成类似效果。也就是说，二维平面划分出的非线性分类界限可以等价于三维平面的线性分类界限。于是，我们可以通过在三维空间中进展简单的线性划分就可以到达在二维平面中的非线性划分效果。图12 三维空间的切割支持向量机是一种数学成分很浓的机器学习算法相对的，神经网络那么有生物科学成分。在算法的核心步骤中，有一步证明，即将数据从低维映射到高维不会带来最后计算复杂性的提升。于是，通过支持向量机算法，既可以保持计算效率，又可以获得非常好的分类效果。因此支持向量机在90年代后期一直占据着机器学习中最核心的地位，根本取代了神经网络算法。直到现在神经网络借着深度学习重新兴起，两者之间才又发生了微妙的平衡转变。4、聚类算法前面的算法中的一个显著特征就是我的训练数据中包含了标签，训练出的模型可以对其他未知数据预测标签。在下面的算法中，训练数据都是不含标签的，而算法的目的那么是通过训练，推测出这些数据的标签。这类算法有一个统称，即无监视算法(前面有标签的数据的算法那么是有监视算法)。无监视算法中最典型的代表就是聚类算法。让我们还是拿一个二维的数据来说，某一个数据包含两个特征。我希望通过聚类算法，给他们中不同的种类打上标签，我该怎么做呢？简单来说，聚类算法就是计算种群中的距离，根据距离的远近将数据划分为多个族群。聚类算法中最典型的代表就是K-Means算法。5、降维算法降维算法也是一种无