资源预览内容
第1页 / 共13页
第2页 / 共13页
第3页 / 共13页
第4页 / 共13页
第5页 / 共13页
第6页 / 共13页
第7页 / 共13页
第8页 / 共13页
第9页 / 共13页
第10页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
乳腺癌的诊断 a.问题描述现有500个乳腺癌病患的10个特征量的平均值、标准差和最大值以及其诊断结果-良性或恶性,并有69位待判断的乳腺癌患者的相关数据及其诊断结果,建立一个数学模型使得其能够由前500个病患的数据来给出后69个病患的诊断结果。b.分析调研1.整体评估将前500个数据存入数组,作如下处理:并将诊断为良性和恶性的数据分开,将这两个数组转制后作黑白图,如下: 恶性良性其中横坐标表示病例,纵坐标代表各项相关数据,颜色越深表示数值越低,可见良性与恶性的数据总体差异较大,但存在一些难以分别的病例。而且标准差的干扰最大。如果才用线性或logistic模型来分类,其分界界面为一个光滑平缓的曲面,这只能满足总体效果,对于一些局部区域的分界性能将不能够随着参考数据的增加而提升。为了进一步提高判断的准确率,需要重点识别由数据确定的分解区域。2. 二维投影分析将500个已知案例投影在任意两维中,并对每一维的数据采用如下归一化:选取其中具有代表性的数据结果。几乎在每两维上的投影均出现良性和恶性案例混叠的情况,这就说明选取参数的个数较少时,其判断的准确率难以提高。并且无论如何选取参数,良性和恶性案例必将出现混叠。同时发现不同的参数之间存在相关性,如(1,3)、(1,4)、(1,21)、(1,23)、(1,24)、(3,4)、(3,21)、(3,23)、(3,24)、(4,21)、(4,23)、(4,24)、(21,23)、(21,24)、(23,24)。c.初步模型及结果假设良性案例与恶性案例在空间中可以由两个表面平缓且不相交的区域、分别覆盖。则剩下的空间可以作为过度区域。问题在于如何识别识别出和,他们应满足如下性质:对于任意一个良性案例和恶性案例,当它们相隔很近时,即和均有足够的盈余来覆盖其中的案例。但只有500个数据的空间对于上述的区域划分是远远不够的。假设状态空间为一个边长为d的立方体,案例的平均最小距离是,即案例密度过低,不能够在30维的空间中明确的表示出分界,而且由于各分量的影响权重不同,不能够很好的进行边界识别。但可以采用如下方法进行近似划分:以每一个案例作为球心来画球,所有球的半径按相同速率同时扩大,当某一个的半径扩大使其与相反的案例所在的球相切时,则它们均停止继续扩大。此法比较简单,但计算量太大,不宜快速实现,并且边界区域的划分只是考虑了最近的一个案影响,而且没有考虑到后期对于各分量权值的调整。当各分量的权值未知时,不能采用距离的概念,但可知,无论各分量权值为多少,最靠近的那些点必然满足如下性质;在某几个分量上是最靠近的。基于上述性质,采用分维来选择最近的案例作为参考,并将各维的参考求和,采用多数判断制,称为算法1。将500个案据中的每一个放入除去它的499个案例中进行判断,结果如下:标准差的正确率较低,而其他两种类型的数据有一些较好的结果。d.模型的改进与检验1. 参考数据比较算法分维选取的目的是希望为以后的加权计算留余地,但这样选取并没有很好地考虑到各个方向的影响,即应在每一维选取的时候,同时选其左右最接近的两个案,按线性差值计算,类似于查表,称为算法2,结果如下:在判断的正确率方面,算法2比算法1更好,而每一维的判断正确率却基本一致。但此种选法忽略了一个问题,由于数据太少,每一维的所选出的两个案例很可能在其它维的值与待判断的相差较大,从而没有充分利用数据,并且可能出现重复选择某些案例。由此,设计算法3:采用算法二的方法选取案例,并作为一个案例集合,在每一维的判断上将这集合中的每一个案例都投影上去,并按其在这一维距带判断的距离的反比作为权值求和,最后按多数来进行判断。无论是判断的正确率还是每一分量判断的正确率,算法3都比算法2更好。2.局部穷举优化为了在选取少数的参数为判断而不失正确率,需要在种组合中挑选,由于目标是选取少量的参数来判断,因而只需穷举其中的一小部分,令选取参数的个数为1到4,共137979种组合。以所有案例的得分到理论最高分的差的方差作为挑选指标。下面对前述三种算法采用局部穷举:上述结果统计如下:算法选取参数个数1234189.4%(23)80%(23,28)92.2%(23,24,28)87%(7,23,24,28)288.6%(23)88.2%(23,28)92.4%(23,24,28)91.4%(7,23,24,28)392%(28)93.6%(24,28)93.4%(23,24,28)92.6%(8,23,24,28)如果采用其他的指标作为挑选标准,也可以得到类似结果:以判断的正确率作为指标:算法选取参数个数1234189.4%(23)82%(23,24)92.6%(3,23,28)88%(3,7,23,28)288.6%(23)89%(23,24)92.6%(7,24,28)93.2%(3,23,24,27)392.6%(23)94.2%(2,28)95%(22,24,28)95%(22,24,27,28)从穷举的结果可知,每多选一个参数,其最优的参数选择接近于贪婪算法,因而在需要精简计算量的场合,可以采用贪婪算法快速求得较优解。但仍然可以通过适量增加计算量得到一种在计算复杂度和计算效果上更平衡的算法,如下。3.分组与排名优化从最优参数选取中任取几个参数作为一种选取方案,则这个方案不可能很糟糕,基于这个想法,提出分组与排名优化算法:假设选取参数的个数为1到n3,每组最多选择3个参数。第3组第2组第1组每次在前一组的基础上再选1个穷举选最好的方案每次选1个穷举选最好的方案每次在前一组的基础上再选2个穷举选最好的方案每次选2个穷举选最好的方案每次在前一组的基础上再选3个穷举选前20种方案每次选3个穷举选前20种方案计算结果如下:(详细数据见 分组与排名.nb)选取参数个数算法123189.4%(23)88.6%(23)92.6%(23)282%(23,24)89%(23,24)94.2%(2,28)392.6%(3,23,28)92.6%(7,24,28)95%(22,24,28)488%(3,7,23,28)93.2%(3,23,24,27)95%(22,24,27,28)594.4%(2,23,24,27,28)95.4%(2,23,24,27,28)95.6%(22,24,27,28,30)690%(3,7,22,23,24,28)95.2%(2,7,8,23,24,25)95.6%(2,7,22,24,27,28)795.4%(3,7,17,22,23,24,28)95.2%(3,7,22,23,24,25,27)95.6%(2,7,8,22,24,27,28)891.8%(1,3,8,22,23,24,27,28)96%(2,3,7,23,24,25,28,30)95.2%(2,3,8,22,24,27,28,30)995.6%(2,3,7,14,22,23,24,28,30)95.8%(3,4,7,8,23,24,25,27,30)95%(2,3,5,7,22,24,27,28,30)1092.2%(3,4,7,14,17,22,23,24,28,30)95.8%(2,3,7,8,21,23,24,25,27,30)94.8%(2,3,7,8,22,24,27,28,29,30)1195.4%(1,2,3,7,14,22,23,24,27,28,30)96%(1,2,3,7,14,22,23,24,27,28,30)94.8%(2,3,6,7,8,22,24,27,28,29,30)1293.6%(1,2,3,5,7,8,14,22,23,24,27,28,30)96.4%(3,7,14,15,21,22,23,24,25,27,28,30)94.8%(2,3,7,21,22,23,24,26,27,28,29,30)1395.6%(1,2,3,5,7,8,14,22,23,24,27,28,30)96.2%(1,2,3,7,8,14,15,22,23,24,25,27,30)94.8%(2,3,7,9,21,22,23,24,26,27,28,29,30)1493.2%(1,2,3,5,7,8,10,14,22,23,24,27,28,30)96.4%(2,3,4,7,8,14,15,22,23,24,25,27,28,30)94.4%(2,3,4,5,7,21,22,23,24,26,27,28,29,30)1596%(1,2,3,7,8,12,14,15,22,23,24,27,28,29,30)96.2%(1,2,3,7,8,11,14,15,22,23,24,25,26,27,30)94.6%(2,3,4,5,7,20,21,22,23,24,26,27,28,29,30)选取参数个数在7个以内时,算法3更优,而其余的更适合用算法2。4.粒群搜索优化(PSO)在设定好的状态空间中随机产生多个点,并赋予随机速度。计算每一个点的指标值及其对应的位置存入,总的最优值及其对应的位置存入,然后生成新的速度:计算下一时刻的位置:通过多次迭代后取出最佳值即可得到局部最优解。以正确率为指标,以各参数的权值作为搜索空间,计算结果如下算法2 (3,7,14,15,21,22,23,24,25,27,28,30) 优化前准确率为96.4%算法2 (2,3,4,7,8,14,15,22,23,24,25,27,28,30) 优化前准确率为96.4%算法3 (22,24,28) 优化前准确率为95%算法3 (22,24,27,28) 优化前准确率为95%算法3 (22,24,27,28,30) 优化前准确率为95.6%整体性能有一定的提升,但提升的幅度不是太大(1%以内),而且消耗的计算时间较多。最高97%的准确率不算太好。5.BP神经网络模型(feed-forward backpropagation network)BP神经网络分为输入层、隐含层、输出层。输入层输出层隐含层隐含层的每一个结点的输入均来自输入层的每一个结点的输出,而输出层的每一个结点的输入均来自隐含层的每一个结点的输出。每一条连线上赋有一个权值,而隐含层和输出层的每个结点有一个内部权值。隐含层的结点采用logsig函数:
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号