资源预览内容
第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
亲,该文档总共4页全部预览完了,如果喜欢就下载吧!
资源描述
数据挖掘在医学方面的应用摘要:着信息技术的发展,采集、存储和管理数据的手段日益完善。数据挖掘学科应运而 生。本文介绍数据挖掘的概念和应用,以及国内医学方面数据挖掘的应用现状及展望。 关键字:数据挖掘 医学Abstract: The discipline of data mining emerges with the development of technology and maturation of methods of data collection, storage and management. The paper introduces the concept of data mining. This paper introduces data mining concepts and applications, as well as domestic medical data mining application status and its prospect.Key Words: data mining;biomedical1引言 随着数据库技术的飞速发展,信息技术已渗透到包括医学在内的各种领域。很多大 中型医院都相继建立了自己的医院信息系统(HIS),随着HIS的应用和不断发展,数据库 中的数据量迅速膨胀,数据库规模逐渐扩大,复杂程度日益增加。但是尽管积累了大量 的业务数据,真正能将这些数据的价值挖掘出来,并运用到医院的临床辅助诊断和日常 管理决策中去的却很少。提出了建立基于HIS系统的医学信息数据仓库,在此基础上, 对数据仓库中的医疗数据进行疾病监测、预测、医院管理辅助决策等方面的数据挖掘。 为医务工作者、临床管理人员、科研人员提供辅助决策与综合分析的工具。在医疗方面 具有重要的意义。2.数据挖掘技术介绍2.1数据挖掘额的概念 数据挖掘是商务智能应用中较高层次的一项技术,是从大量的、不完全的、有噪声的、 模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识的过程1。利用数据挖掘用户将可以更加方便地发现数据的规律,用户可以利用这些规 律对某些符合特征的数据作出预测。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。先未知是指数据挖掘所 得到的信息应该是先前不能凭直觉或一般的技术方法所能得到的信息,挖掘到的住处越是出 乎意料就可能越有价值。在这方面的一个典型例子就是一家连锁商店通过数据挖掘发现小孩 尿布和啤酒之间有着惊人的联系。而有效和可实用是数据挖掘的目的所在。数据挖掘的分析方法有很多种,针对不同的用途就有不同的分析方法,比较常见的分析 方法有一下集几种:分类、预测、相关性分组活关联规则、聚类、估值、描述和可视化、复 杂数据类型挖掘,包括文本数据挖掘。WEB数据挖掘、图形图像数据挖掘、视频和音频数 据挖掘。2.2数据挖掘的过程 数据挖掘的过程一般由三个主要的阶段构成:数据准备、开采操作、结果表达和解释, 对知识的发现可以描述为这三个阶段的反复过程。(1) 数据准备 这个阶段又可进一步分成三个子步骤:数据集成,数据选择、数据预处理。数据集成将多文件和多数据库运行环境中的数据进行组合,解决语义模糊性,处理数据中的遗漏和清洗 无效数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘 的质量。预处理是为了克服目前数据挖掘工具的局限性。(2) 数据挖掘 这个阶段进行实际性分析工作,包括的要点是:先决定如何产生假设,是让数据挖掘系 统为用户产生假设,还是用户自己对数据库中可能包含的知识提出假设,前一种称为发现型 的数据挖掘;后一种称为验证型的数据挖掘。再选择合适的工具进行发掘知识的操作,最后 进行证实。(3) 结果表述和解释 根据用户的需求对提取的信息进行分析,挑选出有效信息,并且通过决策支持工具进行 移交。因此,这一步骤的任务不仅是把结果表达出来(例如采用信息可视化方法),还要对信 息进行过滤处理,如果不能令用户满意,需要重复以上数据挖掘的过此,这一步骤的任务不 仅是把结果表达出来(例如采用信息可视化方法),还要对信息进行过滤处理,如果不能令用 户满意,需要重复以上数据挖掘的过程。23数据挖掘的功能(1) 自动预测趋势和行为:数据挖掘自动在大型数据库中寻找预测性信息,以往需要进 行大量手工分析的问题如今可以迅速直接由数据本身得出结论。(2) 关联分析:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个 变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。 关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即 使知道也是不确定的,因此关联分析生成的规则带有可信度。(3) 聚类:数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们 对客观现实的认识,是概念描述和偏差分析的先决条件。(4) 概念描述:概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。 概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对 象之间的区别。(5) 偏差检测:数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。 偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测 值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义 的差别。3数据挖掘在医学中的应用3. 1数据挖掘在生物医学/DNA中的应用随着全球人类基因组计划(Human Genome Project)对人类24对染色体全部基因测序的完 成,人类基因的研究将进入全新的发展阶段。因此对DNA的序列模式分析是分子生物医学领 域工作者面临的重要任务,而数据挖掘成为DNA分析中的强有力的工具,并在以下方面对DNA 的分析做出不小的贡献。(1) DNA序列问相似搜索与比较:在基因分析中一个最为重要的搜索问题是DNA序列中的 相似搜索和比较。对分别来自带病和健康组织的基因序列,进行比较以识别两类基因间的差 异。做法可以是首先从两类基因中检索出基因序列,然后找出并比较每一类中频繁出现的模 式,通常在带病样本中出现频度超出健康样本的序列,可以认为是导致疾病的基因因素;另 一方面,在健康样本中出现频度超出带病样本的序列,可以认为是抗疾病的因素。(2) 关联分析:同时出现的基因序列的识别:目前许多研究关注的是一个基因与另一个 基因的比较。大部分疾病不是由单一基因引起的,而是基因组合起来共同起作用的结果。关 联分析方法可用于帮助确定在目标样本中同时出现的基因种类,此类分析将有助于发现基因 组和X,-1基因间的交叉与联系的研究。(3) 路径分析:发现在不同阶段的致病基因:引起一种疾病的基因可能不止一个,不过 不同基因可能在不同阶段起着作用。如果能找到疾病发展的不同阶段遗传因素序列,就有可 能开发针对疾病不同阶段的治疗药物,从而取得更为有效的治疗效果,在遗传研究中路径分 析会起到重要的作用。(4) DNA序列分类:DNA序列中有外显子和内含子,外显子是被转录为信使RNA并被翻译 成蛋白质的序列,而内显子则不然。区分DNA序列中的外显子和内含子也是很重要的,非线 性相关统计法 AMI(average mutual informa tion)是可行的,另外,神经网络、分类及 聚类算法也是有用的。32数据挖掘在医学中的应用(1) 疾病诊断:正确的诊断对于指导病人的用药及康复显然是重要的,在临床中有些疾 病错综复杂,数据挖掘的有关分类分析可以应用于疾病的诊断。粗糙集理论、人T神经网络、 模糊逻辑分析在疾病诊断方面是有效的。国内有学者将粗糙集理论应用于中医类风湿的诊 断,取得了满意的效果,大大提高了诊断准确率,国外A.Kusiak等将基于粗糙集理论的两种 算法应用于实体性肺结节的诊断,诊断准确率达100%,Roshawrma Scales等基于人工神经网 络理论及模糊逻辑开发的对心血管疾病诊断的工具对疾病诊断的正确率达到92。(2) 疾病相关因素分析:在病案信息库中有大量的关于病人的病情和病人的个人信息, 包括年龄、性别、居住地、职业、生活情况等,对数据库中的信息进行关联规则分析可以发 现有意义的关系及模式,某种疾病的相关发病危险因素分析可以指导患者如何预防该疾病。 Jonathan C. Prather等成功地应用数据挖掘的有关理论对Duke大学医学中心的产科病人早 产的3个危险因素进行了分析。(3) 疾病预测:确定某些疾病的发展模式,根据病人的病史预测病情的发展趋势,从而 有针对性的预防疾病的发生。应用粗糙集理论根据以往病例归纳出诊断规则,用来预测新的 疾病的发生,现有的人工预测早产的准确率只有17%38%,应用粗糙集理论则可提高到 68% 90%。(4) 在医疗质量管理中的应用:医疗保健领域的改革使得费用压力增加,另外一方面对 医院医疗质量的需求也增高,以及其他医疗服务机构的增多,使得医院管理者比以往更关心 医疗及管理的质量以及费用一效益比率。医疗质量管理的核心是数据、标准、计划以及治疗 的质量,这些质量可以用不同的指数来衡量,数据挖掘可以帮助质量管理者解决下列任务: 发现新的关于数据、标准、计划以及治疗的质量指数的假说;检验现有的关于数据、标准、 计划以及治疗的质量指数是否有效;提炼,粗糙化及调整关于数据、标准、计划以及治疗的 质量指数。常见的问题有:什么原因导致违背标准?个人信息、年龄、性别是怎样影响对标 准的违背的?比如:若年龄因素和某种治疗导致住院时间比标准住院时间长,是否考虑修改 治疗方案?数据挖掘可以帮助发现有关提高临床服务效率及质量潜力的证据。(5) 在医学图像中的应用:医学领域中越来越多地应用图像作为疾病诊断的工具,如 SPECT、CT、MRI、PET等,数据挖掘可以应用于医学图像的分析。Sacha等成功地运用基于贝 叶斯分类的数据挖掘模式对心肌SPECT图像进行分类诊断。(6) 在医学其他方面的应用:数据挖掘还应用于毒理学方面,药物的新的副作用发现。4.国内生物医学数据挖掘的应用现状及展望我国的医院信息系统(HIS )经过多年的自动化建设,已具备相当的物质条件和人才储备, 并积累了大量数据,为数据挖掘应用奠定了一定的物质基础。而且,医院信息化发展是我国 信息化建设的重要组成部分,国家对此给予了高度的重视并提供了大量政策上和经济上的支 持,为行业性数据挖掘的实施提供了良好的政策环境和经济保障。在我国,尽管医学的数据极为丰富,但运用数据挖掘技术分析和处理这些数据资源的研 究尚处于起步阶段。原因主要在于以下两个方面:其一,数据挖掘采用许多复杂的数学工具, 这可能使生物医学科学研究者“望而却步”。其实,这种“恐惧”心理是不必要的。对于生 物医学领域的研究者而言,并不需要设计这些数学工具,他们需要的是理性地使用这些现有 的工具。许多数据处理软件包(如 Weka、BMiner、SPSS Clemen tine和SAS Ent erprise Miner 等)都包含常用数据挖掘方法的功能。其二,当前医学教育中的知识结构使大部分生物医学 研究者对“数据挖掘”这类数据分析处理技术不甚了解、也不甚敏感,也就更难以自觉地应 用。随着生物医学研究人员对“数据挖掘”及其应用的理解不断深入,这种新颖的数据分析 工具必将对生物医学研究产生积极的促进作用。5结语生物医学数据库是一个复杂数据库,包括电子病历、医学影像、病理参数、化验结果等。 目前数据挖掘技术主要应用于以结构化数据为主的关系数据库、事务数据库和数据仓库,对 复杂类型数据的挖掘尚在起步阶段。造成这种局面的可能原因有:挖掘结果的可理解性欠佳; 挖掘结果数量过大,难以处置:挖掘方法在实际应用中与用户的交互作用不理想等。数据挖 掘在经过多年的发展之后已经形成相
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号