资源预览内容
第1页 / 共79页
第2页 / 共79页
第3页 / 共79页
第4页 / 共79页
第5页 / 共79页
第6页 / 共79页
第7页 / 共79页
第8页 / 共79页
第9页 / 共79页
第10页 / 共79页
亲,该文档总共79页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
上海交通大学硕士学位论文 3基于图像的蛋白质晶体分类方法研究基于图像的蛋白质晶体分类方法研究 摘摘 要要 对蛋白质的研究是当前生命科学的研究热点之一。由于蛋白质的功能由其自身的结构决定,所以研究蛋白质晶体的结构对我们理解蛋白质的功能,蛋白质分子之间的相互作用以及蛋白质分子和其他生物分子之间的协作机制都有很重要的意义,并且对生命科学,生物医学和人类生活等方面也都有很深远的影响。 当前蛋白质晶体研究领域中存在的主要问题是难以获得足够的适宜蛋白质晶体。蛋白质结晶是一个多因素共同作用的过程,而目前并没有确定的规则可以用来指导蛋白质的结晶。所以现在采用的主要方法是利用高通量的蛋白质结晶设备培养大量的蛋白质结晶样本,然后研究者从这些结晶样本中挑选出符合实验条件的蛋白质晶体,并同时寻求合适的蛋白质结晶条件。由于实验样本数巨大,完全依靠人力来处理这些实验样本既费时又费力。因此,一个实时性强,准确度高的蛋白质晶体自动分类系统在蛋白质晶体研究中必不可少。 国内外对于蛋白质晶体自动分类系统的研究大部分都还处于初始阶段。由于实验设备以及实验环境的差异,产生的蛋白质晶体样本也不同,上海交通大学硕士学位论文 4因此不同研究者提出的蛋白质晶体分类算法并无法通用。另外,对于不同分类模型的选择还只是一个经验性的过程,对于使用何种分类算法还缺少理论的和实验上的依据。基于以上原因,我们提出了一种新的基于图像的蛋白质晶体分类算法,本文提出的蛋白质晶体分类算法主要由三部分组成: ? 对原始图像进行图像预处理与图像分割, 寻找出图像中需要进行识别的区域。 ? 在待识别的区域中进行特征提取操作,通过一系列的数学变换,将图像数据转化为特征数据, 从而使得分类模型可以根据获得的特征将图像归入正确的类别。 ? 利用一系列类别已知的特征数据训练一个分类模型, 并利用训练好的分类模型对未知类别的特征数据做出分类。 本文完成的主要工作包括如下方面: ? 提出由自动阈值分割, 主动轮廓线模型和区域搜索三部分组成的蛋白质晶体图像分割算法。 ? 用一系列特征提取算法寻找最能代表图像性质的特征,这些特征包括图像的统计特征,几何特征,纹理特征和频谱特征。 ? 采用了几种不同的分类器对特征数据进行分类, 并比较了不同分类器的分类性能。 ? 对分类算法中使用的特征显著性进行了分析。 探讨了不同特征对上海交通大学硕士学位论文 5分类性能的影响。 我们将该算法在蛋白质结晶图像数据集上进行试验,验证了算法的有效性,对于蛋白质晶体的识别正确率达到 92.7% 关键词:蛋白质晶体,分类,图像分割,特征提取,支持向量机,决策树 上海交通大学硕士学位论文 6Image-based Classification for Protein Crystallization Trials ABSTRACT The study of the protein has been one of the most popular research areas in recent years. The function of the protein is determined by its structure. As a result, the study of the protein is of great importance to the understanding of the function of proteins, the interplay between different protein molecules, and the corporation among protein molecules and other biological molecules. It also makes great contribution to the life science, biological medicine as well as human life. One of the major problems existed in the current study of the protein crystallization evolves the acquisition of the protein crystals which are suitable for the analysis of the protein structure. The protein crystallization process is very sensitive to a series of experimental factors, and there is no regular guide to this procedure yet. In order to obtain enough protein crystals and search for favorable experimental conditions, the high-throughput protein crystallization system is utilized to perform such trials. Conventionally, the outcomes of the protein crystallization trials are assessed by human expert. 上海交通大学硕士学位论文 7This procedure is slow and inefficient. As a result, an automatic technology needs to be studied to replace the human work. The research of the classification algorithm for protein crystals has not been well developed yet. The algorithms proposed by different researchers are not directly comparable due to the differences of the equipments and experimental conditions. In addition, the selection of classification model is still an empirical process; there is no theoretical or experimental basis of the classification algorithm. In consideration of the above points, we build a new image based classification algorithm for automating protein crystallization trials and evaluate its effectiveness by applying it on our image set. The algorithm proposed in this paper consists of three major parts: ? We search for the regions which can best represent the image property by utilizing image pre-processing and segmentation operations. ? A series of features are extracted from the segmented image. The image data is converted to feature data which will then be fed to the classifier to make the classification. ? The classifier is trained by a set of images, and then it can be employed to classify each image with unknown class. The major works contributed in this paper are as follows: 上海交通大学硕士学位论文 8? We propose image segmentation algorithm which is suitable for the protein crystallization images. The image segmentation algorithm is formed by adaptive thresholding, Active Contour Model and local searching. ? Several feature extraction algorithms are utilized to obtain suitable features, such as statistical, geometry, texture and frequency features. ? The effectiveness of different classifiers is evaluated in our work. ? The saliency of each feature is assessed By applying the algorithm on the protein crystallization image set, the effectiveness of the algorithm has been proved. We achieve an accuracy rate of 92.7% for the protein crystals. KEY WORDS: Protein Crystal, Classification, Image Segmentation, Feature Extraction, Support Vector Machine, Decision Tree. 上海交通大学硕士学位论文 1上海交通大学上海交通大学 学位论文原创性声明学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 杨曦 日期:2007 年 2 月 9 日 上海交通大学硕士学位论文 2上海交通大学上海交通大学 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密保密,在 年解密后适用本授权书。 本学位论文属于 不保密不保密。 (请在以上方框内打“” ) 学位论文作者签名:杨曦 指导教师签名:陈卫东 日期:2007 年 2 月 9 日 日期:2007 年 2 月 9 日 上海交通大学硕士学位论文 1第一章第一章 绪论 绪论 1.1 蛋白质晶体学的研究背景蛋白质晶体学的研究背景 随着人类基因组计划的完成,人类已经进入了一个以破
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号