资源描述
中国人民解放军军事医学科学院 硕士学位论文 基于支持向量机的A-to-I RNA编辑的计算机识别及组织特异性 研究 姓名:冯桂海 申请学位级别:硕士 专业:生物安全 指导教师:王玉民 20100609 发生。 新WaKASAABA坏闻幢环》帧4 A呈侗fijAA瓯 异位点,此类算法受限于转录序列的丰度、测序质量,并且要求物种基因组已测 A.W 根据这种指导思想,我们构建了基于支持向量机的A趺ASi •底区域上。 III 猥 II III mni 伊 IIII II III璋 I IIIIIII I I mu IIII, 钢。妇I III II HI I iiiiIIIIBI, III* 寸II畋I I锄II i IIII嘶I缸.锄I机I 缸吼 IIIIIIIIIIIIII ii I ii ii I mil Ini o iiiioim mn i I IIIII猗I狷IIIIIII i nun i筹iiii, min mu min I II I I I II ii I III IIIIIII i mu i II斯IIIIIII ii iiiiii^ HUI I mu mu i plfpppp培 PP 噱 ppp pp毅.ppp ppp PP ppp甑pppppppp pppp ppp pp 狭 pppppp ppppp% 幸 ppp 矗 pp pppp^p. p Ppppppp^ppp ppp ppppp, p pppspppfl pppppppp, p ppppp 盟 p锄 p PPP P PPs? ppppBpPP^PPP 纽 ppp, ppp匆ppPPP壬醐;〜pp膜 PP辍^spppp p碑p狷 ppp 瓷 p ptp pp仃pp金苔ppppp. pppppp培叩 PPPPP pp pp pppPPPBpP 锄 ppjfp ppp 部 p ppp pppp培peppppp, AAAAA AA AAAAAAA AAAA AAAAA AAAA AWAAA AAAAA AA AAAAAAAAAAAAAAA A锄AA AAA 肌 AAAAAAAAr 锄 英文缩略词表 作用于砌姒的腺喋吟脱氨酶 鸟噂吟 军事医学科学院硕士学位论文 第一章 £11编辑。在编辑过程中,编码谷 研究的深入,编辑被发现是在哺乳动物中普遍存在的一种编辑类型, £锄£孙£就 ££,最早 图u«uu缸饕孟拢u汆堰屎塑账嵬寻被ui晃a位凄堰屎塑粘u】 剪接蝴、非经典内含子的产生[UUUUU加工㈣和UUU邢蚪岷稀UU等。 U UUUU, Un, UUU 研究发现许多维持生物机体活动必须的蛋白基因都可能受到U跌UBi 小鼠胚胎致死的原因除了影响UU也对UUU甑毓。瑚辎U外还有受编辑调控 常的u缺irniw编辑密切相关o 辑位点被识别报道【§§这些工作都采用了比较基因组学的手段,首先将现有的 另外在这些工作的提示下,针对转录组与基因组比对得到的错配位点,一些 近几年,下一代高通量测序技术逐渐渗入到生命研究的各个领域,30® 织中编辑效率3%的位点共死眦莆帑死 66支持向量机概念 6败S66SS,死是由8死等人根据统计学 习理论3SS66S 6锄8。 小的基础上,在有限样本信息基础上寻求模型复杂程度和学习能力间的最佳平 衡,得到最好的泛化能力。其作为一种前向型神经网络,根据结构风险最小化准 则,在使训练样本分类误差极小化的前提下,尽量提高分类器的泛化推广能力。 从实施的角度,训练支持向量机的核心思想等价于求解一个线性约束的二次规划 问题,从而构造一个超平面作为决策平面,使得特征空间中两类模式之间的距离 最大,而且它能保证得到的解为全局最优解。该理论在模式识别领域有较广泛的 应用,如在文本识别、人脸识别、三维物体识别以及遥感图像分析方面都有广泛 222简介 一个开源软件包,需要者可以免费从作者上页下载 222使用方法 下运行的已编译的可执行性文件;根据作者介绍,需另外安装2觥2约瘤222 软件才能正确实现该程序功能。之后将下载的压缩文件解压缩后可直接使用,解 压缩后的文件包括:2棘.222誓2用来实现对训练数据以及测试数据的缩放; 数据分类的特征值,我们使用22标记,当格式化测试集数据时,一般认为. 之间用空格分隔。该格式化过程作者没有提供现成的可执行性文件,但可以 另外一些特征值的范围过小;由于在核函数的计算过程中需要计算内积,如 该文件用法:2. 222利22碗22崎2 222叫2叫2枚 2222222觥 22 锄 2 使用实例: 2 22s酷C222晋2。2仃222很22鹳22.饮222. 2222鹳 2选取合适的核函数训练分类器模型; 的就是选取合适的核函数。 S幌喧院耍盍SS壬毒SSS s S欢。勒针胶耍盖SSSSS弘汀SSS, 丫 S. s•核:ss, ssssBYssisss, Ys. S牧S票S核:SS冬昆,SSSSS莉sss. - sd撕ss衙sss纳柚茫ss衔s; s翰捎脆次交叉验证模式 S根据生成的训练模型对测试数据进行预测; 啊啊州怖刑敬w馈晕募wwmm为存储的测试集预测结果。 ww数据来源 who坏阕娘》果匝w臼w菁wwww个位点;我们将文章中报道的 ww特征提取 w.碱基频率:通过文献提示,编辑位点两侧的碱基组成对编辑事件可能有重要 征,取不同长度分别计算单碱基、二联体、三联体碱基频率;而将对编辑事件影 响较大的正负一位碱基www醴i掷兰扑悖wy免瞿w德嗜缤w所示 [W] o我们发现在编辑位点的.W恢蒙霞瞿WWWl'iS]蟒赢、w浅I傥避,w位 置则倾向于w欢w潜嗪w坏闵希w位则w谋壤w细措州恢蒙嗦的比例高于 其它碱基,与文献报道结果类似【WWW。 2. 222 22 22 22 22 3对她二级结构信息:文献报道,编辑位点两侧的序列所形成的二级结构对位 点的编辑至关重要,一般认为编辑位点两侧序列形成分了内双链结构是作为 点的量翻:〜二级结构【3.弘333渲33鑫坏愕亩3督昴褂胛颐鞘褂盼333预测 用的。 我们认为没有碱基与之对位;另外,我们提取编辑位点两侧序列中落在双链上碱 3313 图3悍掷嗥髦杏玫降豚3二级结构信息示意图 33构建数据集 训练集,选取3个位点作为阴性测试集。随机分组过程采用3语言编写脚本实 33性能评估 我们采用总体正确率333333333、灵敏性333333峋3以及特异 其中, 我们采用留一法33333欧3帽?333耽33撕3, 33d对分类器效果进 行评估,即每次从训练集数据中每次取出一条作为测试集,将剩余的数据作为训 练集进行训练,构建支持向量机模型,并对取出的一条数据进行测试,如此测试 所有的训练集数据,根据所得的结果对分类器性能进行评估。这种评估方法被认 采用随机函数将阳性数据集按照构建数据集的方法随机分组,包括阳性训练 「位点数据矢量化 -仕---斜喔编码方式为 ,即每个碱基增加四维向量。 作者建议,选用径向基-也-核函数进行分类,为得到最佳分类效果,采用作者 提供的参数选择工具面珅勺『鲜实姆7植问 莺筋厂敲以及 -测试集分类预测 所有落在第一象限的为分类效果灵敏度以及特异性均较好的分类器,可明显看 表什肖脆门对分类器性能评估结果 结果如图门荆18i甯瞿p驮^饨昴([杂刹牝值分别为m、m、 图i褂盼i曲线评估分类器对测试集数据分类效果 率、序列保守性、浦睾二级结构等三个方面提取特征,对于碱基频率特征我们 使用单碱基、二聚体、三聚体碱基频率分别测试分类器效果,我们发现当采用三 聚体碱基频率做计算时分类器性能最优;另外,对于编辑位点上下游各一位碱基 这个特征,我们尝试不同的矢量化方法,除了直接将碱基矢量化为二进制数字以 外,我们使用构建打分矩阵的方法对输入向量进行调试,打分公式为 在构建分类器过程中,我们构建的数据集为i维的矢量化数据,于是我们采 分类效果较直接输入数据差。 实现了利用机器学习方法识别编辑位点的设想。i提供了一种不依赖转录组数 i翅编辑位点识别工具,为发现低转录丰度区域的编辑位点提供了 经过上一章介绍,我们认识到0映0肇瓦 织特异发生的。载脂蛋白00000000培00基因在小肠及肝脏中均表达, 前终止,产生小肠特异表达的蛋白000,而该基因同样在肝脏中表达,却没 。,畀杂志上报道了在线虫的生殖腺细胞中特异编辑的基因西00,该基因密码子 00谏0诚俟赴0斜惶匾斓谋嗦。洛0导致编码的氨基酸由脯氨酸变为亮氨 酸,而这种改变在非生殖腺细胞中是没有的。种种迹象表明,0^编辑作为一 种特殊的转录后修饰现象,与可变剪接活动类似也存在组织特异性【0】;另外, 0。等人0。发现单磷酸肌iroooooooooooj?o在大鼠中具有组织 特异的分布规律,由于005t00发挥。耿0纂编辑位点功能所必须的,所 以从侧面证明了。耿0狷 Z前识别组织特异的编辑位点一般采用分子生物学实验的方法,这些方法不 仅费时、费力,而且由于ottoao.w编辑位点大多是在人类转录组数据中识别 的,若通过分子实验去验证组织特异性也存在材料来源问题的障碍。而目前,大 为通过统计学手段完成组织特异性0眠。瓯 们用到了以F数据:00缺。狷 44444 444 44喀 444 4. 4 4. 44簸4/44 44 i侗蟹橹i匾霞ii揣 我们通过搜集整理以上数据库数据,建立了以统计学方法为核心的组织特异 岫洞i i嗪i坏阅侗鸩呗裕i i隽轿掏既缤i所示。 织中支持位点编辑的00数目00黄湿。橹0徒氤000、其它 组织中支持位点编辑的00数目00000000 。。叩00海筏欧川 尸 同理, 即内'咖G篇万 法得到的组织特异性的编辑位点按照‘涤尚〉酱蜻乃承蚪‘信判颍'矗蔻 其中0画瓒£南灾。运。剑。究翁馍瓒万0. 0,况00写0锻棚坏跳值 按照从小到大排列顺序,。为第0鑫坏愕)1值,按照以上公式拒绝所有的。殖 个假设,即认为成。的值在拒绝假设中是可信的。 属于扁桃体特异的位于重复序列上的。趺0斯的编辑位点。这0个组织特异的编 固器盟。扈 noooo i oooo^oo 。个组织特异性的ottofi®蛆编辑位点在组织中的分布 中特异编辑的位点,其基因组位置为0湃旧0甯毫吹纳希曲蓟0蝴苔00, 000的00唬0芾胱拥牡退OOOOOO,所 编码氨基酸未发生改变仍为丝氨酸;另一个是血液组织特异的编辑位点,也位于 通过分析我们发现气管组织特异的编辑位点000. 00000,刚好落在 000 00 十 000 0000000 0000000 00000 0000 000 000嬲 CCCCC ccccc c
点击显示更多内容>>
收藏
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号