中国人民解放军军事医学科学院
硕士学位论文
基于支持向量机的A-to-I RNA编辑的计算机识别及组织特异性
研究
姓名:冯桂海
申请学位级别:硕士
专业:生物安全
指导教师:王玉民
20100609
发生。
新WaKASAABA坏闻幢环》帧4 A呈侗fijAA瓯
异位点,此类算法受限于转录序列的丰度、测序质量,并且要求物种基因组已测
A.W
根据这种指导思想,我们构建了基于支持向量机的A趺ASi
•底区域上。
III 猥 II
III
mni
伊 IIII
II
III璋 I
IIIIIII I
I
mu
IIII,
钢。妇I
III
II HI I
iiiiIIIIBI,
III* 寸II畋I
I锄II
i
IIII嘶I缸.锄I机I
缸吼 IIIIIIIIIIIIII
ii
I
ii ii
I
mil Ini
o iiiioim
mn
i
I IIIII猗I狷IIIIIII
i
nun
i筹iiii, min
mu
min
I II
I
I
I II
ii
I
III
IIIIIII
i
mu
i
II斯IIIIIII
ii
iiiiii^
HUI I
mu
mu
i
plfpppp培
PP 噱 ppp
pp毅.ppp
ppp PP
ppp甑pppppppp
pppp
ppp
pp 狭 pppppp
ppppp% 幸
ppp 矗 pp
pppp^p. p
Ppppppp^ppp
ppp
ppppp, p
pppspppfl
pppppppp, p
ppppp 盟 p锄 p
PPP P
PPs?
ppppBpPP^PPP 纽 ppp,
ppp匆ppPPP壬醐;〜pp膜
PP辍^spppp p碑p狷
ppp 瓷 p
ptp
pp仃pp金苔ppppp. pppppp培叩
PPPPP
pp pp
pppPPPBpP 锄 ppjfp
ppp 部 p
ppp
pppp培peppppp,
AAAAA AA
AAAAAAA
AAAA
AAAAA
AAAA
AWAAA
AAAAA
AA
AAAAAAAAAAAAAAA
A锄AA
AAA 肌 AAAAAAAAr 锄
英文缩略词表
作用于砌姒的腺喋吟脱氨酶
鸟噂吟
军事医学科学院硕士学位论文
第一章
£11编辑。在编辑过程中,编码谷
研究的深入,编辑被发现是在哺乳动物中普遍存在的一种编辑类型,
£锄£孙£就 ££,最早
图u«uu缸饕孟拢u汆堰屎塑账嵬寻被ui晃a位凄堰屎塑粘u】
剪接蝴、非经典内含子的产生[UUUUU加工㈣和UUU邢蚪岷稀UU等。
U
UUUU, Un, UUU
研究发现许多维持生物机体活动必须的蛋白基因都可能受到U跌UBi
小鼠胚胎致死的原因除了影响UU也对UUU甑毓。瑚辎U外还有受编辑调控
常的u缺irniw编辑密切相关o
辑位点被识别报道【§§这些工作都采用了比较基因组学的手段,首先将现有的
另外在这些工作的提示下,针对转录组与基因组比对得到的错配位点,一些
近几年,下一代高通量测序技术逐渐渗入到生命研究的各个领域,30®
织中编辑效率3%的位点共死眦莆帑死
66支持向量机概念
6败S66SS,死是由8死等人根据统计学
习理论3SS66S 6锄8。
小的基础上,在有限样本信息基础上寻求模型复杂程度和学习能力间的最佳平 衡,得到最好的泛化能力。其作为一种前向型神经网络,根据结构风险最小化准 则,在使训练样本分类误差极小化的前提下,尽量提高分类器的泛化推广能力。
从实施的角度,训练支持向量机的核心思想等价于求解一个线性约束的二次规划 问题,从而构造一个超平面作为决策平面,使得特征空间中两类模式之间的距离 最大,而且它能保证得到的解为全局最优解。该理论在模式识别领域有较广泛的 应用,如在文本识别、人脸识别、三维物体识别以及遥感图像分析方面都有广泛
222简介
一个开源软件包,需要者可以免费从作者上页下载
222使用方法
下运行的已编译的可执行性文件;根据作者介绍,需另外安装2觥2约瘤222 软件才能正确实现该程序功能。之后将下载的压缩文件解压缩后可直接使用,解 压缩后的文件包括:2棘.222誓2用来实现对训练数据以及测试数据的缩放;
数据分类的特征值,我们使用22标记,当格式化测试集数据时,一般认为.
之间用空格分隔。该格式化过程作者没有提供现成的可执行性文件,但可以
另外一些特征值的范围过小;由于在核函数的计算过程中需要计算内积,如
该文件用法:2. 222利22碗22崎2 222叫2叫2枚
2222222觥 22 锄 2
使用实例:
2
22s酷C222晋2。2仃222很22鹳22.饮222. 2222鹳
2选取合适的核函数训练分类器模型;
的就是选取合适的核函数。
S幌喧院耍盍SS壬毒SSS s
S欢。勒针胶耍盖SSSSS弘汀SSS, 丫 S.
s•核:ss, ssssBYssisss, Ys.
S牧S票S核:SS冬昆,SSSSS莉sss.
- sd撕ss衙sss纳柚茫ss衔s;
s翰捎脆次交叉验证模式
S根据生成的训练模型对测试数据进行预测;
啊啊州怖刑敬w馈晕募wwmm为存储的测试集预测结果。
ww数据来源
who坏阕娘》果匝w臼w菁wwww个位点;我们将文章中报道的
ww特征提取 w.碱基频率:通过文献提示,编辑位点两侧的碱基组成对编辑事件可能有重要
征,取不同长度分别计算单碱基、二联体、三联体碱基频率;而将对编辑事件影 响较大的正负一位碱基www醴i掷兰扑悖wy免瞿w德嗜缤w所示
[W] o我们发现在编辑位点的.W恢蒙霞瞿WWWl'iS]蟒赢、w浅I傥避,w位 置则倾向于w欢w潜嗪w坏闵希w位则w谋壤w细措州恢蒙嗦的比例高于 其它碱基,与文献报道结果类似【WWW。
2. 222
22
22
22
22
3对她二级结构信息:文献报道,编辑位点两侧的序列所形成的二级结构对位 点的编辑至关重要,一般认为编辑位点两侧序列形成分了内双链结构是作为
点的量翻:〜二级结构【3.弘333渲33鑫坏愕亩3督昴褂胛颐鞘褂盼333预测
用的。
我们认为没有碱基与之对位;另外,我们提取编辑位点两侧序列中落在双链上碱
3313
图3悍掷嗥髦杏玫降豚3二级结构信息示意图
33构建数据集
训练集,选取3个位点作为阴性测试集。随机分组过程采用3语言编写脚本实
33性能评估
我们采用总体正确率333333333、灵敏性333333峋3以及特异
其中,
我们采用留一法33333欧3帽?333耽33撕3, 33d对分类器效果进
行评估,即每次从训练集数据中每次取出一条作为测试集,将剩余的数据作为训 练集进行训练,构建支持向量机模型,并对取出的一条数据进行测试,如此测试 所有的训练集数据,根据所得的结果对分类器性能进行评估。这种评估方法被认
采用随机函数将阳性数据集按照构建数据集的方法随机分组,包括阳性训练
「位点数据矢量化
-仕---斜喔编码方式为 ,即每个碱基增加四维向量。
作者建议,选用径向基-也-核函数进行分类,为得到最佳分类效果,采用作者
提供的参数选择工具面珅勺『鲜实姆7植问 莺筋厂敲以及
-测试集分类预测
所有落在第一象限的为分类效果灵敏度以及特异性均较好的分类器,可明显看
表什肖脆门对分类器性能评估结果
结果如图门荆18i甯瞿p驮^饨昴([杂刹牝值分别为m、m、
图i褂盼i曲线评估分类器对测试集数据分类效果
率、序列保守性、浦睾二级结构等三个方面提取特征,对于碱基频率特征我们 使用单碱基、二聚体、三聚体碱基频率分别测试分类器效果,我们发现当采用三 聚体碱基频率做计算时分类器性能最优;另外,对于编辑位点上下游各一位碱基 这个特征,我们尝试不同的矢量化方法,除了直接将碱基矢量化为二进制数字以 外,我们使用构建打分矩阵的方法对输入向量进行调试,打分公式为
在构建分类器过程中,我们构建的数据集为i维的矢量化数据,于是我们采
分类效果较直接输入数据差。
实现了利用机器学习方法识别编辑位点的设想。i提供了一种不依赖转录组数
i翅编辑位点识别工具,为发现低转录丰度区域的编辑位点提供了
经过上一章介绍,我们认识到0映0肇瓦
织特异发生的。载脂蛋白00000000培00基因在小肠及肝脏中均表达,
前终止,产生小肠特异表达的蛋白000,而该基因同样在肝脏中表达,却没
。,畀杂志上报道了在线虫的生殖腺细胞中特异编辑的基因西00,该基因密码子 00谏0诚俟赴0斜惶匾斓谋嗦。洛0导致编码的氨基酸由脯氨酸变为亮氨
酸,而这种改变在非生殖腺细胞中是没有的。种种迹象表明,0^编辑作为一 种特殊的转录后修饰现象,与可变剪接活动类似也存在组织特异性【0】;另外, 0。等人0。发现单磷酸肌iroooooooooooj?o在大鼠中具有组织
特异的分布规律,由于005t00发挥。耿0纂编辑位点功能所必须的,所
以从侧面证明了。耿0狷
Z前识别组织特异的编辑位点一般采用分子生物学实验的方法,这些方法不 仅费时、费力,而且由于ottoao.w编辑位点大多是在人类转录组数据中识别 的,若通过分子实验去验证组织特异性也存在材料来源问题的障碍。而目前,大
为通过统计学手段完成组织特异性0眠。瓯 们用到了以F数据:00缺。狷
44444 444
44喀
444
4. 4 4. 44簸4/44
44
i侗蟹橹i匾霞ii揣
我们通过搜集整理以上数据库数据,建立了以统计学方法为核心的组织特异 岫洞i i嗪i坏阅侗鸩呗裕i i隽轿掏既缤i所示。
织中支持位点编辑的00数目00黄湿。橹0徒氤000、其它 组织中支持位点编辑的00数目00000000
。。叩00海筏欧川 尸
同理,
即内'咖G篇万
法得到的组织特异性的编辑位点按照‘涤尚〉酱蜻乃承蚪‘信判颍'矗蔻
其中0画瓒£南灾。运。剑。究翁馍瓒万0. 0,况00写0锻棚坏跳值
按照从小到大排列顺序,。为第0鑫坏愕)1值,按照以上公式拒绝所有的。殖 个假设,即认为成。的值在拒绝假设中是可信的。
属于扁桃体特异的位于重复序列上的。趺0斯的编辑位点。这0个组织特异的编
固器盟。扈
noooo
i oooo^oo
。个组织特异性的ottofi®蛆编辑位点在组织中的分布
中特异编辑的位点,其基因组位置为0湃旧0甯毫吹纳希曲蓟0蝴苔00,
000的00唬0芾胱拥牡退OOOOOO,所
编码氨基酸未发生改变仍为丝氨酸;另一个是血液组织特异的编辑位点,也位于
通过分析我们发现气管组织特异的编辑位点000. 00000,刚好落在
000
00 十 000
0000000
0000000
00000
0000 000
000嬲
CCCCC ccccc c