资源预览内容
第1页 / 共32页
第2页 / 共32页
第3页 / 共32页
第4页 / 共32页
第5页 / 共32页
第6页 / 共32页
第7页 / 共32页
第8页 / 共32页
第9页 / 共32页
第10页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
双语语料库段落重组对齐方法研究 http:/www.docin.com/sundae_meng渣柯氯整魏虚恤刹裤夏喂擂拜楚撑清伍因讽邹南袜筋工弟鼓湘睫沛巾靳幽【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究主要内容引言方法结果讨论http:/www.docin.com/sundae_meng拴祝辫爸太腋喷汲郡宜抖眨链际貌阶攘追械懊冗梳莹措拉谰橙顾饵秋琳骋【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究构建双语语料库机器翻译和跨语言检索解决人类的不同语言之间的障碍双语资源给机器翻译和跨语言检索提供了有力的支持,尤其是双语语料库构建双语语料库(英汉双语语料库)是一项十分有意义的工作http:/www.docin.com/sundae_meng魏沙围勘毕严聘得骋奥危某丛绸砂驭骗在流甭畏回清遇械枉沛午问泊忠膨【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究真实双语文本的特征网络资源丰富篇章级对齐内容分散格式复杂风格各异http:/www.docin.com/sundae_meng崎陨接瞻眠且亡扰什鼻馈念堪瑶杨慷饲邦刑苹蛔馏档醉厌齐铆抡憨卑锁嫁【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究目前的问题不同的对齐精度段落、句子、词和短语的对齐上一级的对齐是下一级对齐的基础经过统计发现90%以上的电子文本中的段落并不对应或者没有明显的段落标记http:/www.docin.com/sundae_meng幻蚜雨浅如答戚睡洱栋贺驼痔其榔锹宏情哭枝绰锋百字吏颁委酷燃可格洗【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究段落对齐和段落重组对齐段落对齐是进行对齐加工的第一步对段落对齐研究的很少段落对齐的目的是句子对齐段落重组对齐是打破原有的段落标记,对篇章进行重新分段,仅仅在形式上对篇章进行对齐http:/www.docin.com/sundae_meng惰顷宾涎蔼馋馈帕蔓家荔仟况订河迅驱聘按菩次诉赐慧亭址乒屑废凯吾何【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究句子对齐基于长度的句子对齐长句对应的译文长,短句对应译文短根据长度的不同单词个数-Brown et al. (1991c)字符的个数-Gale and Church (1993)基于词典的句子对齐http:/www.docin.com/sundae_meng喉缴良焦漓厉恩左捎降琴司坊惭猩蜕傅兰叼匪题谚殷锤锰玫饯暂矗巩鬼咙【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究段落重组对齐(1)自动分段对齐研究(中科院计算所)将原有的段落合并通过汉英词汇对之间的特征比较,包括词的出现频率、字节偏移量、出现间隔向量找到可以用于分段的锚点词汇对通过锚点词所在句子的匹配获得锚点句子进行分段http:/www.docin.com/sundae_meng昌塌你详锦捏硒陆俄泵找巢奸东趣隔候腆矾侮抒邮牛硬弃着熄币友慑裴方【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究段落重组对齐(2)适合含有较多高频固定词的双语文本适合于术语提取数据稀疏(较少高频固定词)需要分词等预处理http:/www.docin.com/sundae_meng僳弱棺础卜痰赊始育呸岔幢斜总蘑狐胖析傈铸腰皆款佣伊言狄跪氖肠鞘氓【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究主要内容引言方法结果讨论http:/www.docin.com/sundae_meng揍帅渔喻闭些抡玄荤斜枫选锦利郁颗媒妻淀浆瞒淖坍历嫂橡煽一俞汀进碑【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究几个概念锚点 句珠二分图(完全二分图)匹配 最优对齐匹配 http:/www.docin.com/sundae_meng飞劝桩彝泪谈饭徊檬茧从伟梁问怖弦用亢欧治菇龙熔耻空聂榷陛怂湾咳括【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究锚点和句珠锚点(anchor)Brown在对Hansard语料库进行对齐时,引入了锚点的概念,认为锚点的作用就是将整个语料库分成一些小的对齐片断句珠(Sentence bead) 每一对相对应的句子称作句珠http:/www.docin.com/sundae_meng映撅尧使蔑祈挫祈翻残氧脏界迁亩错恿睬汗蚊愿狸实朋喻鸥觉湖会墨乐喂【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究二分图设G为无向图,G=,结点集V有两个子集V1,V2满足V1 V2V,V1V2,使G的每一条边eE时,e=vi,vj,viV1,vjV2,即同一子集Vi(il,2)中的任何两个结点都不邻接,称这样的图为二分图。http:/www.docin.com/sundae_meng嚏澡彤坯距戎矛蔼镐纷笋窿厂醋芜绽卯馋婚电扣俞会陌势鱼勘乞鉴肃胞躲【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究完全二分图G记为G=V1,E,V2。对于二分图G中,若V1的每个结点与V2的每个结点相邻接,反之亦然。则称G为完全二分图,若|V1|m,|V2|n,则简记为Km,n,如图所示 http:/www.docin.com/sundae_meng凸沉勃兴巧甫卒饲汽月戏挚瞥让惩颓卤证券持巧碟盅釉购处察瘴肩向氖精【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究匹配(Matching) 设G是二分图,如E的一个子集M中的边无公共端点,即任两边均不邻接,则M为G的一个匹配。最优对齐匹配http:/www.docin.com/sundae_meng屉琼修星依瘟逮茎鸡搭具具固恬慷帛并贡乍妥裸蜂必揪厘扑加庭流屏怔陛【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究最优对齐匹配M为完全二分图G=的一个最优对齐匹配 ,满足以下条件:二分图中所有的节点是有序的 若|S|=m,|T|=n则首先默认sm,tnE;M中若存在一条边e=si,tj满足d(si,tj) D(D为特定的阈值);此时,M中不存在边sk,tr使得kj或ki且rj成立;采用贪心算法依次在完全二分图G中选取权值最小的边,直到M中边数达到饱和。http:/www.docin.com/sundae_meng痕华捅捶加巨螺赊城罗售延捍廷闷裳苏寥己贫染店珐顷祸褂媚州湘言阔枉【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究最优对齐匹配(图示)http:/www.docin.com/sundae_mengS1, S2, S3, S4, S5, S6, S7 Sm-2, Sm-1, SmT1, T2, T3, T4, T5, T6, T7 Tn-2, Tn-1, Tn 羽嘱傅筋训甭盲颈甥拓东敖请戎立邢频涌催铅迫撕桔剁枯蕴刊侮堰角顷款【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究段落对齐问题和模型的关系S(s1, s2, s3,si, sj, sm) V1T(t1, t2, t3,ti, tj, tn) V2(1:1)型句珠(si, tj)的集合Km,n默认文本中最后一句对齐sm,tnE 双语段落重组对齐 寻找最优对齐匹配http:/www.docin.com/sundae_meng涝虾担阐窟板梨做审冯戳辞芦盟奖码斌议阳嚷曲充丹京嗣五秦抬聊肖炮瘸【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究段落重组对齐的锚点选择 (1:1)型正确对齐句珠在文本中的分布情况 (1:1)的句对在全篇的比例均超过85%,并且有着良好的分布规律 http:/www.docin.com/sundae_meng付嗽哟磋侯府浩喝颓吸梨匪鹅教舱悬紧镊筋肝埂麻恐肖辞滑肄咸狈卡疫算【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究段落重组对齐总体思想篇章定位句长搭配词典校对http:/www.docin.com/sundae_meng胺心勇谗泛颓簧沧准巨衡瘁处荧镰茸兼萎紊惰矫兆阅顿鹅痴激两船猴满莽【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究形式对齐评价函数 Pi,j = a(Pui,j-P0) + (Pli,j -P0) + a(Pdi,j -P0)P0为对应文本长度之比;Pui,j为对应上文部分长度之比;Pli,j为对应句长度之比;Pdi,j对应下文部分长度之比;a为加权系数http:/www.docin.com/sundae_meng石吃束兄顿剪卧五踊舟抱夯凰陛犊荒域蚤慧斩紫楞陶胖居詹膀柏屿捍圆里【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究http:/www.docin.com/sundae_meng重组段落对齐思想第150句第50句第12句英语文本第120句第40句第10句 汉语文本P0锚点句对Pui,jPli,jPdi,j践磅叁凉戒梢收棋蕴慧精竣牙游炬届粗狸泡致瘁鸦赶站挂皇与鲁掐不贷迂【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究锚点句对的校验词典检验 L| |表示全部元素的字符长度和;Match(S)表示译文出现在汉语句中英语单词;Match(T)表示成为英文单词译文的汉语单词 ;http:/www.docin.com/sundae_meng筐扩蛾泛镍尼憨下乐癸麦钥闯冈沁巩细幽仇短舰拯宏胀搞矣抬笛诈蛀戚孙【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究主要内容引言方法结果讨论http:/www.docin.com/sundae_meng嗣印盖褐篱檬狰怖虹紧香厘疵窿页逾姜货峪弘两碟沏恰避隧检秉瞻语只痰【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究试验结果(1)召回率 = (返回段落总数 错误段落总数)/ 双语文本中(1:1)型正确句珠总数;准确率 = (返回段落总数 错误段落总数)/ 返回段落总数;http:/www.docin.com/sundae_meng屿答莎吕迷孪峭肚仙侄抹恳部咒鄙旬撒查擎爵访借皆客跋庇酵天雷辖锋鸡【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究试验结果(2)文本1文本2(1:1)型句珠总数158169提取锚点总数108121准确率99.07%100%召回率68.35%71.60%http:/www.docin.com/sundae_mengn 重组分段的结果一般每一段落的句子数在10句以内。叹舆琅笑钵杯蛙费胀逃考协腹荆支怂不堡输槽她鹿林碴抗惧辫嗜蔫庐标逮【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究重组分段的实例(1)-originalAround 30 people have staged a naked protest against GM food. The protesters spelled out no GM with their bodies in a meadow at Forest Row, East Sussex.Organiser Mike Grenville said he hoped it would send a message to the Government of peoples concern, particularly over commercial planting of GM crops.Mr Grenville, 51, a self-employed business consultant from Forest Row, said: I think people were very pleased to have the opportunity to express how we feel, how frustrated we are about what seems to be the foregone conclusion, and the question many people are saying is What do we do next?. We hope others will follow our lead and find other ways to express how we feel. We do not want GM crops planted in the country at all.http:/www.docin.com/sundae_mengn约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。n51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,跟我们一起找到其他表达内心感受的方法。我们根本不希望在这个国家里种植基因改良作物。控蔡钳叶括仪性誊钢舍帖澜溶捧锅酋游语秘阜喇贱怨曲诧仗肚蝗烽寅塞资【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究重组分段的实例(2)-Mergedhttp:/www.docin.com/sundae_mengnAround 30 people have staged a naked protest against GM food. The protesters spelled out no GM with their bodies in a meadow at Forest Row, East Sussex.Organiser Mike Grenville said he hoped it would send a message to the Government of peoples concern, particularly over commercial planting of GM crops.Mr Grenville, 51, a self-employed business consultant from Forest Row, said: I think people were very pleased to have the opportunity to express how we feel, how frustrated we are about what seems to be the foregone conclusion, and the question many people are saying is What do we do next?. We hope others will follow our lead and find other ways to express how we feel. We do not want GM crops planted in the country at all.n约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,跟我们一起找到其他表达内心感受的方法。我们根本不希望在这个国家里种植基因改良作物。铭爬黍第九徽商苛弊亚赚吞匪叔透仁恶满凸徊炭抽垫香垦预抵旅抚档盖蝇【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究重组分段的实例(3)-ReAlignhttp:/www.docin.com/sundae_mengnAround 30 people have staged a naked protest against GM food. The protesters spelled out “no GM” with their bodies in a meadow at Forest Row, East Sussex.Organiser Mike Grenville said he hoped it would send a message to the Government of peoples concern, particularly over commercial planting of GM crops.nMr Grenville, 51, a self-employed business consultant from Forest Row, said: I think people were very pleased to have the opportunity to express how we feel, how frustrated we are about what seems to be the foregone conclusion, and the question many people are saying is What do we do next?. nWe hope others will follow our lead and find other ways to express how we feel. nWe do not want GM crops planted in the country at all.n约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。n51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,n跟我们一起找到其他表达内心感受的方法。n我们根本不希望在这个国家里种植基因改良作物。勿筷吧乳嫁肃秉剿戍降阶假卡瓦处纸聋坠健铁辕屯译椒歪藕策铣烹励所史【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究主要内容引言方法结果讨论http:/www.docin.com/sundae_meng伺恭爪催古急扬妥托杖拟归峨驮情蝴孟衔乒哼求贬桔俱差凡椎妄短圆秸蔡【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究讨论有效的抑制了错误蔓延该算法有很强的鲁棒性在进行词典检验时,无需对汉语分词,实现简单,代价较小适合各种形式的语料http:/www.docin.com/sundae_meng绰死备拔够衍收猎立瞄迁指雾姜晶舰姓掐闸暑嗅珍咯假甭谓步窑可贫憎当【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究Thanks!http:/www.docin.com/sundae_meng疹勋兹热竭嘱捣裔腻病迹障艘切滤郁崎现撼蓉屠智禁盈启滩熏仰永捞勋瞩【大学】双语语料库段落重组对齐方法研究【大学】双语语料库段落重组对齐方法研究
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号