资源预览内容
第1页 / 共16页
第2页 / 共16页
第3页 / 共16页
第4页 / 共16页
第5页 / 共16页
第6页 / 共16页
第7页 / 共16页
第8页 / 共16页
第9页 / 共16页
第10页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
求职简历信息的自动抽取-任宁求职简历信息抽取的意义l大型公司人力资源库的动态更新 l猎头公司建立人力资源库l招聘网站便利用户l网上进行的各种认证、报名的需要 求职简历的特点l求职简历范例l结构化文本l半结构化文本l非结构化文本求职简历的构成求职简历的“A+B+1”结构模式 lA部分:个人信息l此外教育背景、实践经历、个人评价还有其他 信息的部分内容也出现在这一部分。lB部分:教育背景、实践经历和个人评价l此外可能含有其他信息和联系信息中的部分内 容。l“1”:联系信息l联系信息既可能出现在A部分,也可能出现在B 部分的末尾。把求职简历的格式以“A+B+1”模式来描述 的原因l在A部分,各简历信息基本是以“项:值” 格式存在的。即前面是简历项名称,后面 是简历项内容,中间用分隔符(可能是“ :”、制表符或空格)隔开。值的部分是 表达单纯概念的简单信息,往往是一个短 语。l而在B部分,各简历信息的值相对复杂, 为组合概念,项、值之间多以换行分隔。 “A+B+1”的具体构成 求职简历信息的抽取方法 l求职简历A部分简历信息的抽取方法 l求职简历B部分简历信息的抽取方法 l识别求职简历A部分与B部分的分界 l“1”的定位和处理 求职简历A部分简历信息的抽取方法 l按顺序一行行读入文本;l去掉每行空格;l以A部分简历信息中常见的简历项名称做 触发词语,遇到触发词语则替换成“换行 符+触发词语”的格式;l对A部分每一行进行处理,提取触发词语 作为简历项名称,后面的部分做为简历项 的“值”。求职简历B部分简历信息的抽取方法l按顺序一行行读入文本,去掉“【”、“】” 、“”等修饰美观的成分。l以B部分简历信息中常见的简历项名称做 触发词语,遇到触发词语则以触发词语作 为“项”,后面的部分作为“值”,直到遇到 下一个触发词语为止。识别求职简历A部分与B部分的分界l顺序遍历文本,搜索第一个B部分触发词 语的位置,判断此触发词语与其“值”之间 是否有换行符分割。若有,则认为此处是 A与B的分界。否则,继续向后遍历,寻 找下一个B部分触发词语。“1”的定位和处理l“1”联系信息有时出现在A部分,有时出现 在B部分之后(即文本末尾)。对这部分 信息,处理方法如下:l利用联系信息触发词表定位联系信息;l对于联系信息部分以与A部分相同的方法 进行处理。抽取结果 结论及未来工作展望 l由于时间有限,作者的水平也有限,本研究还 存在很多不足,在未来的工作中,希望能尽量 减少这些不足。l首先,本研究的测试结果是建立在封闭测试基 础上的,开放测试缺乏。l其次,还没有对组合信息内部进行分析和处理 。比如工作经验信息,只是将应聘者的工作经 历作为一个整体提取出来,没有对其工作年限 、任职部门、担任职务和所负责的主要内容作 进一步的分析和处理。l第三,未进行简历项名称的识别。完毕,谢谢。
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号