资源预览内容
第1页 / 共25页
第2页 / 共25页
第3页 / 共25页
第4页 / 共25页
第5页 / 共25页
第6页 / 共25页
第7页 / 共25页
第8页 / 共25页
第9页 / 共25页
第10页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
知识产权出版社汇报人:王维自动数据自动数据加工方法与技术研究加工方法与技术研究课题的提出理论依据自动摘要抽取自动关键词标引模板自动分类相关短语词典总结和展望报告提纲报告提纲一、课题的提出一、课题的提出专利数据每年大规模的递增我局的信息化建设中,专利数据加工是一项十分重要的工作人工处理无论从成本还是效率上都无法满足要求 二、理论依据二、理论依据自然语言理解自然语言理解自然语言理解是计算机科学领域与人工智能领域中的一个重要方向。简单的讲,它就是研究如何才能使计算机理解人类的语言,研究人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言理解是一门融语言学、计算机科学、数学于一体的学科自然语言理解技术在专利信息服务中的应用方向自然语言理解技术机器翻译信息检索专利分析数据加工数据加工中翻外外翻中语义检索相似性检索自动聚类智能预警自自动动分分类类自自动动标标引引跨语言检索相关概念联想自自动动摘摘要要三、本课题主要研究内容三、本课题主要研究内容自动摘要提取自动摘要提取:给定一篇专利文本,从该文本中自动提取出该篇文本的摘要。自动关键词标引自动关键词标引:给定一篇专利文本,从该文本中提取出最能够表达该文本意义的若干个关键词。自动分类训练自动分类训练:即专利分类模板训练。根据给定的分类(例如IPC分类)训练语料,训练统计语料中的分类文本特征生成专利分类模板。相关短语词典相关短语词典:给定一批短语,根据专利背景库以及给定的短语、生成与每一个给定短语最相关的短语组,并按照一定的格式生成相关短语词典。每期每期原始数据原始数据模模板板分分类类等等自自动动化化分分类类组组件件自自动动摘摘要要等等自自动动化化标标引引组组件件人人工工校校对对人人工工校校对对反馈反馈反馈反馈四、自动摘要提取及其应用四、自动摘要提取及其应用 词词频 词词的权值句句法结构句句的权值篇章篇章位置线索词线索词片段去重算法输出参数设置具体步骤:具体步骤:分析篇章结构分词和统计计算词在句子中的权值计算句子的权值按权值排序片段去重分析平滑处理输出参数限制输出五、自动关键词标引及其应用五、自动关键词标引及其应用规则与统计相结合词语位置出现频率分布情况词语的类型最后打分训练阶段:对文本进行分词和词性标注使用特征提取技术,抽取有用的文本特征根据提取的文本特征得到统计分类规则将分类规则转换成分类模板分类阶段:对文本进行分词和词性标注使用特征提取技术,抽取有用的文本特征将提取的文本特征表示成文本向量将文本向量送入分类器,计算文本向量与分类模板之间的距离,确定该文本的类别六、分类训练及其应用六、分类训练及其应用 七、相关短语检索和词典七、相关短语检索和词典 目的:获得词之间的关联关系,使检索更加准确途径:1 从用户检索词中挖掘2 从专利文本中挖掘洗手液香皂洗衣液洗涤用品基本步骤:对大量专利文本进行预处理自动抽取出关键词(短语)当外界输入一个短语A时,根据语义词典、语法结构、共现概率、同义词词典等找出与其最相关的短语A1、A2、A3( A: A1 A2 A3 )即成为相关短语词典中的一条记录八、存在的不足及展望存在的不足及展望综上所述,本课题主要研究了的自动摘要提取、自动关键词标引、分类模板训练、自动相关短语词典四方面的方法和技术,且目前均已步入实用阶段。实践证明这些自动化的专利数据加工方法与技术大大减轻了人的工作量,明显的提高了工作效率,具有非常重要的意义。然而在目前,人们对自然语言的研究刚刚起步,人类语言的多样性和复杂性使得计算机自动处理的结果与人工加工的结果有不小的差距,很多问题有待改善,尤其是对于自动摘要和自动分类系统来讲。不过我们乐观的看到,随着研究的继续深入和各方面投入的增大,自然语言处理在一些专业领域,尤其是像专利这类格式比较统一的文本,必定会取得重大成功,产生出更准确、更高效的自动化数据加工方法与技术。让我们拭目以待。谢 谢!
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号