资源预览内容
第1页 / 共46页
第2页 / 共46页
第3页 / 共46页
第4页 / 共46页
第5页 / 共46页
第6页 / 共46页
第7页 / 共46页
第8页 / 共46页
第9页 / 共46页
第10页 / 共46页
亲,该文档总共46页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
文献信息检索语言文献信息检索语言文献检索语言一、文献信息检索语言及其应用一、文献信息检索语言及其应用 (一)文献检索语言的含义及种类 1.检索语言的含义 检索语言是用于描述信息系统中文献信息的内容特征或外部特征和表达用户信息检索提问的一种专用语言。分为规范化语言和非规范化语言。规范化语言是对文献检索用语的概念加以人工控制和规范,对同义词、多义词、近义词等进行规范化处理用同一个词来表达一个概念。非规范化语言也叫自然语言,如关键词、自由词等。文献检索语言 2.检索语言的种类 (1)文献内容特征检索语言 A分类检索语言 B主题检索语言 C代码检索语言文献检索语言 (2)文献外部特征检索语言 A题名索引系统 B著者索引系统 C文献序号索引 D引文索引系统文献检索语言(二)分类检索语言及其应用 1分类检索语言的含义 是按文献内容所属的学科或专业,结合文献内容特征根据特定分类体系而编制的检索系统。通过分类体系的分类号使同学科专业文献集中在一起,以分类号作为检索标识的一类检索语言。 2分类检索语言的应用 目前分类检索语言的应用主要是体系分类语言。从知识分类角度揭示文献在内容上的区别与联系,提供从学科分类以分类号为检索标识的检索途径。 文献检索语言(三)主题检索语言及其应用 1主题检索语言的含义 是按文献研究内容或主题所编制的检索语言,以主题词、关键词作为检索标识的一类检索语言。 2主题检索语言的应用 主题检索语言的应用主要是主题词法和关键词法。 文献检索语言(1)主题词法 主题词(Subject headings)又称叙词(Descriptor)是规范化的统一的科技名词术语。(2)关键词法 关键词是从文献的篇名、标题、摘要和正文中抽取出来的能表达文献主题概念,并能被人们称作检索入口的关键性名词和术语。关键词较适应计算机自动编制索引的需要。 文献检索语言(四)医学信息检索语言及其应用 1医学信息检索语言的含义 用以表达医学信息的语言、文字、图形、图像等都必须赋予有一定规律性、易于人和计算机识别与处理的代码,即数字、字母、字符等符号。这就是医学信息编码,它是医学数据库交换和医学信息存储、检索、交流、共享的基础,也称它是医学信息检索语言。 2医学信息检索语言的应用 目前有关医学术语与编码尚无正式的国际标准,但以下医学信息编码系统已为世界各国借鉴使用。 文献检索语言 2医学信息检索语言的应用 目前有关医学术语与编码尚无正式的国际标准,但以下医学信息编码系统已为世界各国借鉴使用。 (1)国际疾病分类法(ICD) (2)国际系统医学术语集(SNOMED) (3)一体化医学语言系统(UMLS) (4)当代操作术语集(CPT) 文献检索语言二、医学主题词表及其应用二、医学主题词表及其应用 (一)自然语言和词汇控制 1自然语言 用于进行书面和口头交流的语词,其语义、情感都比较丰富。但自然语言用于情报检索存在不足之处。 2词汇控制 (1)对自然语言的语词进行压缩、优选和规范化处理。 (2)对自然语言进行语义处理,并建立一个与概念体系相对应的具有层次结构的术语体系(即词汇体系)。 文献检索语言(二)医学主题词表(Medical Subject Headings)简称(MeSH) 该表是美国国立医学图书馆(NLM)编制用于对生物医学文献进行标引和检索的权威性术语控制工具。收集约2.2万个经过规范化的医学主题词,副主题词83个。是Medline、PubMed、CBMdisc等数据库系统的主题词检索指南,也是确保主题标引者与检索者在标引文献与检索文献时用词上的标准一致。 文献检索语言 MeSH词表由字顺表(Alphabetic List)和树状结构表(Tree Structures)两部分组成。 1字顺表(Alphabetic List) 将主题词、款目词、类目词按英文字母顺序排列,并通过词下的树状结构号、注释及参照系统揭示词语间复杂的语义关系,帮助读者在检索时选规范化的主题词。 文献检索语言 2树状结构表(Tree Structure)(1)树状结构表的结构 A.类目表 B.等级表 (2)树状结构表的功能 A.检索者可按学科体系进行选主题词。 B.可帮助检索者扩大检索范围,提高查全率,以及缩小检索范围,提高查准率。 C.通过树状结构号确定所选词的学科范围。 (3)树状结构表的应用 文献检索语言三、文献主题分析与标引三、文献主题分析与标引 (一)主题标引的概念(一)主题标引的概念 1主题标引的定义 标引从字面上解释,“标”是标记,“引“是指引,标引就是用标记来指引。这里指的标引是对文献处理的标引。即:标引是对文献进行主题分析,从自然语言转换成规范化的检索语言的过程,对文献给予分类号标识的过程,称为分类标引;对文献给予主题词标识的过程,称为主题标引。文献检索语言 2标引与检索的关系 主题标引与文献检索有着密切的关系,标引采用的主题词,是建立检索系统索引标目的依据,是文献存储和检索的桥梁。文献靠标引纳入检索系统,检索是标引的逆过程,检索时通过对用户课题进行主题分析,将课题内容转换成主题词,当此主题词与文献存储时的主题词一致时,则表示检索命中。因此,标引是基础、手段,检索是目的。 文献检索语言(二)(二)标引深度与标引等级标引深度与标引等级 1标引深度 标引深度指对一篇文献内容特征和外部特征进行分析、描述所达到的深度及根据分析结果给予标识的数量。一般来说IM的标引深度2-5个,MEDLINE为十几个。标引深度,往往要根据读者对象,文献数量、专业内容、检索方式来确定标引深度。文献检索语言 2标引等级 (1)主要标引(Major MeSH Headings,Mjme) 也称一级标引。是对文献论述的重点,文献核心主题概念的标识。在医学领域中最常见的是指: A某种实验研究的直接目的和结果。 B临床疾病预防、诊断、治疗等重要的手段、方法及创新。 C一篇文章中篇幅占得较多的内容。 D尽管篇幅不多,但材料新、有创见并为读者所关心的内容。 E主要标引用加权符号“*”表示。如“*Stomach Neoplasms / surgery”。 F词表和标引规则中规定作为主要标引的概念。主要标引用于IM,也用于MEDLINE检索系统。文献检索语言 (2)次要标引(Minor MeSH Headings,Mime) 也称二级标引。指对文章论述的次重点概念的标识。最常见指的是: A有的是主要标引的组配标引词。 B为了某种研究目的所提供的载体、条件、方法和手段。 C治疗学中提到的药物剂型、剂量、投药方式。 D机械检索的特征词如:人类的性别、年龄组,动物种类(大鼠、小鼠、狗、猫),妊娠等。 E文献中作为主题词的关键词、抽提词或附加成分。如:地名、时代、文献类型和语种等。次要标引仅用于MEDLINE等数据检索系统。而IM不用次要标引。文献检索语言(三)主题标引的基本原则 1标引人员应根据词表选择与文献概念最相匹配的主题词进行标引。 2标引的主题词专指性要恰当。如果词表中有专指的下位主题词,一般不用上位主题词标引。例如:一篇关于“左心室肥大”的文章,文章内容主要论述有关“左心室肥大”时,标引时应标专指主题词“左心室肥大”,而不标其上位主题词“心脏肥大”。 3标引文献的主题概念要全面。例如:一篇关于“老年糖尿病患肝的葡萄糖代谢”的文章,就必须考虑到每个概念:按照标引规则应标:糖尿病/代谢;肝/代谢;葡萄糖/代谢;特征词:老年人;人类;男性。这样从不同角度都能检索到该篇文献。文献检索语言 4当文献中某些主题概念在词表中找不到准确的先组主题词与之对应,则应考虑用主题词与副主题词组配后的共有的概念进行标引。例如:“肾静脉 造 影 术 ”, 词 表 中 只 设 有 静 脉 造 影 术(phlebography),与肾静脉造影术概念相比尚有差异,则可用“renal veins/radiography ”对该文献进行标引更为贴切。文献检索语言 5靠词标引。当文献中某些主题概念在词表中找不到相应的主题词而又不能组配时,可采用靠词标引。可采用靠上位类的主题词标引,或选择近义词标引,即选择含义相近的主题词进行标引。必要时还可选择自由词标引。例如:(1)靠上位类的主题词标引:甲基莲心碱生物碱类(上位类)(2)近义词标引:上消化道出血胃肠出血。靠词标引可扩大检索范围,获取更多密切相关的文献。文献检索语言(四)主题标引的具体原则1、组配原则(1)根据词表规定的范围和组配原则(2)主题词的规范化(3)先组主题词 (4)副主题词使用的次数 文献检索语言 2组配的类型(1)主题词与主题词的组配(2)主题词与副主题词组配 3配对标引 文献检索语言(五)标引实习题1精神分裂症时脑的血清素代谢2眼结核导致失明3饮食脂肪引起动脉硬化4组胺引起消化性溃疡5抑郁症时的脑脊髓液中的锂6阿莫西林治疗胃炎7姜黄素抗肿瘤的实验研究8脑外科手术后的脑出血9肝脏的肝糖原的生物合成 10高丽参的化学成分和药理作用文献检索语言四、一体化医学语言系统(四、一体化医学语言系统(Unified Unified Medical Language System,UMLSMedical Language System,UMLS) (一)创建一体化医学语言系统的意义 一体化医学语言系统是自1986年至今由美国国立医学图书馆主持的一项长期研究和开发计划,该研究旨在建立一个计算机化的可持续发展的生物医学检索语言集成系统和机读情报资源指南系统,其目标是提高计算机程序“理解”生物医学词汇涵义的能力,并运用这种理解帮助用户通过多种交互检索程序,克服由于不同系统检索语言差异性和不同数据库相关信息的分散性所造成的诸多信息检索问题。 文献检索语言(二)一体化医学语言系统的主要组成部分 1超级叙词表 2语义网络 (1)语义类型 (2)语义关系 (3)语义网络 3专家词典 文献检索语言The End文献检索语言 在医学主题词表中,对每个范畴类目的主题词和副主题词的组配原则进行了严格规定。因此,在组配标引时要根据副主题词的使用范围和注释表按规则进行组配。返回文献检索语言 根据医学主题词表,对一些表达主题概念的同义词、近义词、多义词、学名和俗名进行规范化处理,选择规范化的主题词进行主题标引。避免同一主题的文献因标引不同造成分散,影响查全率。如:中风 见 脑血管意外;维生素C 见 抗坏血酸等。返回文献检索语言 根据专指原则,应首选先组主题词,有先组主题词不用组配副主题词。如:“肝糖原”不要标成“肝+糖原”而用“肝糖原”。“血管紧张素转换酶抑制剂”不标“血管紧张素转换酶类/拮抗剂与抑制剂”而标“血管紧张素转换酶抑制剂”。返回文献检索语言 在同一主题词下,对多个方面进行论述,IM最多只能用三次副主题词组配。如果需要使用三个以上的副主题词时,则主题词一般不与副主题词组配。例:胰腺炎的诊断、治疗和预防标:胰腺炎 / 诊断 胰腺炎 / 治疗 胰腺炎 / 预防和控制返回文献检索语言A用两个或两个以上的主题概念组配 例:出血性胃溃疡:胃溃疡 + 消化性溃疡出血巩膜疾病: 眼疾病 + 巩膜B 主题词与地理名词组配 例:南京的空气污染:空气污染 + 南京C主题词与文献类型组配 例:婴儿肝癌的一例报告:肝肿瘤 + 婴儿 + 病例报告D主题词与人的年龄组组配 例:老年人的心率:心率 + 老年人E 主题词与动物名称组配例:大鼠的实验性糖尿病:糖尿病,实验性 + 大鼠 + 动物 返回文献检索语言 例: A. 高血压的病因学 标:高血压 / 病因学 B. 糖尿病的饮食疗法 标:糖尿病 / 饮食疗法 而 不标:糖尿病 / 治疗 C. 尿激酶治疗心肌梗塞 标:心肌梗塞 / 药物疗法 尿激酶 / 治疗应用 D. 甲状腺功能亢进导致充血性心衰 标:甲状腺功能亢进 / 并发症 心力衰竭,充 血性 / 病因学 E甲醛中毒引致失明 标:甲醛 / 中毒 盲 / 化学诱导返回文献检索语言下面是常用主题词与副主题词的组配模式: (1)(1)当某种疾病引起另一种疾病时 疾病A / 并发症 两种疾病存在因果关系 疾病B / 病因学 例:高血压引起脑血管意外 高血压 / 并发症 脑血管意外 / 病因学 疾病A / 并发症 两种疾病没有存在因果关系 疾病B / 并发症 例:类风湿关节炎并发心肌炎 关节炎,类风湿 / 并发症 心肌炎 / 并发症 文献检索语言(2)当某种药物治疗某种疾病时 疾病 / 药物疗法 药物 / 治疗应用 例:卡托普利治疗高血压 卡托普利 / 治疗应用 高血压 /药物疗法(3)当某种化学物质引起疾病时 疾病 / 化学诱导 药物 / 副作用或中毒 例:甲醛中毒引致失明 甲醛 / 中毒 盲 / 化学诱导文献检索语言(4)当实施某种治疗技术产生的某种疾病时 技术操作 / 副作用 与手术有直接关系 疾病 / 病因学 例:门腔静脉分流术后肝昏迷 门腔静脉分流术,外科/副作用 肝昏迷/病因学 疾病 手术与并发症之间没有直接关系 手术名称 手术后并发症 例:胆囊切除术后并发肺炎 肺炎 胆囊切除术 手术后并发症文献检索语言(5)当化学药物对器官、组织或生理过程代 谢的影响和作用 器官、组织 / 药物作用 药物或化学物质 / 药理学 例:甘露醇对冠状动脉超微结构的影响 甘露醇 / 药理学 冠状动脉 / 药物作用 冠状动脉 / 超微结构文献检索语言(6)疾病状态下,检测血液、尿液、脑脊髓液中的化学物质 疾病 / 血液(尿、脑脊髓液) 化学物质 / 血液(尿、脑脊髓液) 例:孕妇血液中血清素的含量 妊娠 / 血液 血清素 / 血液文献检索语言(7)疾病状态时,血液、尿液、脑脊髓液中的酶变化 疾病 / 酶学 酶 / 血液(尿、脑脊髓液) 例:脑膜炎病人血中的醛缩酶 脑膜炎 /酶学 醛缩酶 /血液文献检索语言(8)当疾病状态时,某器官对某药物、化学物质或酶的代谢 疾病 / 代谢(酶学) 器官 / 代谢 药物、化学物质 / 代谢例:甲状腺疾病时肾的脱碘化作用 甲状腺疾病/代谢 肾/代谢 碘/代谢 返回文献检索语言 超级叙词表是大型的、多词源。多语种的生物医学词库,包括概念、术语、词汇及其等级范畴、属性以及词间关系等。返回文献检索语言 UMLS的语义网络是为表达概念、术语间错综复杂的关系而设计的,它为超级叙词表中所有概念提供语义类型、语义关系和语义结构。2005年AA版的语义网络设计了135种语义类型和54种语义关系。 返回文献检索语言 通过专家系统实现词汇兼容专家词典是一个包含众多生物医学词汇的词典。它是在美国国立医学图书馆自然语言处理专家系统项目的基础上开发出来的。 返回文献检索语言 135种语义类型被设计为等级结构,其高层分为“物”和“事”两大类由此展开形成“树形等级结构”。 例如:语义类型“获得性异常”和“诊断过程”在等级结构中的位置是:A 物 B 事1实体物 1.活动1生物体 1.行为 2解剖学异常 2.日常或娱乐活动 1胚胎结构 3.职业性活动 2解剖学异常 1.卫生保健活动 1先天性异常 1.实验室过程 2获得性异常 2.诊断过程返回文献检索语言 语义类型是语义网络的节点,节点与节点之间的关系即为语义关系。最基本的语义关系是“is a”关系,表示“隶属“关系,通过它建立了节点与节点之间的一种等级关系,这种等级关系的最大特征是它的继承性。即下一级节点对上一级节点的继承关系。例如,上例中“获得性异常”与它逐级隶属的上位语义类型之间的语义关系都是“is a”关系。 返回文献检索语言 由语义类型和语义关系构成了网状的语义结构,它起着统领超级叙词表概念的作用。因为超级叙词表的概念来自许多不同的词表、它们有各自的结构体系,语义网络将全部概念划分成组,每一组共享几种特定的语义类型,语义类型又共享几种语义关系,从而使概念高度结构化。 返回文献检索语言
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号