资源预览内容
第1页 / 共39页
第2页 / 共39页
第3页 / 共39页
第4页 / 共39页
第5页 / 共39页
第6页 / 共39页
第7页 / 共39页
第8页 / 共39页
第9页 / 共39页
第10页 / 共39页
亲,该文档总共39页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
信息采集技术,信息采集的途径与方法(二),一、光盘检索采集方法,光盘检索简介,光盘检索: 光盘的使用起始于70年代,最初主要用于制作激光唱片。80年代以来,随着计算机技术和数字化计算机的发展,光盘才开始应用于文献信息领域。光盘在文献信息领域的应用对信息的存储介质(纸、磁介质、缩微胶片等)带来了革命性的影响,并强烈地冲击着联机产业。由于以CD-ROM为代表的光盘技术具有易用、存储容量大等独特的特点,因而受到了人们的普遍欢迎,并很快发展成为一种新的检索系统光盘检索系统。90年代初期,光盘数据库检索系统以它存储数据量大、操作简单、检索效率高、成本低廉、运行环境要求简单等特性,在高校图书馆中的到了广泛的应用,达到了它的顶峰时期。近两年来随着Internet的普及使得光盘数据库检索系统逐渐发展为光盘网络检索系统,但是目前光盘数据库的独特的优点使它仍然成为利用现代化手段进行文献检索的主要方式之一。,光盘检索的特点,优点: (1)运行速度快 光盘数据库采用单机检索,不受检索线路是否拥挤的影响,即使连接在校园网上,由于传输距离较近,其运行速度也比较快。 (2)成本低,检索效果好 一般而言,CD-ROM数据库的检索费用比联机检索费用低得多,并具有很好的检索效果。购买CD-ROM数据库后,在一年内可以任意使用,利用率愈高,分摊的成本愈低,且在整个检索过程中不涉及远程通信网络问题,也不需要使用专线电话之类的通信线路,并考虑机时费与流通量的问题,没有联机检索按时间收费的紧张感,可为用户提供良好的检索条件和环境气氛。 (3)下载方便 用户可以方便地将光盘上的部分所需数据拷贝到软盘或其他计算机系统里,从而形成本部门或个人的局部数据库,以便随时查询。 (4)安全性能高 对于光盘数据库来讲,它是只读光盘,具有不可擦除性,更不会因病毒而造成文献丢失。,光盘检索的特点,缺点: (1)使用范围有限 目前光盘数据库的规模和容量有限,一般都以某一领域学科为主,不可能囊括所有学科,而且受到所购置光盘专业种类的限制,有时会影响查全率。 (2)更新周期长 一般的光盘数据库更新需要3个月,最快也需要1个月。 (3)检索系统不兼容 不同出版商制作的光盘数据库不能在一个系统中兼容,使用上有很多不便。 (4)需要不断换盘 一个大型数据库,一般都是几张光盘,特别是全文数据库,例如中国学术期刊全文光盘数据库,每年都有一百多张光盘,检索时需要不断更换光盘。,光盘检索提供的服务,(1)追溯检索服务 目前引进的CD-ROM数据库一般存储近510年的文献,对科研项目的研究提供追溯检索的服务。 (2)定题服务 定题服务是为了跟踪某课题的最新动态,按用户事先预定的检索内容,主动连续地从新到的文献库中检出有关信息,提供给用户。CD-ROM数据库检索系统还具备保留和重新执行检索策略的功能,可以对检索策略进行任意修改和补充,因此实施定题服务是比较方便易行的。 (3)专题追溯检索服务 教育技术研究者在开始一项新课题研究时,需要系统全面地了解这一课题的进展情况,需查找过去若干年中前人有关此课题的文献资料。由于CD-ROM数据库的使用几乎不受时间限制,因此可以为特定用户制定的专题提供专题追溯检索服务。由于受机时和费用的限制,联机检索系统一般不提供这类服务。,光盘检索系统,1光盘检索系统的组成 光盘检索系统由光盘、光驱、计算机和相应软件组成。 (1)光盘 数据存储单元,一般由数据库供应商提供,数据在制作过程中固定在其物理介质上,不能抹掉也无法修改,称为CD-ROM。 (2)CD-ROM驱动器或光盘塔 光盘读取的专用设备,其发射的激光束聚焦在光盘的信息轨道上,在有小孔或无小孔处形成不同的光反射,这两种不同的光反射经光学系统接收后转换成电信号,计算机二进制信息“0”或“1”,经计算机解码后,成为原纪录的数字化信息。 (3)计算机及相应软件 光盘本身是一种机读文献,需在计算机上读取。目前使用的光盘检索系统都以计算机为基础设备,在普通的计算机上加载光盘驱动器的驱动软件和数据库的检索软件,即可成为光盘检索系统。,光盘检索系统,2光盘检索网络系统 光盘检索网络系统是90年代发展起来的计算机文献检索系统。随着光盘数据库的大量涌现,单机光盘检索需频繁换盘,给用户带来不便。而且在同一时刻只能有一个读者使用,无法充分发挥昂贵的光盘数据库的效益。在计算机网络的硬件和软件环境的支持下,产生了光盘网络检索系统。目前建成的光盘网络检索系统都是以计算机的局域网为基础,有多种模式,其共同特点是拥有能同时运行几十张光盘的光盘塔驱动器,它可供上百个用户同时检索同一张光盘。 光盘数据库网络的组成包括光盘塔和各种光盘组网软件以及光盘塔服务器等。,光盘检索的基本流程,光盘检索的基本流程为根据检索的课题选择合适的数据库,并确定检索词,根据检索要求编写检索式,开始检索,检索完毕后,分析判断检索结果,如不合适需修改检索词和检索式进行二次检索,最终得到满意的检索结果。 1分析研究课题,明确查找要求 明确所需信息及文献内容、性质、水平等情况;在分析课题的基础上形成主题概念;根据检索主题概念的学科性质,确定检索的学科范围。 2选择检索数据库 由于当前数据库的种类繁多,各数据库的内容相差很大,从国内外出版的数据库来看,一般从数据库的学科范围、数据库的文献范围、数据库的国别或语种范围三个方面来确定数据库的内容。,光盘检索的基本流程,3确定检索词 所谓检索词,就是将检索要求概括成的简洁词语。检索词的选择必须符合两个要求,一是能准确反映课题的检索要求,二是必须符合数据库对输入词的要求。 4编写检索式 一个课题往往需要用多个检索词来描述其含义,这些检索词又往往需要用一定的语法规则来规定,才能完整描述检索要求,这就要编写检索式。检索式是将检索词之间的关系用布尔逻辑算符和位置算符来描述的式子。 5检索结果显示及判断 根据显示文献信息的内容和篇数,可以判断检索结果是否符合要求,如果不符合要求,则调整检索词和检索式再次进行检索。,常用的光盘数据库,1中文科技期刊数据库光盘 中文科技期刊数据库光盘由中国科技信息研究所重庆分所于1992年6月开发成功。1993年面世,其前身为中文科技期刊篇名数据库软盘版。“中刊库”是目前国内最大的综合性文献数据库,收录了自1989年以来的中文科技期刊文献200多万条,引用期刊达5400余种,年报道量26万条,该库每季更新一次。 2中国专利文献光盘数据库 中国专利文献光盘数据库(CNPAT)由中国专利信息中心出版,该数据库1992年开发成功,收录了自1985年至今在中国专利局申请并公开的全部专利信息约43万件,内容有题录、文摘和主权项,提供了关键词、发明名称、国际专利分类号、范畴分类号、申请号、发明人、公告号、优先权项、国别省市代码、申请日、公告日、申请人地址、代理机构代码共14个检索入口,其中申请人、发明人、发明名称为全文检索。 3英国科学文摘光盘数据库 英国科学文摘光盘数据库(INSPEC Ondisc)由英国IEE学会出版,是书本型Science Abstract(科学文摘)的机读版。其信息来源于世界范围内已出版了的计算机、电子学、物理学方面的文献,涉及期刊4200余种,会议、图书、技术报告和学位论文1000余种,每年提供25万条信息。INSPEC数据库中每条记录的著录项目有:论文题目、作者姓名、作者单位、期刊、会议、图书、报告、学位论文的信息、文摘、分类、叙词、自由词等主要项目,同时提供了分类号、主题词、自由词、数值索引、化学索引等27项检索入口。,光盘检索采集的模式,模式: 单用户的光盘数据库信息采集模式 点对点光盘数据库信息采集模式 以局域网为依托的光盘数据库信息采集模式 文件服务器模式/对等模式 以广域网为基础的光盘数据库信息采集模式 在虚拟网络基础上的光盘数据库信息采集模式 E-mail,FTP、传真、程控电话等,光盘检索采集的途径与方法,途径与方法 运用规范化的语言检索采集 运用非规范化的语言检索采集 运用规范化与非规范化语言相结合的检索采集 运用文献的外形特征检索采集 运用连续出版物的国际标准号码检索,二、全文检索采集方法,全文检索,一种将文件中所有文本与检索项匹配的文字资料检索方法。 全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。 功能上全文检索系统需要具有建立索引,处理查询返回结果集,增加索引,优化索引结构等功能。结构上具有索引引擎,查询引擎,文本分析引擎和对外接口等。,全文检索,西文全文检索数据库的索引机制是心自然语言的单词为基本单元的,词与词之前有自然界限(以空格为标志) 汉语的词则是以单音节为基础层层组合构成的,常用方法有“词典匹配法”、“词频统计法”、“联想词群法”、“设立标志法”、“知识与规则法”、“人工智能法”等等,全文数据库的结构与特点,结构: 包括两个部分 顺序文档结构 倒排文档结构 特点: 文本客观性/语言自然性/后控词表性/检索彻底性/较大稳定性,全文检索系统的模式,单汉字无标引全文检索系统 此系统是为了让原文每一个字都具有可检性,便通过计算机替原文的各个字都建立倒排档,以便信息人员或用户以各个单字检索入口进行检索的过程。 全文检索系统在主文档中包括题名、著者、正文等字段;在倒排档中,包括字与地址集合,其中地址集合由三元组成,即文献记录号、增加字段标识与字的起始位置。 特点: 容易实现,维护方便,检索速度慢,浪费存储空间,查全率与查准率不高,例:,为有效检索主文档中的信息,依据主文档抽取一些字建立的倒排档:,检索过程,全文后控检索系统,是为了在词与词之间建立一种指引关系,而运用后控词给予控制的体系。词与词之间有从属关系、等同关系、相关关系等。 后控词表是由专家编制的一种辅助表,并由专家定期检查、更新与完善。 系统特点:提高了查全和查准率;易产生歧义,量大时长;,A是B与E的上位词,E是B的同位词,B1、B2是B的同义词,F、G是B的相关词或近义词,例:,与信息产业相关之词,词间联系的参照符号:,三、现代信息间谍采集方法,现代信息间谍采集方法,概念现代信息间谍采集方法,是间谍机构通过派遣间谍,运用现代化手段,以合法或非法的方式,采集本国或本单位所急需的、竞争对手中有极大价值的信息的方法 现代信息间谍活动现状,现代信息间谍盛行的原因,是两军决用的秘密武器 是搞跨竞争对手的法宝 是取得奇效的上等秘诀,现代信息间谍活动的特点,间谍与工具结合 公开与隐蔽并施 盟国与友军不存 企业与企业较量 专家与学者出动 政府与民间携手 生态间谍游荡,现代间谍采集信息的方式方法,秘密方式: 高空拍摄/窃取机密/行贿拉拢/美人利诱/安插内线/威胁恐吓/破译密码/假而实之 公开方式 卫星侦察/参观考察/分析文献/会议交流/留学搜集/无偿馈赠/发表论文/外交活动,四、社会调查采集信息的方法,社会调查采集信息的方法是针对用户的需要,向各种社会活动了解其活动情况、数据与资料的方法,社会调查的方法,普遍调查(普查):对采集对象的运动状况、特征与趋向等进行全面采集与分析的方法,是统计调查的一种重要方式。 有自上而下式和自下而上式 如大规模的全国人口普查/经济普查等,社会调查的方法,问卷调查:是采用出题与回答的方式采集信息的一种方法。是进行市场调查常用的有效方法之一。 具有准确、可靠、及时的特点 问卷题目的拟定要准确、简洁、易答、省时等,社会调查的方法,问卷调查常见的题型: 是非题 选择题 品等题 比较题 填空题(比较式填空/定距定量填空) 问答题,社会调查的方法,观察调查:是信息人员深入现场后,借助于人的感觉器官与现代化设备(录音机、录像机、摄像机等)而采集信息的方法。 具体办法有: 浏览与询问结合 扮演
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号