资源预览内容
第1页 / 共30页
第2页 / 共30页
第3页 / 共30页
第4页 / 共30页
第5页 / 共30页
第6页 / 共30页
第7页 / 共30页
第8页 / 共30页
第9页 / 共30页
第10页 / 共30页
亲,该文档总共30页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第三届两岸三院信息技术与应用研讨会 2005-06,侯艳飞 康红勋 中国科学院计算机网络信息中心,科学数据库元数据研究与实践,第三届两岸三院信息技术与应用研讨会 内蒙古海拉尔,2005年6月1924日,第三届两岸三院信息技术与应用研讨会 2005-06,目 录,背景 科学数据库元数据的分类 科学数据库元数据标准框架 科学数据库元数据标准制定实践 科学数据库元数据管理 总结和进一步工作方向,第三届两岸三院信息技术与应用研讨会 2005-06,背 景,元数据与资源 元数据:“关于数据的数据” 。进一步解释:描述资源的特征的结构化数据。 资源:可以为人类或者计算机系统作为离散的实体标识的任何东西,第三届两岸三院信息技术与应用研讨会 2005-06,背 景(Cont.),中国科学院科学数据库系统 几十家建库单位近二十年的持续建设,380多个专业数据库,13TB数据量,涉及天文、地理、生物、化学、物理、材料、环境等若干自然科学领域 无论是每个专业子库本身的数据量,还是专业子库的种类和数量,都在不断增长,第三届两岸三院信息技术与应用研讨会 2005-06,背 景(Cont.),科学数据库系统对元数据的需求 科学数据库系统门户站点暴露出专业子库级数据资源的组织相对无序,用户难以快速发现、快速选择和正确使用数据库的问题 数据库的设计者和开发者大多都没有将其最初的设计思想、数据库的结构、数据语义等相关信息明确地、显性地表达出来,为数据库自身在日后的管理和应用带来困难 各建库单位在专业子库建设过程中的独立性和自治性,导致有关专业数据库之间天然的异构性,集成和统一访问服务面临着困难,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据分类,数据资源组织管理的角度 各专业子库内的数据实例聚集成各专业子库,专业子库建设者负责专业子库内数据资源的组织 各专业子库聚集成整个科学数据库系统,科学数据库系统门户建设者负责专业子库级数据资源的组织 用户进行资源发现的角度 一般流程:查找可能需要的专业子库在相关专业子库中查找可能需要的数据实例访问和获取选定的数据实例的全部或部分内容 用户在资源发现的不同阶段,查找和访问不同粒度的数据资源,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据分类(Cont.),科学数据库元数据从描述对象的粒度分类,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据分类(Cont.),数据集元数据 数据集:以一定结构编码的相关数据的可标识集合,数据库包含在内 可进一步分为数据集通用元数据和特定元数据 数据对象元数据 数据对象:不具备数据集这样的容器性的实体,例如,一幅图像、一篇文献、一个视频、数据库中的一个数据实例(所指向的实体)等 可以划分为单数据集内数据对象元数据(例如单个数据库模式的信息)和多数据集内数据对象元数据,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据分类(Cont.),数据对象元数据 多数据集内信息对象元数据标准主要服务于相关资源的整合集成,分析的是具有相同或者相关主题的若干数据集中的数据对象的描述模式,这些数据集的共同特点是所包含的数据对象指向同一类实体,但是它们或者是异构的,或者包含了实体在不同特征上的信息 数据元素元数据 数据集元数据和数据对象元数据都是由一组数据元素/元素值对构成 数据元素元数据是前两类元数据的基础,分析的是数据元素的描述模式,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据标准框架,数据元素元数据标准,通用元数据标准,特定领域元数据标准,特定数据集类型元数据标准,数据对象元数据标准,元数据应用方案(Application Profiles),数据集层,数据对象层,数据元素,语义定义,抽象句法,编码体系,句法描述语言,具体句法,扩展和制定元数据应用方案规则,元数据管理系统,参考标准集: ISO 11179,DC, ISO 19115,EML,MPEG7,ABCD,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据标准,数据元素元数据标准 用以规范作为其他元数据标准核心组成部分的数据元素的描述模式,在科学数据库元数据标准体系中具有基础性 基于ISO/IEC 11179第三部分,并规定对于每一个数据元素,至少描述其名称、英文标签、标识符、定义、数据类型、值域、约束、最大出现次数这八个基本属性,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据标准(Cont.),数据集元数据标准 科学数据库核心元数据标准 为科学数据库系统中的所有数据集资源提供的一套通用的描述元素和规范,保证各数据集元数据标准的实施之间有较高程度的语义互操作性 按照“根元素元数据模块复合数据元素简单数据元素”这样一种树状层次结构组织 可利用科学数据库中心自主开发的“通用元数据管理和服务系统”实施,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据标准(Cont.),科学数据库生态研究元数据标准 在科学数据库核心元数据标准的基础上制定的一个Application Profile 针对生态观测、试验中产生的列表类型数据集 可借助“通用元数据管理和服务系统”实施;还开发了专门的“生态研究元数据管理系统”,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据标准(Cont.),科学数据库大气数据元数据标准 基于核心标准,针对大气观测台站产生的大量格点资料和台站资料制定的一个Application Profile,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据标准(Cont.),数据对象元数据标准 科学数据库通用图像元数据标准 针对图像提供一套通用的数据元素和规范 直接基于本标准开发图像管理系统;将本标准用作科学数据库系统内各图像数据库集成的基础 科学数据库图像管理和检索系统,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据标准(Cont.),科学数据库生物多样性数据元数据标准 以生物物种为研究对象,提供对生物物种的生物分类、分布地、形态、价值、核算序列、关联物种、相关多媒体以及其他一些方面的特征进行描述的一组数据元素,形成描述生物物种的概念数据模型 作为科学数据库系统中生物物种数据库语义互操作和集成的基础和中心 科学数据库材料数据元数据标准 面向材料数据的整合和集成,分析研究材料数据的概念数据模型,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据管理,两大部分:元数据标准管理、元数据实例管理。 对于元数据标准,以元数据注册系统进行管理 对于元数据实例,视元数据标准的具体应用而有所不同 以“通用元数据管理和服务系统”管理 以其他系统管理(例如,生态研究元数据管理系统、图像管理和检索系统),第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据管理(Cont.),科学数据库元数据注册系统 注册、管理和发布元数据模式及包含的数据元素的语义和结构的权威信息的系统 包含元数据模式、数据元素、编码体系以及三者之间的关联、元数据模式间数据元素之间的对应关系等信息 功能 基本功能:以上信息的登记、管理、发布和查询 高级功能:元数据实例从符合一种元数据模式到符合另一种元数据模式的转换,复用已有元数据模式中的数据元素创建新的元数据应用方案,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据管理(Cont.),注:目前已完成本系统第一阶段的开发工作,实现基本功能。,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据管理(Cont.),通用元数据管理和服务系统 配置不同元数据标准的XML Schema定义文件,可完成对不同元数据标准的实施 通用元数据管理和服务系统的演变 元数据工具一期 元数据工具部署在数据中心,元数据提供者远程录入元数据,提供元数据查询服务 采用集中式管理,LDAP作为后端存贮 存在的问题:LDAP查询速度慢,跨元数据标准查询可能造成深层递归和内存溢出;系统中间层和LDAP的交互式系统的主要瓶颈;用户界面欠人性化,表单过长,录入繁琐;缺乏元数据校验功能。,第三届两岸三院信息技术与应用研讨会 2005-06,通用元数据管理和服务系统,通用元数据管理和服务系统的演变 元数据工具二期 元数据工具本地安装,元数据提供者本地录入元数据 采用xml文件作为后端存贮结构,元数据实例文件通过上报方式汇总到数据中心 存在的问题:缺乏元数据校验功能;未解决不同版本元数据之间转换问题;结构描述信息抽取功能有待提高;不具备查询功能,第三届两岸三院信息技术与应用研讨会 2005-06,通用元数据管理和服务系统,通用元数据管理和服务系统的演变 从以往的元数据管理工具的使用中得出的“经验教训” 需要对数据集URI进行规范管理 需要提高工具的自动化程度,以减少人工成本,包括部分元数据的自动产生和元数据的自动校验 不仅需要简单查询功能,还需要复杂查询功能,来满足用户需求 目前的元数据管理和服务系统,第三届两岸三院信息技术与应用研讨会 2005-06,通用元数据管理和服务系统,第三届两岸三院信息技术与应用研讨会 2005-06,通用元数据管理和服务系统,元数据管理工具 一个可在本地安装的应用程序,提供元数据编辑、录入、校验、元数据上报/下载等功能 元数据以xml文件形式存贮在本地,同时可通过上报功能提交到中心SubVersion元数据存贮库中,第三届两岸三院信息技术与应用研讨会 2005-06,通用元数据管理和服务系统,元数据管理系统 部署在数据中心,基于元数据存储库 实现对元数据的集中管理,功能包括元数据实例审核、统计、版本管理、数据集URI管理、用户管理和其他附加信息管理功能 元数据存贮库分为两个部分:SubVersion版本管理库,用来存贮和管理各个版本的元数据实例;关系数据库,用来存贮和管理建库单位、URI、审核信息等其他的附加信息。 元数据服务系统 对外提供元数据服务的窗口,供查询、浏览和获取元数据信息。也通过WEB服务接口对部分用户提供应用程序接口。 综合使用xslt、js、css等技术,实现元数据的树状显示,很好地保持了元数据的层次结构,方便用户的浏览。 Xml文件的存贮采用xml数据库,解决元数据的检索难题,第三届两岸三院信息技术与应用研讨会 2005-06,通用元数据管理和服务系统,第三届两岸三院信息技术与应用研讨会 2005-06,科学数据库元数据管理(Cont.),生态研究元数据管理系统,第三届两岸三院信息技术与应用研讨会 2005-06,总结和进一步工作方向,总结 中国科学院科学数据库系统经过三年多的元数据研究和建设,目前已经完成科学数据库元数据标准框架、核心元数据标准、生态研究元数据标准、大气数据元数据标准、通用图像元数据标准、生物多样性数据元数据标准、数据元素元数据标准等的制定,并开发了和正在开发一些工具和系统,实现对元数据的著录和管理 利用科学数据库元数据注册系统,进行元数据标准的管理 已利用核心标准和通用元数据管理和服务系统,收集到科学数据库各主体库、专业子库等400多条通过了审核的元数据。基于此改进科学数据库系统门户的资源管理与服务能力 在生物多样性数据元数据标准基础上,设计了科学数据库系统内生物物种数据整合和统一访问技术方案,进行资源集成,第三届两岸三院信息技术与应用研讨会 2005-06,总结和进一步工作方向(Cont.),进一步的工作方向 元数据注册系统的完善 增加其他形式元数据实例的转换功能、增加在系统中创建Application Profile的功能 更多数据对象元数据标准的研制与应用 构建领域本体 一个长远工作目标,通过大范围交流和合作,建立特定领域内数据库建模本体,
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号