资源预览内容
第1页 / 共38页
第2页 / 共38页
第3页 / 共38页
第4页 / 共38页
第5页 / 共38页
第6页 / 共38页
第7页 / 共38页
第8页 / 共38页
第9页 / 共38页
第10页 / 共38页
亲,该文档总共38页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
计算机科学与技术专业毕业论文计算机科学与技术专业毕业论文 精品论文精品论文 面向海量文本数据面向海量文本数据的多任务并行调度加载技术研究与实现的多任务并行调度加载技术研究与实现关键词:文本数据关键词:文本数据 海量数据海量数据 加载技术加载技术 多维数据多维数据 虚拟资源虚拟资源摘要:随着网络的发展,网络信息安全管理迫切需要存储和管理海量的文本数 据,需要高性能的海量文本数据加载和组织管理,因此,研究高性能的海量文 本数据加载技术具有重要的理论意义和应用价值! 网络信息安全管理中的海 量文本数据具有如下特点:数据产生速度高、密度大、规模大且每天 24 小时不 间断,其应用要求支持高效的全文检索。针对以上数据特点和应用需求,本文 在以下几个方面对海量文本数据的加载技术进行了研究: 1.研究了多流水线 并行加载技术。首先,将需要加载的海量文本数据均衡划分为多个独立的数据 集合,实现多个数据集合的并行加载。其次,对于每一个数据集合,充分挖掘 其流水并行,将加载过程划分为多个可以流水并行执行的加载阶段,从而实现 了高性能的多流水线并行加载。 2.在流水线内部,利用 Oracle10g 提供的分 区交换技术,在每一个分区的加载上进一步挖掘并行性,将加载划分为多个可 以并行执行的子任务。针对这些子任务之间存在的约束关系以及多个分区可以 并行加载的特点,提出了带约束关系的多任务并行调度算法,从而保障了细粒 度并行化后的并行效果。 3.针对计算资源、I/O 资源分布不均衡以及服务器 节点存在异构性的特点,提出了一种虚拟资源池技术,将每一个服务器按照其 处理能力计算资源数量,并将计算出的资源加入资源池中,进行统一的分配与 调度,从而实现异构环境下混合负载的均衡分布,达到资源的最大利用率。 基于以上技术,研制了海量文本数据的多任务并行加载系统,第三方测试表明, 该系统达到了极高的加载性能(加载峰值达 200 亿条记录/24 小时,每条记录 0.5KB)。目前该系统已经上线稳定运行了 3 个多月。正文内容正文内容随着网络的发展,网络信息安全管理迫切需要存储和管理海量的文本数据, 需要高性能的海量文本数据加载和组织管理,因此,研究高性能的海量文本数 据加载技术具有重要的理论意义和应用价值! 网络信息安全管理中的海量文 本数据具有如下特点:数据产生速度高、密度大、规模大且每天 24 小时不间断, 其应用要求支持高效的全文检索。针对以上数据特点和应用需求,本文在以下 几个方面对海量文本数据的加载技术进行了研究: 1.研究了多流水线并行加 载技术。首先,将需要加载的海量文本数据均衡划分为多个独立的数据集合, 实现多个数据集合的并行加载。其次,对于每一个数据集合,充分挖掘其流水 并行,将加载过程划分为多个可以流水并行执行的加载阶段,从而实现了高性 能的多流水线并行加载。 2.在流水线内部,利用 Oracle10g 提供的分区交换 技术,在每一个分区的加载上进一步挖掘并行性,将加载划分为多个可以并行 执行的子任务。针对这些子任务之间存在的约束关系以及多个分区可以并行加 载的特点,提出了带约束关系的多任务并行调度算法,从而保障了细粒度并行 化后的并行效果。 3.针对计算资源、I/O 资源分布不均衡以及服务器节点存 在异构性的特点,提出了一种虚拟资源池技术,将每一个服务器按照其处理能 力计算资源数量,并将计算出的资源加入资源池中,进行统一的分配与调度, 从而实现异构环境下混合负载的均衡分布,达到资源的最大利用率。 基于以 上技术,研制了海量文本数据的多任务并行加载系统,第三方测试表明,该系 统达到了极高的加载性能(加载峰值达 200 亿条记录/24 小时,每条记录 0.5KB)。 目前该系统已经上线稳定运行了 3 个多月。 随着网络的发展,网络信息安全管理迫切需要存储和管理海量的文本数据,需 要高性能的海量文本数据加载和组织管理,因此,研究高性能的海量文本数据 加载技术具有重要的理论意义和应用价值! 网络信息安全管理中的海量文本 数据具有如下特点:数据产生速度高、密度大、规模大且每天 24 小时不间断, 其应用要求支持高效的全文检索。针对以上数据特点和应用需求,本文在以下 几个方面对海量文本数据的加载技术进行了研究: 1.研究了多流水线并行加 载技术。首先,将需要加载的海量文本数据均衡划分为多个独立的数据集合, 实现多个数据集合的并行加载。其次,对于每一个数据集合,充分挖掘其流水 并行,将加载过程划分为多个可以流水并行执行的加载阶段,从而实现了高性 能的多流水线并行加载。 2.在流水线内部,利用 Oracle10g 提供的分区交换 技术,在每一个分区的加载上进一步挖掘并行性,将加载划分为多个可以并行 执行的子任务。针对这些子任务之间存在的约束关系以及多个分区可以并行加 载的特点,提出了带约束关系的多任务并行调度算法,从而保障了细粒度并行 化后的并行效果。 3.针对计算资源、I/O 资源分布不均衡以及服务器节点存 在异构性的特点,提出了一种虚拟资源池技术,将每一个服务器按照其处理能 力计算资源数量,并将计算出的资源加入资源池中,进行统一的分配与调度, 从而实现异构环境下混合负载的均衡分布,达到资源的最大利用率。 基于以 上技术,研制了海量文本数据的多任务并行加载系统,第三方测试表明,该系 统达到了极高的加载性能(加载峰值达 200 亿条记录/24 小时,每条记录 0.5KB)。 目前该系统已经上线稳定运行了 3 个多月。 随着网络的发展,网络信息安全管理迫切需要存储和管理海量的文本数据,需 要高性能的海量文本数据加载和组织管理,因此,研究高性能的海量文本数据加载技术具有重要的理论意义和应用价值! 网络信息安全管理中的海量文本 数据具有如下特点:数据产生速度高、密度大、规模大且每天 24 小时不间断, 其应用要求支持高效的全文检索。针对以上数据特点和应用需求,本文在以下 几个方面对海量文本数据的加载技术进行了研究: 1.研究了多流水线并行加 载技术。首先,将需要加载的海量文本数据均衡划分为多个独立的数据集合, 实现多个数据集合的并行加载。其次,对于每一个数据集合,充分挖掘其流水 并行,将加载过程划分为多个可以流水并行执行的加载阶段,从而实现了高性 能的多流水线并行加载。 2.在流水线内部,利用 Oracle10g 提供的分区交换 技术,在每一个分区的加载上进一步挖掘并行性,将加载划分为多个可以并行 执行的子任务。针对这些子任务之间存在的约束关系以及多个分区可以并行加 载的特点,提出了带约束关系的多任务并行调度算法,从而保障了细粒度并行 化后的并行效果。 3.针对计算资源、I/O 资源分布不均衡以及服务器节点存 在异构性的特点,提出了一种虚拟资源池技术,将每一个服务器按照其处理能 力计算资源数量,并将计算出的资源加入资源池中,进行统一的分配与调度, 从而实现异构环境下混合负载的均衡分布,达到资源的最大利用率。 基于以 上技术,研制了海量文本数据的多任务并行加载系统,第三方测试表明,该系 统达到了极高的加载性能(加载峰值达 200 亿条记录/24 小时,每条记录 0.5KB)。 目前该系统已经上线稳定运行了 3 个多月。 随着网络的发展,网络信息安全管理迫切需要存储和管理海量的文本数据,需 要高性能的海量文本数据加载和组织管理,因此,研究高性能的海量文本数据 加载技术具有重要的理论意义和应用价值! 网络信息安全管理中的海量文本 数据具有如下特点:数据产生速度高、密度大、规模大且每天 24 小时不间断, 其应用要求支持高效的全文检索。针对以上数据特点和应用需求,本文在以下 几个方面对海量文本数据的加载技术进行了研究: 1.研究了多流水线并行加 载技术。首先,将需要加载的海量文本数据均衡划分为多个独立的数据集合, 实现多个数据集合的并行加载。其次,对于每一个数据集合,充分挖掘其流水 并行,将加载过程划分为多个可以流水并行执行的加载阶段,从而实现了高性 能的多流水线并行加载。 2.在流水线内部,利用 Oracle10g 提供的分区交换 技术,在每一个分区的加载上进一步挖掘并行性,将加载划分为多个可以并行 执行的子任务。针对这些子任务之间存在的约束关系以及多个分区可以并行加 载的特点,提出了带约束关系的多任务并行调度算法,从而保障了细粒度并行 化后的并行效果。 3.针对计算资源、I/O 资源分布不均衡以及服务器节点存 在异构性的特点,提出了一种虚拟资源池技术,将每一个服务器按照其处理能 力计算资源数量,并将计算出的资源加入资源池中,进行统一的分配与调度, 从而实现异构环境下混合负载的均衡分布,达到资源的最大利用率。 基于以 上技术,研制了海量文本数据的多任务并行加载系统,第三方测试表明,该系 统达到了极高的加载性能(加载峰值达 200 亿条记录/24 小时,每条记录 0.5KB)。 目前该系统已经上线稳定运行了 3 个多月。 随着网络的发展,网络信息安全管理迫切需要存储和管理海量的文本数据,需 要高性能的海量文本数据加载和组织管理,因此,研究高性能的海量文本数据 加载技术具有重要的理论意义和应用价值! 网络信息安全管理中的海量文本 数据具有如下特点:数据产生速度高、密度大、规模大且每天 24 小时不间断, 其应用要求支持高效的全文检索。针对以上数据特点和应用需求,本文在以下 几个方面对海量文本数据的加载技术进行了研究: 1.研究了多流水线并行加载技术。首先,将需要加载的海量文本数据均衡划分为多个独立的数据集合, 实现多个数据集合的并行加载。其次,对于每一个数据集合,充分挖掘其流水 并行,将加载过程划分为多个可以流水并行执行的加载阶段,从而实现了高性 能的多流水线并行加载。 2.在流水线内部,利用 Oracle10g 提供的分区交换 技术,在每一个分区的加载上进一步挖掘并行性,将加载划分为多个可以并行 执行的子任务。针对这些子任务之间存在的约束关系以及多个分区可以并行加 载的特点,提出了带约束关系的多任务并行调度算法,从而保障了细粒度并行 化后的并行效果。 3.针对计算资源、I/O 资源分布不均衡以及服务器节点存 在异构性的特点,提出了一种虚拟资源池技术,将每一个服务器按照其处理能 力计算资源数量,并将计算出的资源加入资源池中,进行统一的分配与调度, 从而实现异构环境下混合负载的均衡分布,达到资源的最大利用率。 基于以 上技术,研制了海量文本数据的多任务并行加载系统,第三方测试表明,该系 统达到了极高的加载性能(加载峰值达 200 亿条记录/24 小时,每条记录 0.5KB)。 目前该系统已经上线稳定运行了 3 个多月。 随着网络的发展,网络信息安全管理迫切需要存储和管理海量的文本数据,需 要高性能的海量文本数据加载和组织管理,因此,研究高性能的海量文本数据 加载技术具有重要的理论意义和应用价值! 网络信息安全管理中的海量文本 数据具有如下特点:数据产生速度高、密度大、规模大且每天 24 小时不间断, 其应用要求支持高效的全文检索。针对以上数据特点和应用需求,本文在以下 几个方面对海量文本数据的加载技术进行了研究: 1.研究了多流水线并行加 载技术。首先,将需要加载的海量文本数据均衡划分为多个独立的数据集合, 实现多个数据集合的并行加载。其次,对于每一个数据集合,充分挖掘其流水 并行,将加载过程划分为多个可以流水并行执行的加载阶段,从而实现了高性 能的多流水线并行加载。 2.在流水线内部,利用 Oracle10g 提供的分区交换 技术,在每一个分区的加载上进一步挖掘并行性,将加载划分为多个可以并行 执行的子任务。针对这些子任务之间存在的约束关系以及多个分区可以并行加 载的特点,提出了带约束关系的多任务并行调度算法,从而保障了细粒度并行 化后的并行效果。 3.针对计算资源、I/O 资源分布不均衡以及
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号