资源预览内容
第1页 / 共12页
第2页 / 共12页
第3页 / 共12页
第4页 / 共12页
第5页 / 共12页
第6页 / 共12页
第7页 / 共12页
第8页 / 共12页
第9页 / 共12页
第10页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
产品开发中心,基于分布式集群的互联网音乐信息采集系统,现有的产品资料信息不能满足内容发布的需要 互联网音乐信息急速膨胀,单机爬虫性能上不能满足项目需要,咪咕播放器后台主要数据流程结构图,系统主体架构介绍,相关研究介绍Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。 主要应用企业:IBM/YAHOO/GOOGLE,系统模块设计,信息整理模块主要解决方案,系统音乐信息数据表结构,分布式并行计算(Map/Reduce)在系统中的应用,系统测试,项目所取得的技术成果,完善无线音乐基地互联网音乐资料库,有效解决门户、音乐随身听等渠道使用音乐信息困难的局面。 分布式集群系统,能够有效降低项目硬件成本,只需要添加便宜的pc机作为集群的扩充,同时也解决了系统冗余备份的问题,保证了系统的稳定运行。 单机的爬取速度有限,分布式集群系统能够为每个子节点生产若干任务,独立的进行信息抽取,提高网络带宽使用率、节约抓取时间。 可扩展,基于Hadoop的设计思路,让系统不论是存储能力还是计算能力上都是可扩展的。 可靠,分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性,该解决方案未来可广泛应用于中国移动无线音乐基地其它项目中。 高效,分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。,项目下一步的工作,进一步演进和扩展系统的功能,满足业务部门需求,技术上,持续创新,更加准确的进行音乐信息抽取 由于音乐的信息量很大,且具有很强的地域性和个性化语言,应此在这方面歌曲的整理融合上,更多要加入特征化的音乐知识库,使来自各个信息源的歌曲融合更加准确。 扩展和定制分布式集群系统,使其能够提供更为强大的计算能力,为无线音乐基地的其它产品应用提供系统支撑。 加强Web和Console Administrator的可操作性,尽量让系统的绝大多数技术操作在上面解决,比如可以在线配置正则模板、在线定义抓取规则。 由于互联网抓取的个别信息,本身是杂乱无章、个性化地域性也特别严重,从技术上规整所有的信息肯定是不可能的,因此在第二期,将提供在线编辑平台,提供给编辑等内容整理人员进行信息修正。,谢谢!,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号