基于分布式集群的互联网音乐信息采集系统-

产品开发中心,基于分布式集群的互联网音乐信息采集系统,现有的产品资料信息不能满足内容发布的需要互联网音乐信息急速膨胀，单机爬虫性能上不能满足项目需要,咪咕播放器后台主要数据流程结构图,系统主体架构介绍,相关研究介绍Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架，基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序，并将其运行于由成百上千个结点组成的大规模计算机集群上。主要应用企业：IBM/YAHOO/GOOGLE,系统模块设计,信息整理模块主要解决方案,系统音乐信息数据表结构,分布式并行计算（Map/Reduce）在系统中的应用,系统测试,项目所取得的技术成果,完善无线音乐基地互联网音乐资料库，有效解决门户、音乐随身听等渠道使用音乐信息困难的局面。分布式集群系统，能够有效降低项目硬件成本，只需要添加便宜的pc机作为集群的扩充，同时也解决了系统冗余备份的问题，保证了系统的稳定运行。单机的爬取速度有限，分布式集群系统能够为每个子节点生产若干任务，独立的进行信息抽取，提高网络带宽使用率、节约抓取时间。可扩展，基于Hadoop的设计思路，让系统不论是存储能力还是计算能力上都是可扩展的。可靠，分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性，该解决方案未来可广泛应用于中国移动无线音乐基地其它项目中。高效，分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式，为高效处理海量的信息作了基础准备。,项目下一步的工作,进一步演进和扩展系统的功能，满足业务部门需求，技术上，持续创新，更加准确的进行音乐信息抽取由于音乐的信息量很大，且具有很强的地域性和个性化语言，应此在这方面歌曲的整理融合上，更多要加入特征化的音乐知识库，使来自各个信息源的歌曲融合更加准确。扩展和定制分布式集群系统，使其能够提供更为强大的计算能力，为无线音乐基地的其它产品应用提供系统支撑。加强Web和Console Administrator的可操作性，尽量让系统的绝大多数技术操作在上面解决，比如可以在线配置正则模板、在线定义抓取规则。由于互联网抓取的个别信息，本身是杂乱无章、个性化地域性也特别严重，从技术上规整所有的信息肯定是不可能的，因此在第二期，将提供在线编辑平台，提供给编辑等内容整理人员进行信息修正。,谢谢！,