华中科技大学 硕士学位论文 基于文本聚类的P2P流媒体特征码提取技术研究 姓名:李佳 申请学位级别:硕士 专业:信息安全 指导教师:李芝棠 20090526 华 中 科 技 大 学 硕 士 学 位 论 文 I 摘 要 把 P2P 技术引入到流媒体传输中而形成了 P2P 流媒体技术在这种技术中流 媒体用户不只是下载媒体流而且还把媒体流上载给其他用户但是对于宽带运营 商这些 P2P 软件占用带宽很大为了保障其他用户的正常使用运营商需要投入 大量的资金用于网络建设因此研究当前流行的与未知的 P 2 P多媒体流的特征 并对其进行特征码的提取与分类成为亟待解决的问题之一 目前 对于 P2P 技术的研究和应用都进行得如火如荼 尤其是文件共享型的 P2P 应用但是对于 P2P 流媒体检测技术的研究却很少基于这种现状本文做的工作 主要内容有以下几点 提出采用基于统计的方法对 P2P 流媒体进行特征码的提取 然后对提取出的特征 码采取文本聚类的方式进行归类着重讨论如何运用文本聚类的方式对提取出的特 征码进行归类的问题 主要探讨了文本聚类的三大步骤文本预处理特征抽取和聚类算法文本预 处理这一模块采用适合本实验的基于统计的 Hash算法对字符串进行固定长度的 切分运用三次求字符串的 Hash 值来避免字符串不同而 Hash 值相同的冲突成 功提取特征字符串然后对文本文档进行字符串频率统计并选择一个较合适的 阈值来进行特征的抽取最后分析适合本系统的聚类算法讨论了基于划分的方 法和基于层次的方法分别对这两种方法的优缺点以及适用范围作出了详细的比较 找出了适合本系统的聚类算法k-平均算法 设计了一个 P2P 流媒体的特征码提取以及分类的系统把文本聚类的技术成功 应用到对 P2P 流量的特征字符串的分类中并通过实验验证了算法的可行性 关键词对等网络流媒体文本聚类特征码提取与分类k-平均算法 华 中 科 技 大 学 硕 士 学 位 论 文 II Abstract Introducing P2P technology into streaming media transmission forms the P2P Streaming Media technology. In this technology, streaming media users do not just download the media stream, but also upload media stream to other users. In order to protect the normal use of other users, operators need to put in a lot of funds for network construction because of P2P software occupied a great of the bandwidth. Therefore, the study of popular and unknown P2P multimedia streaming features, and its signature of the extraction and classification, has become one of the issues to be settled urgently. At present, P2P technology for research and application are in full swing, especially the type of P2P file-sharing applications, but the detection of P2P streaming media technology are few. Based on this situation, the main contents are as follows in this paper: Proposed method based on statistics on P2P multimedia streaming for signature extraction, and then the signature of the extracted text are classified by clustering approach, focused on how to classify the extracted signature by text clustering. Three steps about Text Clustering are discussed: the text pre-processing, signature extraction and clustering algorithms. Text pre-processing used for this experiment based on the statistics of the Hash algorithm, on the fixed-length string of cut points, three for the use of the Hash value of string to avoid string different Hash values of the same conflict, the successful extraction of the characteristics of the string . Then, the frequency of a string of text document is added up , and a more appropriate threshold is selected for the characteristics of the samples. Finally, the clustering algorithm for the system is analyzed, the division based on the methods and methods based on hierarchical are discussed,the advantages and disadvantages of both methods and the scope of application are made a detailed c omparison,a clustering algorithm - k-means algorithm is found which is suitable for the system. A system is designed which is used to extract P2P multimedia streaming and classify the extracted signature , Text Clustering technique is applied to the characteristics of P2P traffic classification string successfully,and the feasibility of algorithm is verified by experiment. Keywords: P2P multimedia streaming,Text Clustering,Signatures Extraction and Classification, k-means algorithm 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果尽我所知除文中已经标明引用的内容外本论文不 包含任何其他个人或集体已经发表或撰写过的研究成果 对本文的研究做 出贡献的个人和集体 均已在文中以明确方式标明 本人完全意识到本声 明的法律结果由本人承担 学位论文作者签名 日期 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留使用学位论文的规定即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版 允许 论文被查阅和借阅 本人授权华中科技大学可以将本学位论文的全部或部 分内容编入有关数据库进行检索可以采用影印缩印或扫描等复制手段 保存和汇编本学位论文 保 密在_年解密后适用本授权书 不保密 请在以上方框内打 学位论文作者签名 指导教师签名 日期 年 月 日 日期 年 月 日 本论文属于 华 中 科 技 大 学 硕 士 学 位 论 文 1 1 绪 论 1.1 研究背景 以 P2P 流媒体为代表的网络新媒体的趋势是不可逆转的从文字到数据到大流 量视频这是以日趋增长的消费需求做主导的而 P2P 技术的出现则加速了这一消 费趋向的发展 P2P 技术不仅为个人用户提供了前所未有的自由和便利 同时也试图 有效地整合互联网的潜在资源呈几何级数增长的 P2P 应用为运营商带来了新用户 的同时也消耗了更为巨大的带宽其中的 VoIP 应用(如 Skype) 正在抢走数以千计 的传统话音用户于是由封端口限流量等极端做法而引发的运营商与宽带用户 的争执也越来越频繁 P2P 流媒体典型的有 PPlivePPstreamUUSeeQQLive 和 Joost 等软件用户 可以利用软件享受到体育比赛和重大活动直播影视节目轮播点播聊天室广播 网络电台等业务2006 年中国网民中日均使用用户数量有 1000 万人占 P2P 流媒 体用户的 25%预计到 2010 年日均使用用户数量有 6300 万人占 P2P 流媒体用户 的 40%网络流媒体将成为日常生活的必需品 根据 CNNIC 的数据显示1 2007 年的中国网民达到 16300 万人 而到 2010 年 时更将达到 26200 万人2007 年中国网民中月均有 4000 万人观看过 P2P 流媒体 节目的用户占网民的 30%2007 年 P2P 流媒体用户规模可达 6500 万人预 计到 2010 年时这一用户规模将达到 15800 万人占到中国网民的 68%从上面的 数据可以看出宽带用户发展前景看好而其中绝大多数用户将成为 P2P 流媒体用 户这些 P2P 流媒体用户的加入将对为了宽带业务产生深远的影响P2P 流媒体技 术和应用已成为运营商无法回避和必须面对的重要问题 从运营商的收益统计来看其彩铃SMS 等数据业务占用的带宽不到 5%收益 约占 90%以上而 P2P 业务的收益只占 5%左右P2P 应用对带宽的需求是无限的 而运营商的网络资源是有限的运营商每年都在不断地进行网络扩容但是增加的 带宽迅速被 P2P 相关应用吞噬整个网络的服务性能几乎没有改善能带来收益的 正常业务反倒受到更大影响用户的投诉和抱怨不断上升使运营商宽带扩容的积 极性受到很大打击这种状况非常不合理直接导致监管困难并引发了信息安全 华 中 科 技 大 学 硕 士 学 位 论 文 2 版权纠纷等一系列问题 因此本文针对 P2P 流媒体特征码的提取以及分类方法进行了研究有助于增强 对 P2P 流媒体应用的监测和控制力度阻止或减轻 P2P 流媒体造成的不利影响 1.2 国内外研究现状 通过调查发现国际上各种P2P 流量的检测技术都可以归结为以下两类检测技 术深层数据包检
