voip网络测试标准mos-－金锄头文库

数据说话数据说话VoIP 测试方法和测试数据分析测试方法和测试数据分析2005/01/28经过近一个季度的紧张测试，我们现在可以告诉您，什么才是一个完整的 VoIP。而在这之前，我们的工程师面对 VoIP 的测试，还像那个第一个拿起刀叉面对螃蟹的人，充满期待却又诚惶诚恐。技术世界和我们的现实世界一样，有理想的状态，有复杂的环境，有妥协，也有令人兴奋的亮点。根据我们最早的测试技术安排，我们要测试目前的 VoIP 系统的组网能力，必须要架设一个网络，要检查架设这样一个 VoIP 网络的所有部件是否已经完全具备？其构成的网络是否完整？那么搭建一个可以通话的 VoIP 系统是测试的第一步我们按照 VoIP 组网的原理，构建了这样一个基本网络，其网络结构如图所示。我们用软交换的概念来描述网络上的设备，在这个网络上，MG（媒体网关）和 MGC（媒体网关控制器）是关键的 VoIP 网络元素。这些网络元素可以是支持 H.323、MGCP、H.248 或者 SIP 的实体。本文中提到的 MG 和 MGC 不具体指某一个设备，本次测试正是针对这两类设备进行，测试的主要内容也围绕着这两类设备展开。测试从模拟话音开始，然后延伸到 PSTN 网络，再到 IP 网络，最后回到模拟话机的被叫方。在这样一个完整通话过程中，测试 MG 以及 MGC 的信令互操作性以及设备处理信令的能力。图是测试系统结构原理图。一、一、测试设备的呼叫建立能力测试设备的呼叫建立能力我们采用了思博伦公司的 Abacus5000 型的 IP 电话测试议。通过模拟网络中的模拟电话终端、IP 电话终端、MGC、传真终端等元素，以一个简单的测试结构，来测试被测的语音网关的饱和呼叫量。饱和呼叫量可以用两个参数来表示：忙时呼叫量（BHCA）或者每秒建立呼叫数量（CAPS）。BHCA 是忙时呼叫量的缩写，主要测试内容为：在一小时之内，系统能建立通话连接的绝对数量值。测试结果是一个极端能力的反映，它反映了设备的软件和硬件的综合性能。如果您的企业是一个有巨大话务量需求的企业，这个参数应该是一个最重要的参考指标。但我们感觉到，幸运的是，企业用户的实际应用需求都远远低于测试设备所提供的能力。我们建立 100300 个用户，让他们每秒建立一个呼叫，呼叫持续一秒钟，挂机后等待一秒钟再进行第二次呼叫。这样的呼叫在数百条通路中同时进行，以致我们都很担心被测设备是否能挺过一小时。最后所有的被测设备都交出了很好的答卷， BHCA 值最后体现为 CAPS(每秒建立呼叫数量)，CAPS 乘以 3600 就是 BHCA 了。二、呼叫长时保持能力二、呼叫长时保持能力我们设计了一个呼叫测试。首先用被测设备搭建起一个完整的 VoIP 系统，从模拟的语音开始，通过媒体网关，再通过媒体网关控制器到另一个媒体网关，最后从被叫方的一部模拟电话出来。这样的呼叫建立之后，保持一个小时，以验证被测设备的工作稳定性。掉线是人们谈到 VoIP 应用时常提到的一个问题，呼叫保持能力的测试是希望验证系统的稳定性和健壮性。在更加严格的电信入网测试中，呼叫保持测试常常进行 24 小时甚至更长时间。而影响呼叫保持的因素很多，在 VoIP 应用中，网络的客观环境极为重要。在实际的 Internet 中，网络数据包所经过的路由并不由数据的发送和接收端决定，在网络出现阻塞的时候就有出现断线的可能。共享数据网络带宽的 VoIP 系统就更容易出现这样的问题。内部的 VoIP 通话可以通过支持 QoS 机制的网络交换设备来保证，而广域网范围的 VoIP 稳定性还需要依靠运营商网络的支持和发展。根据我们使用的效果来看，Internet 上的 VoIP 服务在不大的话务量情况下还是非常好的，甚至有优于传统电话质量的表现。因为在软交换架构中，语音的业务数据和呼叫的控制信令是分离的。我们还用 Abacus5000 模拟了 MG，测试了几种 MGC 类设备。在测试的网络环境中，它们的呼叫保持测试表现都极为顺利。另外，VoIP 呼叫的建立首先是一个呼叫信令的交互过程。网关和网关、网关和控制器之间的信令交互响应速度，是考察一个呼叫建立的重要指标。我们的测试同样展示了系统的呼叫建立时间。三、通话语音质量测试三、通话语音质量测试话音质量是人们对 VoIP 应用的一大关注点。以前怀疑 VoIP 的人们提的最多的还是话音质量，而制约话音质量的因素非常多，同时也非常复杂。图 6 示出在一个复杂网络中，影响 VoIP 语音质量的几乎所有的因素。我们设计采用模拟电话的原因，是因为我们的耳朵其实都是模拟的，对吗？我们只能接受模拟信号。然后，我们根据 ITU 的 P.861 标准来播放一段语音信号，主叫方和被叫方都由呼叫模拟器 Abacus5000 来模拟。它会对比发出和接收到的那些模拟通路的音频信号，然后给出一个标注的语音质量值。单纯考察语音质量，我们采用 PSQM 值和 MOS 值。这是通信行业判断通话质量的标准，PSQM 是一个客观的采集数据比对值，而 MOS 是考虑主观因素的参考值。 ITU-T 建议的 P800 标准提出了 MOS（Mean Objection Score）的方法。即请 40 60 位有代表性的人士来听一段相同的语音样本，然后对该样本经过 IP 电话传输后的语音质量进行投票评价。随着语音因语言、年龄、性别的变化，得分亦被赋予不同的意义。这是一种纯粹主观的定性测量。ITU-T 在非常宽的听觉范围内，选取不同年龄、性别和语言组别的相同得分，作出语音质量的判别标准：5 为最佳；4 为好（4.54.0 可收费电信级）；3 为中级（4.03.5可通话通信级）；2 为较差（3.52.5可建立连接级）；1 为差。很显然，MOS 方法是一种模糊的评估方法，其测试结果很难对 IP 电话系统的改进和不同 IP 电话设备之间性能的比较作出有实际意义的判别。因此 ITU-T 在标准建议 P861 中又提出了 PSQM（Perceptual Speech Quality Measurement）方法。 PSQM 仍以 MOS 的 5 个级别作为客观标准，所不同的是其对每一个级别都以百分比的方式作出了“差”/“最差”（%PoW，Percent Poor or Worse）和“好最好” （%GoB，Percent Good or Better）的进一步描述。根据 P861 提出的 PSQM 方法， IP 电话的测试开始摆脱原始的人类主观评估，而开始使用计算机产生的波形文件（Wave File），通过比较其通过 IP 电话网传输前后的变化计算出 PSQM 中相对应的级别及好坏程度。我们测试的设备的 MOS 值，都在 4.5 以上；而 PSQM 值均在 0.2 到 0.3 之间。这都达到了电信级设备的评价标准。因为我们的测试环境相对单纯，在今后我们还会开展真实环境测试，让大家更加了解 VoIP 的发展和现状。对语音质量的判断，还有很多参数可以体现。包括网络延时、语音延迟、回声、 RTP 数据祯丢失率等等。参测的所有近 20 台设备都交出了令人满意的答卷。您可以在下面的文章中看到四套系统的数据表现，它们的成绩可以说都是令人满意的。我们测试工程师有这么一句格言：设备的真实表现不可能比测试结果更好。您在实际使用中还可能遇到这样和那样的问题，这不是我们在给您的应用泼冷水，而是希望告诉您，任何一套优秀的系统，需要厂商和用户的工程师们不断努力才能表现得更出色。在征集产品的过程中，很多厂商表达了对参与这次评测的兴趣，但我们有选择性地征集了四家厂商的近 20 款设备，它们构成了四套有着自己鲜明特点的 VoIP 系统。我们的工程师在这次中国首次的媒体 VoIP 测试过程中也向厂商的技术人员学到了很多东西。在此我们向北京共业科技有限公司、港湾网络公司、苏迪思公司、中兴通讯有限公司和思博伦公司对我们的支持表示感谢