EMEA发布的《非劣效性界值选择的指导原则》-

发布日期20070405栏目化药药物评价临床安全性和有效性评价标题EMEA 发布的非劣效性界值选择的指导原则作者黄钦部门正文内容审评四部审评八室黄钦审校伦敦，2005 年 7 月 27 日索引：EMEA/CPMP/EWP/2158/99人用药品委员会（CHMP）生效日期 2006年1 月目录前言1. 背景2. 一般考虑3. 证明疗效3.1 三个组的试验：试验产品、参照品和安慰剂3.2 两个组的试验：试验产品和对照产品3.3 不能肯定优于安慰剂的情况4. 确定与活性对照药相比可接受的疗效5. 难以证明有合理非劣效性界值的情况5.1 使用显著性水平升高的优效性5.2 在另一方面有优势的产品6.结论前言许多将一种试验产品与一种活性对照药物进行比较的临床试验被设计为非劣效性试验。目前“非劣效性”这一术语已得到普遍认可，但如果从字面上来理解可能会产生误导。非劣效性试验的目的往往声明为了证实试验产品不亚于对照药物。但只有优效性试验才能证实这一点。事实上非劣效性试验的目的是为了证实试验产品不如对照产品的程度，不超过事先指定的一个较小的量。这个量被称为非劣效性界值(non-inf eriority marg in),或称为氐。在许多情况下，可能进行非劣效性试验而不做优效性试验，或者除了做优效性试验,另外再做劣效性试验。这些情况包括：l 在某些情况下不可能进行生物等效性研究时(例如缓释产品或局部用制剂), 根据基本上相似的情况提出的申请； l 与标准治疗相比安全性方面可能有优势的产品需要与标准治疗进行疗效比较，以便进行风险-受益评价；l 需要直接与活性对照进行比较以协助风险受益评价的情况；l 与活性对照相比疗效没有显著降低可以接受的情况；l 不能用安慰剂组，要用活性对照试验以证实试验产品疗效的某些疾病。在以上最后4 种情况下，如果能显示优于参照产品则不一定要做非劣效性试验。为证实非劣效性，推荐的方法是在方案中事先指定一个非劣效性的界值。研究完成后，计算出两种药物真正差异的双侧95%可信区间（或单侧97.5%可信区间）。这一区间应当完全在非劣效性界值（non-i nferiority margi n）的有利一侧。A的选择在临床上和统计学方面一定要合理。一定要根据特定的临床情况而具体制定，没有适用于各种情况的统一规则。但某些原则可作为一般指导。以下法规性的指南可供参考用于选择非劣效性或等效性界值。这些指南要与本指南结合起来看。I ICH指南E9的注释（临床试验的统计学原理）（ICH Note for Guida nee E9 (Statistical Principles for Clinical Trials)；l ICH 指南 E10 的注释（对照组的选择）（ ICH Note for Guidance E10 （Choiceof Control Group）；l CPMP优效性和非劣效性转换的考虑要点（CPMP Poi nts to Con sider onSwitching Between Superiority and Non-inferiority）这些文件中，有关如何选择非劣效性界值的讨论有限。但它们确实就非劣效性研究的设计和操作作了详细的讨论。这些问题极为重要，如果试验的开展没有达到足够高的标准，那么的选择就毫无意义。本文件讨论两种类型的非劣效性试验：2 个组的试验即试验产品和对照品；3个组的试验，即试验产品、活性对照药和安慰剂。试验产品的表现有许多方面需要考虑。这些大致与疗效和安全性有关，但这些方面的每一项都可以针对每个产品细分为许多关注点。一项临床试验或临床计划可能是为了显示某些变量的非劣效性，而其他一些变量可能需要证明优效性。这份文件中“非劣效性”和“优效性”用于指单个终点而不是整个产品的特点。始终假定治疗效果可以测定，并且测量值可以区分期望的（正面）与不期望的（负面）作用。再进一步假定所测变量的正面数值越大，则正面作用越大。文件中多数使用不同治疗之间的绝对差值作为例子来描述这一概念。这些讨论也适用于考虑相对效果的研究，只需进行少量修改即可。例如在一项考虑相对效果的试验中，点估计值为1 反映治疗之间无差异，估计值为0 则表示有差异。尽管安全性参数也可定义非劣效性界值，但本文件中提到的方法均使用疗效参数进行描述，因此，对疗效终点的许多讨论不适用于安全性试验，特别是整个第 3 节。1.背景非劣效性试验的结果通常以双侧95%可信区间进行评价，这个区间显示的是试验产品（试验：T）和活性对照药（参照：R）之间真正差异的可信范围。结果中有2 个方面应当引起特别注意。一个是差异的点估计值，即所观察到的试验产品和参照产品之间的差异。另一个是可信区间的下限。点估计值表示真正差异的最佳估计值，因此如果它是正数，并且这是所获得的所有证据，那么试验产品很可能优于参照产品，反之亦然。另一方面，可信区间的下限表示较低的限度，其含义通常是根据所列数据可以排除的试验品不如参照产品的程度。事实上这不是一个真正的低限，劣效性的幅度可能更大。但一般认为真正差异比这一限度所提示的差异更不好的机率在一定认可水平非常小。如果T和R效果相等，那么无论样本量大小，差异的点估计值应当有50%的机率为正数，有 50%的机会为负数。因此单纯点估计值不足以作为相对疗效的指标。在真正相等的情况下，差异的可信区间的下限随样本量的增加会逐渐接近于 0，因此理论上可以通过足够大的样本来排除任何所期望程度的非劣效性。但如果治疗真正等效时，就不可能设计一个研究来排除所有程度的非劣效，因为这需要规模无穷大的实验。因此从一开始就要明确，如果T不可能不如R,那么就不能用非劣效性试验开发与对照药疗效相等的产品。2. 一般考虑l 非劣效性界值的选择要根据统计学推理和临床判断综合考虑。l 试验药、参照药和安慰剂的三组试验可以在本试验内部对非劣效性界值进行一定程度的验证，因此这是推荐的试验设计；应当尽可能采用。l 正确选择界值应当确保试验药物临床上有意义的作用大于0。选择界值的这个方面在第 3 节讨论。l 通常非劣效性试验的主要焦点是试验产品和参照产品的相对疗效，而不单纯是要证明试验产品有效。在这些情况下，正确选择界值，除了证明产品有效之外，还要证明试验产品不会比参照品差很多，因此得到比较严谨的界值。选择界值的这个方面在第4 节讨论。l 对于大多数非劣效性试验，必须证明界值可以满足第3节和第4节的要求。在方案中必须说明非劣效性界值选择的合理性，合理性解释中应当解决这两节所考虑的问题。l 把非劣效性界值定义为活性对照和安慰剂之间差异的比例是不恰当的。形成这种想法，其目的是想确保试验产品优于（假定的）安慰剂；但他们可能达不到这一目的。如果参照产品与安慰剂相比有较大的优势，这并不意味着差异大不重要，它正好说明参照产品非常有效。l 使用效果大小（治疗差异除以标准差）作为选择非劣效性界值的依据是不恰当的。这个统计量是提供检出有差异的难度方面的信息，但无助于证明差异所具有的临床意义，也不能确保试验产品优于安慰剂。l 界值的选择应当不考虑把握度。应当根据本文后面章节提到的临床和统计学原理，而不是根据样本量的问题，因为有临床意义的差异的大小不因研究规模的大小而发生变化。不能因为研究的规模小就采用比较宽的非劣效性界值l如果已经选择了一个恰当的非劣效性界值，全部处于-与0之间的可信区间（即试验产品不如参照产品，但相差的程度不超过厶）仍足以证明非劣效性。如果这一结果不能接受，那么这证明的选择不恰当。（见第V节有关难以判断各种非劣效性数量的情况的讨论）。l 不可能在所有情况下进行非劣效性试验。根据治疗领域和参照产品的特点考虑进行非劣效性试验的决定应当合情合理。l 许多情况下疗效已经确定的药物在安慰剂对照的试验中并不能始终如一地证明其优越性（例如抑郁症或过敏性鼻炎）。有这种缺乏灵敏度的情况下，不包括安慰剂组的非劣效性试验是不恰当的。见ICH E10有关灵敏度的更详细的讨论。l 如果试验中参照产品的表现与确定非劣效性界值时所假定的表现有很大不同，那么所选的非劣效性界值可能不再合适。这个问题牵涉的情况应当在制定计划的阶段做好考虑。3. 证明疗效非劣效性试验数据解释中所涉及的决策过程的最低要求是：如果开展安慰剂对照试验，我们必须相信试验产品会有效。本节的讨论采用优效性试验数据解释中常用的方法，作为评价非劣效性试验数据的最低要求的模型。如果一个试验的目的是证明试验产品优于安慰剂，现在来解释这样一个试验中的数据，应当采用非正式的两阶段方法，同时考虑到统计学意义和临床意义。同样的两阶段方法也可用于解释非劣效性试验。在优效性试验中，首先可能要证明试验产品在统计学意义上优于安慰剂。这指的是ICH E10中“统计学推理和临床判断”相结合的“统计学推理”阶段。统计学意义一般采用双侧0.05（或单侧0.025）的显著性水平来评价。表明符合这一要求的另一种方法是活性药物与安慰剂之间差异的双侧95%可信区间的下限（或单侧 97.5%区间）必须大于 0。解释优效性试验的下一步是考虑与安慰剂的差异是否具有临床意义。这是ICH E10中“统计学推理和临床判断”相结合的“临床判断”阶段。要确定试验产品与安慰剂相比其受益有临床意义，应当同时考虑试验产品与安慰剂之间差异的点估计值，并评价其临床意义，可以用原始数据，也可以用有效率。这主要不是统计学问题，但确实需要将临床思维和对数据的理解巧妙结合起来。统计学意义已经被证实，因此可认为存在这种效应。必须判断出所见的这一差异在临床上是否有用。这一判断通常是根据安全性情况通过受益/风险评价而做出的。3.1 三个组的试验：试验产品、参照品和安慰剂这种试验设计可以直接证明试验产品和活性对照均优于安慰剂。因此，没有必要指定一个A值以确定试验药有效，但在解释试验数据时应当说明以下几点。和安慰剂对照的优效性试验一样，试验产品必须证明在统计学意义上优于安慰剂。试验产品与安慰剂差异的95%可信区间的下限必须大于0。在这一阶段，参照组的表现不是主要的考虑对象，但如果试验产品和参照产品均未能显示在统计学意义上优于安慰剂，可能提示试验不灵敏或者缺乏检测灵敏度。和优效性试验一样，然后要用临床判断来评价所观察到的与安慰剂的差异是否具有临床意义。如果有参照组，可有助于做出这一判断。如果参照产品是经批准的药物，并且已知在这种类型的试验中通常可以得到具有临床意义的效果，那么这一试验中所见的参照品与安慰剂之间的差异有助于评价安慰剂与试验产品之间差异的临床意义。例如，如果试验中试验组的表现优于参照组，则假定试验产品的受益具有临床意义是合理的。如果参照品未能证明在统计学意义上优于安慰剂，或者其表现与我们根据经验作出的预测有很大不同，那么应当对试验中参照产品的表现提出疑问。此时参照组的结果不能作为参照，试验药的任何阳性结果都是单方面的。要对参照治疗中意料之外的结果的原因进行讨论。3.2 两个组的试验：试验产品和对照产品由于这种类型的试验没有安慰剂组，必须通过以往参照产品与安慰剂相比较的研究来与安慰剂进行间接比较，以确定产品有效。这样做本身有一定难度，并且必须要指定非劣效性界值。但95%可信区间的下限仍可用于确定疗效优于安慰剂。如果实际没有使用安慰剂，则常常用“假定的安慰剂”这一术语。应当进行系统性综述以找出在所考虑的条