法規動態
當前位置: 資訊 > 法規動態
藥物臨床試驗多重性問題指導原則 (征求意見稿)
發布日期:2020/9/7 15:53:35    瀏覽次數:


內容來源:國家藥品監督管理局藥品審評中心


為了讓臨床試驗各相關方理解試驗中的多重性問題,并向申辦者提供解決多重性問題的指導性建議,我中心組織起草了《臨床試驗多重性問題指導原則(征求意見稿)》,現在中心網站予以公示,以廣泛聽取各界意見和建議,歡迎各界提出寶貴意見和建議,并請及時反饋給我們。

征求意見時限為自發布之日起1個月。

您的反饋意見請發到以下聯系人的郵箱:

聯系人:曾新、周軍

聯系方式:zengxin@cde.org.cn,zhouj@cde.org.cn

感謝您的參與和大力支持。



國家藥品監督管理局藥品審評中心2020年8月28日


附件 1 :《藥物臨床試驗多重性問題指導原則(征求意見稿)》

附件 2 :《藥物臨床試驗多重性問題指導原則(征求意見稿)》起草說明





附件 1 :
藥物臨床試驗多重性問題指導原則(征求意見稿)




2020年8月




目 錄一、概述二、多重檢驗中的I類錯誤、總I類錯誤率和II類錯誤(一)I類錯誤和總I類錯誤率(二)II類錯誤三、常見的多重性問題(一)多個終點(二)多組間比較(三)縱向數據不同時間點的分析(四)亞組分析(五)期中分析(六)復雜設計四、常見的多重性調整的策略與方法(一)多重性問題的決策策略(二)多重性調整方法(三)多重性分析方法(四)多重性問題的基本解決思路五、其它考慮(一)不需要調整的多重性問題(二)多重性檢驗的參數估計問題(三)與監管機構的溝通六、參考文獻附錄1:詞匯表附錄2:中英文對照表




藥物臨床試驗多重性問題指導原則



一、概述

臨床試驗中普遍存在多重性問題,它是指在一項完整的研究中,需要經過不止一次統計推斷(多重檢驗)對研究結論做出決策的相關問題。例如,多個終點(如主要終點和關鍵次要終點)、多組間比較、多階段整體決策(如出于有效性決策為目的的期中分析)、縱向數據的多個時間點分析、亞組分析、分層分析、同一模型不同參數組合或不同數據集的分析、敏感性分析等。對于確證性臨床試驗,將總I類錯誤率a(FWER)控制在合理水平是統計學的基本準則。上述多重性問題有的可以導致FWER膨脹,有的則不會。對于前者,需要采用恰當的決策策略和分析方法將FWER控制在合理水平,這一過程稱為多重性調整;對于后者,則無需多重性調整。因此,在制訂臨床試驗方案和統計分析計劃時,采用恰當的決策策略和分析方法以控制FWER是非常重要的。

本指導原則主要闡述常見的多重性問題和相應的解決策略,介紹常用的多重性調整的統計方法,旨在為確證性藥物臨床試驗中如何控制FWER提供指導意見,所討論的一般原則也適用于其它類型的臨床研究。

二、多重檢驗中的I類錯誤、總I類錯誤率和II類錯誤

(一)I類錯誤和總I類錯誤率

I類錯誤是指原假設(或稱無效假設)正確但檢驗結果拒絕了原假設的錯誤,相當于把實際上無效的藥物經統計推斷得出有效結論的錯誤,其概率需控制在某一水平,該水平稱為檢驗水準,或稱顯著性水準。對于多重檢驗中某一假設檢驗的檢驗水準稱之為名義檢驗水準,又稱局部檢驗水準,用ai表示。

總I類錯誤率是指在同一試驗所關注的多個假設檢驗中,至少一個真的原假設被拒絕的概率,而不論多次檢驗中哪個或哪些原假設為真。如此定義的FWER得到控制時,稱為強控制FWER。在所有原假設都為真的條件下至少一個真的原假設被拒絕的概率,如此定義的FWER得到控制時,稱為弱控制FWER。弱控制只能得出整體性結論,而不支持其中單個假設檢驗的結論,故在確證性臨床試驗中的應用意義不大。本指導原則僅限于強控制FWER的應用問題。

(二)II類錯誤

對于確證性臨床試驗,在I類錯誤得到有效控制的前提下,II類錯誤的風險也需要注意。II類錯誤是指原假設不正確,但檢驗結果未能拒絕原假設的錯誤,相當于把實際上有效的藥物經統計推斷得出無效結論的錯誤,其概率用β表示,相應地1β稱為檢驗效能。對于需要調整的多重檢驗,由于控制FWER降低了多重檢驗中每個獨立檢驗的αi,相應地也降低了檢驗效能。因此,當涉及多重性調整時,制定研究計劃應考慮控制FWER對檢驗效能的影響,例如通過適當增加樣本量以保證足夠的檢驗效能。

三、常見的多重性問題

臨床試驗中常見的多重性問題一般體現在多個終點、多組間比較、亞組分析、期中分析、縱向數據不同時間點的分析等方面。

(一)多個終點

1. 主要終點

主要終點是指與臨床試驗所關注的主要問題(主要目的)直接相關的、能夠提供最具臨床意義和令人信服的證據的終點,常用于主分析、樣本量估計和評價試驗是否達到主要目的。確證性臨床試驗中,單一主要終點較為常見,但某些情況下會涉及多個主要終點,對于多個主要終點的研究,通常有兩類統計假設策略,即多個主要終點均要求顯著和多個主要終點中至少有一個顯著。

(1)多個主要終點均要求顯著。即要求所有主要終點均顯著時才認為研究藥物有效(此種情況常稱為共同主要終點)。例如,在一項治療慢性梗阻性肺?。–OPD)的III期臨床試驗中設置兩個單獨的主要療效終點,第1秒用力呼氣量(FEV1)和患者報告癥狀評分,決策規定兩個主要終點均顯著才可推斷研究藥物有效。在此情況下,不會導致I類錯誤膨脹,因為這種策略沒有機會選擇對研究藥物最有利的某個或某幾個主要終點,只有一種可能得出藥物有效的結論(即兩個原假設都被拒絕)。但是,這會增大II類錯誤和降低檢驗效能。檢驗效能降低的程度與主要終點的個數和主要終點之間的相關性有關,個數越多、相關性越弱,檢驗效能降低的幅度越大。因此,對于多個主要終點均要求顯著的情形,無需多重性調整,但應留意對檢驗效能的影響。

(2)多個主要終點中要求至少一個終點顯著。即至少一個主要終點顯著時就認為研究藥物有效。例如,某一確證性臨床試驗旨在驗證一種治療燒傷傷口的藥物,設置兩個單獨的主要終點:傷口閉合率和瘢痕形成,臨床試驗方案規定只要其中一個終點顯著,或兩個終點都顯著,就可認為該藥物整體臨床有效。此種情況下需要多重性調整,因為得出藥物有效的結論包括以下三種可能的情形:①傷口閉合率顯著而瘢痕形成不顯著;②傷口閉合率不顯著而瘢痕形成顯著;③傷口閉合率和瘢痕形成都顯著。由于多個主要終點中至少有一個終點顯著的組合策略不盡相同,多重性調整策略應視具體的統計假設而定。

2. 次要終點

臨床試驗的次要終點通常有多個,多數情況下它們用于提供藥物對主要療效終點療效的支持作用。但在某種情況下,有些次要終點可能用于支持藥品說明書聲稱的獲益,一般被稱為關鍵次要終點。此時,應將關鍵次要終點與主要終點共同納入I類錯誤控制。只有主要終點的檢驗認為整體顯著后,才考慮關鍵次要終點的檢驗。

3. 復合終點

復合終點是指將多個臨床相關結局合并為一個單一變量,如表示心血管事件的復合終點,只要發生心肌梗死、心力衰竭、冠心病猝死等其中的任一事件將被視為終點事件發生;或者將若干癥狀和體征的評分通過一定的方法合并為一個單一變量,如評價類風濕關節炎的ACR20量表。如果將某一復合終點作為單一主要終點,將不涉及多重性問題。但是,如果同時將復合終點中某一組成部分(如某一事件或構成量表的某一維度)用于支持藥品說明書聲稱的獲益,應將其定位于主要或關鍵次要終點,再根據上述定位對所涉及的主要或次要終點的多重性問題予以考慮。

4. 探索性終點

探索性終點可以是預先設定、也可以是非預先設定(例如數據驅動)的終點,一般包括預期發生頻率很低而無法顯示治療效果的臨床重要事件,或由于其它原因被認為不太可能顯示效果但被納入探索性假設的終點,其結果可能有助于設計未來新的臨床試驗。此類終點無需考慮多重性調整。

5. 安全性終點

如果安全性終點(事件)是確證性策略的一部分,即用于支持藥品說明書聲稱的獲益,則應事先確定,并將其與主要療效終點所涉及的多重性問題做同樣處理。此時,安全性評價和有效性評價均應控制各自的FWER。需注意,在臨床試驗的實踐中,由于安全性事件具有很大的不確定性,有時難以事先規定主要安全性假設,因此,對于多個安全性終點(通常是嚴重的不良反應)的確證性策略可能會基于事后的多重性調整策略,此時應充分說明其合理性,并與監管機構達成共識。

(二)多組間比較

臨床研究中多組間的比較頗為常見,如三臂設計、劑量-反應關系研究、聯合用藥和復方藥的評價等。

1. 三臂設計

三臂設計多用于非劣效試驗,安排的三個組分別是試驗組、陽性對照組和安慰劑組。此時,統計假設應該考慮三種情形:①試驗組與安慰劑組比較的優效性;②陽性對照組與安慰劑組比較的優效性;③試驗組與陽性對照組比較的非劣效性(和可能的優效性)。對于這一多重性問題,如果三個假設檢驗的結果均顯著才可認為試驗藥物有效,無需多重性調整;或者,基于一個比較弱的研究假設,即只要滿足①即可認為試驗藥物有效;如果采用固定順序策略,如檢驗順序為①®②®③,此時也無需多重性調整。但需要注意,后者這種基于較弱的研究假設需得到監管機構的認可才可實施。其它的三臂設計如果不是遵循這一多重性檢驗策略,且不滿足所有檢驗結果均顯著的話,需根據情況考慮是否需要多重性調整。

2. 劑量-反應關系

劑量-反應關系研究對于找到安全有效的治療劑量或劑量范圍至關重要。劑量探索的方法和目的在II期和III期試驗中有所不同。

在II期試驗中,劑量探索研究多用于估計劑量-反應關系,通?;诮y計模型證明臨床效應與劑量增加總體呈正相關關系,不需要對不同劑量組和安慰劑組之間進行比較,故無需控制FWER。但是,如果劑量反應研究作為確證性策略的一部分,就需要控制FWER。

在確證性臨床試驗中,劑量探索通常是基于假設檢驗進行多劑量組間的比較,旨在選擇和確證試驗藥物在特定患者人群中推薦使用的一個或多個劑量水平,此時必須控制FWER,如采用基于p值的多重檢驗,或基于參數方法的多重檢驗(如Dunnett檢驗)。

3. 聯合用藥和復方藥

聯合用藥是指治療用藥同時使用兩種或以上的藥物,復方藥是指治療用藥由兩種或以上的藥物組合而成。聯合用藥或復方藥臨床試驗的目的主要是驗證聯合用藥的獲益-風險是否優于其中的單藥,或復方藥的獲益-風險是否優于其組分藥。

以兩個單藥的聯合用藥為例,試驗設計至少會設置三個組,即聯合用藥組、單藥A組和單藥B組,后兩組為陽性對照組。如果再增加一個安慰劑組,就是一個2′2的析因設計。無論是三組的設計還是四組的析因設計,其統計檢驗以推斷聯合用藥組是否優于其它各組為主,這將不會導致I類錯誤膨脹,因為只有所有假設均顯著的情況下方可證明聯合治療的療效。

(三)縱向數據不同時間點的分析

縱向數據,即基于時間點的重復測量數據,是臨床試驗常見的數據類型。此類數據與時間點相關的分析分兩種情況,一種是在不同時間點進行組間比較;另一種是比較處理組內不同時間點的效應。

假設研究設計只有一個主要終點且只涉及兩個處理組(多于一個主要終點或多于兩個處理組的多重性問題上文已述及),如果主要終點評價被定義為在多個時間點中的某一個時間點(如最后一個訪視點)進行處理組間的比較,其它時間點的組間比較被視為次要終點評價,則不涉及多重性調整;如果主要終點評價被定義為在不止一個時間點進行處理組間的比較,若其所有相關時間點的組間比較達到顯著才認為有效,就無需多重性調整,否則,就需要多重性調整。

對于比較處理組內不同時間點效應的情形,如果目的是通過時間點之間的比較確證最佳時間點的效應,即當時間效應成為確證性策略的一部分時,就需要多重性調整;否則,無需多重性調整。

如果希望回避縱向數據的多重性調整問題,一種可能的解決方案是將不同時間點的效應轉換為折線下的面積,例如治療后不同時間點的疼痛VAS評分可以轉化為折線下面積以代表治療后總的疼痛評分,即把多個變量轉化為一個變量,但相應地,在這種轉換之后,每個時間點的組間比較就無法實施了。另一種可能的解決方案是對重復測量數據用單個模型分析,如重復測量方差分析或混合效應模型。

(四)亞組分析

亞組分析通常用于說明試驗藥物在某一特定亞組人群中的療效、或者各亞組之間療效的一致性。如果特定亞組的分析用于支持藥品說明書聲稱的獲益,則需要綜合考慮總人群和亞組人群的多重性問題,同時還要注意保證亞組有足夠的檢驗效能。反之,如果亞組分析不用于支持藥品說明書聲稱的獲益,則無需多重性調整。

(五)期中分析

針對有效性和/或無效性進行監查的期中分析,因為在研究過程中需要進行多次決策,所以FWER的控制顯得尤為重要,多重性調整的策略和方法也復雜多樣。在制定臨床試驗方案時,應仔細考慮并預先設定恰當的多重性調整策略和相應的統計方法。

(六)復雜設計

對于用于確證性目的的籃式設計、傘式設計、平臺設計等涵蓋多疾病領域、多種藥物、跨研究的復雜設計,由于同時開展多個分題研究,涉及多重決策的問題。但由于這些分題研究多是獨立的研究且回答特定的臨床問題,如適用疾病、目標人群等,故一般無需多重性調整。

但是,對于復雜設計分題研究的目標人群有較大重疊時,以及對于多個分題研究使用同一個對照組時,是否需要多重性調整,應視具體情況而定。此時,建議申辦方與監管機構進行充分溝通。

四、常見的多重性調整的策略與方法

針對臨床試驗中普遍存在的多重性問題,所采用的多重性調整的策略與方法取決于試驗的目的、設計、統計假設及其分析方法。申辦方需在試驗設計時對選用的多重性調整的策略與方法進行必要的評估,并在臨床試驗方案和統計分析計劃中詳述。

多重性調整的策略與方法可以從決策策略、調整方法和分析方法三個層面考慮。

(一)多重性問題的決策策略

臨床試驗的研究結論主要依據綜合所有試驗數據分析結果所做的推斷,也是一個從局部決策到整體決策的過程。多重性問題的決策策略可分為平行策略(或稱單步法)和序貫策略(或稱多步法)。除了從局部決策到整體決策的過程外,還有分階段的整體決策,例如,出于有效性決策為目的的期中分析。

1. 平行策略

平行策略是指所包含的各個假設檢驗相互獨立,平行進行,與檢驗順序無關,就像一種并聯關系,每個假設檢驗的推斷結果不依賴于其它假設檢驗的推斷結果。

圖1是平行策略的示意圖,H0i為第i個原假設(i=1,2,…,m),m為假設檢驗的個數;HA為整體備擇假設,即整個研究結論對應的假設,HAi為第i個備擇假設;a為FWER水平,ai為第i個名義檢驗水準。平行策略有以下三種情形:


圖1  多重性問題的平行策略示意圖


①如果所有假設檢驗均顯著才被認為是陽性結論(如三臂設計的非劣效試驗,多個主要終點等),即試驗藥物有效(圖1右側的備擇假設HA成立),則無需多重性調整,每個檢驗的名義水準與FWER水平相同(ai=a)。

②如果其中至少一個假設檢驗結果顯著就被認為是陽性結論但不包含①(圖1下方的備擇假設HA成立),則需要多重性調整(ai<a)。例如設有3個主要終點(O1,O2,O3)的試驗,如果采用Bonferroni法,每個終點的名義檢驗水準可以相同也可以不同,但其和為FWER水平,即a1+a2+a3=a。

③圖1上部的HA1、HA2等代表局部決策,即在整體結論為陽性的前提下,并基于多重性調整(ai<a)的檢驗結果,可進一步對某個或某幾個備擇假設是否成立做出獨立的推斷。仍以設有3個主要終點的試驗為例,在采用策略②得出試驗藥物有效的整體結論后,局部決策有6種可能的組合,一個終點的假設檢驗結果顯著有3種,3個終點中任意兩個終點的假設檢驗結果顯著有3種。類似的例子還可見于劑量探索研究的確證性臨床試驗中,如設置2個或3個劑量組和一個安慰劑對照組,采用策略②,只要其中一個劑量組與安慰劑組比較顯著就可整體以推斷試驗藥物有效,并在此基礎上進一步做出局部決策,即哪一個或幾個劑量有效。

對于②和③情形下的多重性調整可采用Bonferroni法或?idák法。

2. 序貫策略

序貫策略是指按一定順序對原假設進行檢驗,直到滿足相關條件而停止檢驗,就像一種串聯關系,根據設定條件前一個假設檢驗的結果將決定是否進行后續的假設檢驗。序貫順序分為固定順序和非固定順序兩種方式,如下所述。


圖2  多重性問題的序貫策略示意圖(②以向下法為例)


①固定順序策略:見圖2上半部分,假設檢驗的順序需事先確定,分需要和不需要進行多重性調整兩種情況。以不需要調整(ai=a)為例,每一個假設檢驗的名義水準與FWER水平相同。假設檢驗以既定順序依次進行,直到某一個假設檢驗不拒絕原假設(不顯著)為止,而最終的推斷結論為該假設前面的陽性檢驗結果均被接受。例如,按順序有3個原假設分別是H01、H02和H03,若第1和第2個假設檢驗都在0.05水平拒絕了原假設,但第3個假設檢驗未能拒絕原假設H03,則備擇假設HA1和HA2都成立,而HA3不成立。

當固定順序策略需要做多重性調整時,可參見回退法一節。

固定順序策略也適用于對假設檢驗集合進行的檢驗,如守門法,即將所有原假設分成若干集合,并預先確定各集合假設檢驗順序,按順序對各集合進行檢驗。對于復雜的固定順序策略,可借助圖示方法直觀展現決策規則。

②非固定順序策略:見圖2下半部分,以向下法為例,假設檢驗的順序按事先規定以檢驗統計量由大到?。╬值由小到大)排序,圖2中下標“x”表示順序位次在試驗設計階段無法確定,只能在事后求出檢驗統計量后才能確定,例如H0x2的含義是在所有檢驗統計量中第2大的假設檢驗所對應的原假設。該策略需要做多重性調整(ai<a),每個假設有各自的名義檢驗水準。假設檢驗以規定的順序依次進行,直到某一個假設檢驗不拒絕原假設(不顯著)為止,而最終的推斷結論為該假設前面的陽性檢驗結果均被接受。

序貫策略中假設檢驗的順序以及相應的多重性調整方法的不同對整體結論的影響也不同,這一點在設計階段尤其要注意。序貫策略的檢驗效能通常優于平行策略,但其置信區間的計算較為復雜甚至難以估計。

3. 分階段的整體決策策略

分階段的整體決策策略是指將整體決策按照時間順序分階段進行,其典型代表是出于有效性為目的的期中分析,如圖3所示。每個階段都進行一次整體決策,確定試驗因有效或無效提前終止還是繼續。每一階段的整體決策可以采用多重性問題決策策略中的平行策略或序貫策略。多階段決策需要多重性調整,即每個階段都會消耗一定的a,各階段的名義檢驗水準ai可以相同,也可以不同,視采用的a消耗策略而定。需要注意,在每個階段的整體決策過程中,如果涉及到局部決策的多重性調整,則該階段的名義檢驗水準ai就是該階段的總a水平。


圖3  多重性問題的分階段整體決策示意圖


(二)多重性調整方法

多重性調整方法實質上是通過調整整體決策中每一個獨立假設檢驗的名義檢驗水準αi以達到控制FWER的目的。名義檢驗水準的確定方法可以根據多重性問題的決策策略選擇。

1. 平行策略的多重性調整方法

(1)Bonferroni法。Bonferroni法的基本思想是各個獨立檢驗的名義水準之和等于FWER水平a,即

a1+a2+…+ai…+am=a

各名義水準可以相同(ai=a/m),也可以不同,后者往往在各個檢驗假設的優先順序時使用。例如,某臨床試驗設有3個主要終點,需要進行3次假設檢驗,設定a=0.05。如果3個主要終點的優先順序相同,則每個檢驗的ai相同,均為0.0167(=0.05/3),則每個假設檢驗的p值小于0.0167才被認為該檢驗顯著;如果3個主要終點的優先順序不同,如設置a1、a2和a3分別為0.030、0.015和0.005,則每個假設檢驗的p值小于所對應的ai才被認為該檢驗顯著。該法較為保守,各檢驗統計量正相關程度越高越保守。盡管如此,由于該法簡單,其應用最為廣泛,而且其思想為許多方法所借鑒,如后述的Holm法、Hochberg法、回退法等。

(2)前瞻性α分配法。前瞻性α分配法(PAAS)與Bonferroni法思想相近,可理解為各個假設檢驗的互余的乘積等于FWER水平a的互余,即

(1-α1)(1-α2)…(1-αi)…(1-αm)=(1-α)

各αi可以相同也可以不同,若相同,則可根據?idák法求得

αi=1-(1-α)1/m

例如,一個有3個終點的臨床試驗,其中兩個終點被指定分配了αi值,α1=0.02、α2=0.025,若設α為0.05,則根據上式有0.98×0.975×(1-α3)=0.95,求得第3個終點的α3為0.0057。如果采用Bonferroni法,則第3個終點的α值為0.005??梢奝AAS法分配的α3要高于Bonferroi法。如果3個原假設的αi等權重分配,則基于?idák法求得αi為0.01695,略高于Bonferroni法分配的0.0167。因此,PAAS法較Bonferroni法可略微增加檢驗效能。

2. 序貫策略的多重性調整方法

(1)Holm法。Holm法是一種基于Bonferroni法的檢驗統計量逐步減?。╬值逐步增大)的多重調整方法,又稱向下法。該法首先計算出各檢驗假設的p值后,將各p值按從小到大排序,記為p1<p2<…<pm,其相對應的原假設為H01,H02,…H0m,然后按照p值從小到大順序依次與相對應的αi進行比較,依次檢驗H0i,1≤i≤m。第一步從最小的p值開始,檢驗原假設H01,如果p1>α1(=α/m),則不拒絕原假設H01,并停止檢驗所有剩余的假設;如果p1<α1,則拒絕H01,HA1成立,進入下一個檢驗。第2個檢驗的名義水準α2=α/(m-1),將該檢驗的p值與α2比較,若p2>α2,則停止檢驗余下的假設;否則,HA2成立,并進入下一個檢驗。更一般地,在檢驗第i個原假設H0i時,如果pi>ai(=a/(m–i+1)),則停止檢驗并接受H0k,…,H0m;否則,拒絕H0i(接受HAi),并進入下一個檢驗。

(2)Hochberg法。Hochberg法是一種基于Bonferroni法的檢驗統計量逐步增大(p值逐步減?。┑亩嘀卣{整方法,又稱向上法。該法首先計算出各檢驗假設的p值,將各p值按從小到大排序,記為p1<p2<…<pm,然后按照p值從大到小順序依次與相對應的αi進行比較。第一步從最大的p值開始,檢驗原假設H0m,如果pm<α,則拒絕所有原假設,并停止檢驗,所有的備擇假設HAi成立;否則不拒絕H0m,進入下一步檢驗。第2個檢驗的名義水準αm-1=α/2,將該檢驗的p值與αm-1比較,若pm-1<α/2,則停止檢驗余下的假設,除HAm外,其余的備擇假設均成立;否則,不拒絕H0(m-1),并進入下一個檢驗。第3個檢驗的名義水準αm-2=α/3將該檢驗的p值與αm-2比較,若pm-2<α/3,則停止檢驗余下的假設,除HAm和HA(m-1)外,其余的備擇假設均成立;否則,不拒絕H0(m-2),并進入下一個檢驗。余類推。需要注意,Hochberg法在滿足終點變量獨立或檢驗統計量正相關條件才能實現FWER強控制。

(3)回退法?;赝朔ㄊ枪潭樞虿呗灾械囊环N多重性調整方法。對于固定順序策略不做多重性調整的情況,由于固定順序的限制,一旦前一個檢驗結果不顯著,后續的其它檢驗將終止,這種策略可能失去發現有意義的研究假設的機會。例如,一項設有2個主要終點的臨床試驗,采用固定順序策略(O1®O2),α為0.05。如果兩個終點的檢驗結果分別是p1=0.062,p2=0.005,那么決策的結論是兩個終點均無效,因為第1個檢驗的結果不顯著,未能進行到第2個檢驗,喪失了發現對第2個終點獲益的機會?;赝朔ㄐ枋孪雀鶕潭樞虿呗詫Ω骷僭O排序,并采用Bonferroni法確定每個檢驗的αi,然后依順序進行檢驗。該法首先在α1水平檢驗H01,如果拒絕H01,則在α1+α2水平檢驗H02;如果不拒絕H01,則在α2水平檢驗H02,余類推。該法具有兩個特點,一是在前一個原假設未被拒絕時,仍可繼續后續的檢驗,例如上例,采用回退法,對應O1和O2的名義水準分別是0.04和0.01,最終的決策結論為試驗藥物對第2個主要終點O2有顯著獲益;二是如果前一個檢驗顯著,其對應的αi可以疊加到下一個檢驗的名義水準,體現了αi的傳遞思想。例如,假設對應O1和O2的名義水準分別是0.04和0.01,如果對O1的假設檢驗顯著(α1=0.04),則對O2的檢驗水準為0.05(=0.01+0.04),即把前一次檢驗顯著的名義水準傳遞給了下一次檢驗。對于固定順序策略是否采用多重性調整各有利弊,需權衡之。

3. 期中分析常見的α分割方法

期中分析較經典的α分割方法有Pocock法、O’Brien-Fleming法和Haybittle-Peto法。這三種分割方法的一個共同前提是每一次期中分析的間隔和樣本量相同,只是每次假設檢驗αi的分配有不同側重。更為靈活的α分割方法則是α消耗函數,如Lan-DeMets α消耗函數,該方法是上述經典方法的擴展,它不要求期中分析間隔樣本量相等,在設定期中分析時間點上更為靈活。例如,一項評價免疫靶點抑制劑抗腫瘤藥物的確證性臨床試驗,主要評價指標為全因死亡,擬進行一次期中分析,可基于有效性早期終止試驗??紤]到免疫靶點抑制劑起效時間可能存在延遲,因此計劃在研究相對較晚的時間點,即觀察到75%的死亡事件時,開展期中分析。采用近似O’Brien Fleming邊界的Lan-Demets α消耗函數,且要求雙側FWER控制在0.05,則期中分析和最終分析的雙側名義檢驗水準分別為0.019和0.044。

(三)多重性分析方法

對于需要解決的多重性問題,多數是基于具體的統計檢驗方法結合多重性調整方法來實現的。例如,對于不同數據類型的多個終點(如定量、定性、生存時間),組間比較會用到不同的統計分析方法(如協方差分析、M-H c2檢驗、Kaplan-Meier檢驗),與此同時,還要依靠多個終點的多重性調整方法(如Bonferroni法等)來確定每個假設檢驗的檢驗水準αi,然后才能做出決策結論。

對于單一終點變量、同一研究階段的多組比較,有些統計分析方法是在整體檢驗的基礎上解決多重比較的問題,其根本思想是兩兩比較所涉及的標準誤是整體檢驗的標準誤,由此達到控制FWER的目的。例如,定量結局變量基于方差分析的兩兩比較有LSD法、SNK(Student-Neuman-Keuls)法、Scheffe法、Tukey法、Levy法、Ryan法、Duncan法,等等,多組與參照組的比較有Dunnett法、Dunnett-SNK法、Dunnett-Levy法等;定性結局變量的多重比較可通過變量變換(如反正弦變換)成為定量變量,然后采用上述定量變量的分析方法;生存時間結局變量基于Kaplan-Meier法的log rank檢驗(Mantel-Cox法)、Breslow法(擴展Wilcoxon法)、Tarone-Ware法等。上述方法可通過專業統計軟件實現。對于在整體檢驗的基礎上無法實現多重比較的統計分析方法,就需要采用局部檢驗(兩兩比較)結合a分配的方法(如Bonferroni法等)。

多變量的參數方法(如多元方差分析)是解決多重性問題的手段之一,特別是對于多終點的情況,但是此類方法一則要求滿足多元正態分布,二則分析結果的解釋往往不直觀,限制了其應用。

重復抽樣(如bootstrap法和permutation法)也是解決多重性問題的手段之一,此類方法的優點是在控制FWER的同時還能保證較高的檢驗效能;其不足之處在于它所基于的經驗分布難以驗證從而導致估計的準確性不足,此外它更依賴于大樣本。因此,該類方法在臨床試驗中少有實踐,需慎重使用。

由于解決多重性問題的統計分析方法眾多,每種方法都有其優勢與不足,申辦方需要在臨床試驗方案或統計分析計劃中事先規定針對多重性問題所采用的統計分析方法。

(四)多重性問題的基本解決思路

臨床試驗的多重性問題較為普遍而且復雜,解決這一問題的基本思路如圖4所示。首先,根據研究目的和試驗方案,梳理出可能的多重性問題。其次,判斷哪些多重性問題需要多重性調整,哪些不需要。之后,進入多重性調整過程。先判斷是做一次整體決策還是分階段做若干次整體決策(如基于有效性決策的期中分析),對某一個整體決策而言可采用平行策略、序貫策略或平行+序貫策略,最后根據所選策略確定每一個檢驗假設(局部決策)所對應的統計分析方法和名義水準αi的分配策略(如需要)。


圖4  多重性問題的基本解決思路


五、其它考慮

(一)不需要調整的多重性問題

不需要調整的多重性問題包括但不限于以下情形(均不包含有效性的期中分析):

1. 針對單一主要終點的非劣效試驗的標準三臂設計,所有假設檢驗結果均顯著才被視為有效;

2. 針對單一主要終點,研究假設為試驗藥物的療效至少非劣于陽性對照藥,即檢驗假設為固定順序,第一步驗證試驗藥物的療效非劣于陽性對照藥的假設,第二步驗證試驗藥物的療效優于陽性對照藥的假設(在第一步假設被拒絕后),每一步的檢驗水準與FWER水平相同;

3. 針對多個主要終點,當且僅當所有終點的假設檢驗結果均顯著才被視為有效;

4. 針對多個均不以說明書聲稱的獲益為目的的次要終點;

5. 有效性和安全性評價應分別獨立控制FWER,兩者間無需調整;

6. 對于籃式設計、傘式設計、平臺設計等跨研究的復雜設計,如果分題研究多是獨立的研究且回答各自的臨床問題,如適用疾病、目標人群等;

7. 在統計分析過程中,對同一主要終點指標,可能會對不同的分析數據集進行分析,只要事先定義以哪個分析數據集為主要結論依據;

8. 采用不同的統計模型或同一模型采用不同的參數設置,只要事先定義主分析模型;

9. 根據不同的假設進行敏感性分析,例如采用不同的缺失數據估計方法填補后的分析,對離群值采用不同處理后的分析等。

(二)多重性檢驗的參數估計問題

多重性調整的假設檢驗方法眾多,有的方法較為復雜,可能難以做出相應的區間估計,此時應該考慮采用較為簡單但是相對保守的方法進行區間估計,例如采用Bonferroni方法調整置信區間。

多重性調整還有可能帶來點估計的選擇性偏倚。例如,在含有多個劑量組的確證性臨床試驗中,如果多重性問題的決策策略選擇了在藥物說明書中標示與安慰劑差異最大的劑量組的效應量,則有可能高估藥物的療效。類似的選擇性偏倚也會因亞組的選擇而產生。因此,有必要評估多重性調整可能帶來的選擇性偏倚。

(三)與監管機構的溝通

在臨床試驗方案和統計分析計劃中應事先明確多重性問題和多重性調整的策略和方法。對于復雜的多重性問題,是否需要多重性調整以及如何調整,現有的策略和方法可能面臨挑戰,因此鼓勵申辦方在確證性臨床試驗設計階段積極與監管機構溝通,以求雙方能夠達成共識。在試驗過程中,如果因為更改多重性調整策略和方法而使臨床試驗方案做出重大調整,應與監管機構充分溝通,在征得同意的情況下對方案進行修改和備案。

六、參考文獻

1. CDE. 非劣效設計臨床試驗指導原則

2. CDE. 臨床試驗數據監查委員會指導原則(征求意見稿)

3. CDE. 藥物臨床試驗適應性設計指導原則(征求意見稿)

4. CDE. 藥物臨床試驗的富集策略與設計指導原則(征求意見稿)

5. CDE. 藥物臨床試驗亞組分析的指導原則(征求意見稿)

6. ICH E9(臨床試驗的統計學指導原則)

7. ICH E8(臨床研究的一般注意事項)

8. ICH E17(多地區臨床試驗計劃與設計總體原則)

9. 錢俊,陳平雁. Bootstrap和Permutation方法在樣本率多重比較中的應用. 中國醫院統計,2008;15(1):43-45.

10. 錢俊,陳平雁. 多個樣本率的多重比較. 中國衛生統計,2008;25(2):206-212.

11. 錢俊,陳平雁. 樣本率多重比較方法的模擬研究. 中國衛生統計,2009;26(2):131-134.

12. Bretz F, Tamhane AC, Pinheiro J, et al. Multiple Testing in Dose-Response Problem, Chapter 3 of Multiplicity Testing Problem in Pharmaceutical Statistics. CRC Press, 2010.

13. Chen J, Luo JF, Liu K, et al. On power and sample size computation for multiple testing procedures. Computational Statistics and Data Analysis, 2011; 55: 110-122.

14. Collignon O, Christian Gartner C, Haidich AB, et al. Current statistical considerations and regulatory perspectives on the planning of confirmatory basket umbrella and platform trial. Clinical Pharmacology & Therapeutics, 2020; doi:10.1002/cpt.1804.

15. Dmitrienko A, Tamhane AC, Bretz F, et al. Multiple Testing Methodology, Chapter 2 of Multiplicity Testing Problem in Pharmaceutical Statistics. CRC Press, 2010.

16. Dmitrienko A, Tamhane AC, Bretz F, et al. Gatekeeping Procedures in Clinical Trials, Chapter 5 of Multiplicity Testing Problem in Pharmaceutical Statistics. CRC Press, 2010.

17. EMA. Guidance on Multiplicity Issues in Clinical Trials.

18. FDA. Multiple Endpoints in Clinical Trials –Guidance for the Industry.

19. Hochberg Y, Tamhane A. Multiplicity Comparison Procedure. New York: Wiley, 1987.

20. Huque MF, Rohmel J. Multiplicity Problem in Clinical Trials, Chapter 1 of Multiplicity Testing Problem in Pharmaceutical Statistics. CRC Press, 2010.

21. Lan KKG, DeMets DL. Discrete sequential boundaries for clinical trials. Biometrika, 1983; 70: 659-663.

22. O’Brien PC, Fleming TR. A multiple testing procedure for clinical trials. Biometrics, 1979; 35: 549-556.

23. Peto R, Pike MC, Armitage P, et al. Design and analysis of randomized clinical trials requiring prolonged observations of each patient, I. Introduction and design. British Journal of cancer, 1976; 34: 585-612.

24. Pocock SJ. Group sequential methods in the design and analysis of clinical trials. Biornetrika, 1997; 64:191-199.

25. Sen. Some remark on Simes-type multiple tests of significance. Journal of statistical Planning and Inference, 1991; 82:139-145.

26. Wang DL, Li YH, Wang X, et al. Overview of multiple testing methodology and recent development in clinical trials. Contemporary Clinical Trials, 2015; 45: 13-20.



附錄1:詞匯表


I類錯誤(Type I Error):指原假設(或稱無效假設)正確但檢驗結果拒絕了原假設的錯誤,相當于把實際上無效的藥物經統計推斷得出有效結論的錯誤,其概率需控制在某一水平,該水平稱為檢驗水準,或稱顯著性水準,習慣用a表示。

II類錯誤(Type II Error):指原假設不正確,但檢驗結果未能拒絕原假設的錯誤,相當于把實際上有效的藥物經統計推斷得出無效結論的錯誤。

α消耗函數(α Spending Function):當某個臨床研究分若干階段進行整體決策時(如基于有效性或無效性所做的期中分析),每個階段都要消耗一定的α,隨著研究進展,研究所完成的比例(如1/3、1/2、60%等)與累積的I類錯誤率呈現某種函數關系,如下圖所示。

Bonferroni法(Bonferroni Method):Bonferroni法的基本思想是各個獨立檢驗的名義水準之和等于FWER水平a,即

a1+a2+…+ai…+am=a(m是獨立檢驗的個數)

各名義水準可以相同(ai=a/m),也可以不同,后者往往在各個檢驗假設的優先順序時使用。

多重性問題(Multiplicity Issues):指在一項完整的研究中,需要經過不止一次統計推斷(多重檢驗)對研究結論做出決策的相關問題。

多重性調整(Multiplicity Adjustment):采用恰當的決策策略和分析方法將FWER控制在合理水平的過程。

復合終點(Composite Endpoint):是指將多個臨床相關結局合并為一個單一變量,如表示心血管事件的復合終點,只要發生心肌梗死、心力衰竭、冠心病猝死等其中的任一事件將被視為終點事件發生;或者將若干癥狀和體征的評分通過一定的方法合并為一個單一變量,如評價類風濕關節炎的ACR20量表。

關鍵次要終點(Key Secondary Endpoint):次要終點指標中用于支持藥品說明書聲稱的獲益的指標,其通常與次要研究目的聯系在一起。

聯合用藥(Drug Combination):指治療用藥至少使用了兩種或以上的藥物。

復方藥(Compound Medicine):指治療用藥由兩種或以上的藥物組合而成。

名義檢驗水準(Nominal Level):對于多重檢驗中某一假設檢驗的檢驗水準稱之為名義檢驗水準,又稱局部檢驗水準,用ai表示。

平行策略(Parallel Strategy):又稱單步法,是指所包含的各個假設檢驗相互獨立,平行進行,與檢驗順序無關,就像一種并聯關系,每個假設檢驗的推斷結果不依賴于其它假設檢驗的推斷結果。

序貫策略(Sequential Strategy):又稱多步法,是指按一定順序對原假設進行檢驗,直到滿足相關條件而停止檢驗,就像一種串聯關系,前一個假設檢驗的結果根據設定條件將決定是否進行后續的假設檢驗。

總I類錯誤率(Familywise Error Rate,FWER):是指在同一試驗所關注的多個假設檢驗中,至少一個真的原假設被拒絕的概率,而不論多次檢驗中哪個或哪些原假設為真。

主要終點(Primary Endpoint):是指與臨床試驗所關注的主要問題(主要目的)直接相關的、能夠提供最具臨床意義和令人信服的證據的終點,常用于主要分析、樣本量估計和評價試驗是否達到主要目的。




附錄2:中英文對照表



中文

英文

α分配

α Allocation

α消耗

α Spending

α消耗函數

α Spending Function

Bonferroni法

Bonferroni Method

I類錯誤

Type I Error

II類錯誤

Type II Error

成組序貫分析

Group Sequential Analysis

單步法

Single-step Procedures

多步法

Multi-step Procedures

多個終點

Multiple Endpoints

多重性

Multiplicity

多重性調整

Multiplicity Adjustment

多重性問題

Multiplicity Issue

分題研究

Substudies

固定順序檢驗法

Fixed-sequential Procedure

關鍵次要終點

Key Secondary Endpoint

回退法

Fallback Method

劑量-反應關系

Dose-response Relationship

假設檢驗

Hypothesis Test

檢驗效能

Power

籃式設計

Basket Design

聯合用藥

Drug Combination

名義水準

Nominal Level

偏倚

Bias

平行策略

Parallel Strategy

平臺設計

Platform Design

前瞻性α分配法

Prospective Alpha Allocation Scheme, PAAS

傘式設計

Umbrella Design

守門法

Gatekeeping

顯著性水準

Significance Level

序貫策略

Sequential Strategy

序貫設計

Sequential Design

主要終點

Primary Endpoint

總I類錯誤率

Familywise Error Rate, FWER

縱向數據

Longitudinal Data


附件 2 :



《藥物臨床試驗多重性問題指導原則(征求意見稿)》起草說明


一、背景和目的

臨床試驗中普遍存在多重性問題,它是指在一項完整的研究中,需要經過不止一次統計推斷(多重檢驗)對研究結論做出決策的相關問題。例如,多個終點、多組間比較、多階段整體決策、縱向數據的多個時間點分析、亞組分析、分層分析、同一模型不同參數組合或不同數據集的分析、敏感性分析等。對于確證性臨床試驗,將總Ⅰ類錯誤率(FWER)控制在合理水平是統計學的基本準則。因此,在制訂研究方案和統計分析計劃時,采用恰當的決策策略和分析方法以控制FWER是非常重要的。

本指導原則主要闡述常見的多重性問題和相應的解決策略,介紹常用的多重性調整的統計方法,旨在為確證性藥物臨床試驗中如何控制FWER提供指導意見,所討論的一般原則也適用于其它類型的臨床研究。

二、起草過程

本指導原則自2020年4月正式啟動,分別于2020年5-7月召開三次專家線上研討會,最終形成該征求意見稿。起草過程中參考了國際上其他監管機構如美國FDA、歐盟EMA等制定的相關指南。

參與制訂本指導原則的專家名單見附錄,在此一并致謝。

三、指導原則架構

本指導原則分為六個部分,內容如下:

第一部分為“概述”,首先說明了臨床試驗中為什么需要考慮多重性問題,并明確了本指導原則的適用范圍和制定指導原則的目的。

第二部分為“多重檢驗中的I類錯誤、總I類錯誤率和II類錯誤”,介紹了I類錯誤、總I類錯誤率和II類錯誤三個考慮多重性問題時涉及的重要概念。

第三部分為“常見的多重性問題”,介紹臨床試驗中常見的多重性問題,包括多個終點、多組間比較、縱向數據不同時間點的分析、亞組分析、期中分析、復雜設計等方面。

第四部分為“常見的多重性調整的策略與方法”,詳細介紹臨床試驗中多重性問題的解決思路。針對臨床試驗中普遍存在的多重性問題,所采用的多重性調整的策略與方法取決于試驗的目的、設計、統計假設及其分析方法。申辦者需在試驗設計時對選用的多重性調整的策略與方法進行必要的評估,并在試驗方案和統計分析計劃中詳述。多重性調整的策略與方法可以從決策策略、調整方法和分析方法三個層面考慮。

第五部分為“其他考慮”,主要介紹了不需要調整的多重性問題、多重性調整的參數估計問題和與監管部門的溝通。

第六部分為“參考文獻”。




附錄參與制訂《藥物臨床試驗多重性問題指導原則》的專家名單




主要執筆人:陳平雁、閆波、王勇、陳杰、尹平、李新旭、曾新外部專家:王彤三方協調委員會:陳平雁、王駿、狄佳寧(其余按姓氏筆劃順序):王秋珍、王勇、尹平、田正隆、閆波、李康、李新旭、何崑、陳剛、陳杰、陳峰、歐春泉、周軍、趙耐青、趙駿、賀佳、郭翔、高麗麗、曾新、譚銘秘書:吳瑩、段重陽



亚洲综合色在线视频久_国产综合亚洲区_中文字幕欧美亚洲网