什么是秩和檢驗(yàn)?
秩和檢驗(yàn)是一種非參數(shù)檢驗(yàn)方法,主要用于比較兩個或多個獨(dú)立樣本或配對樣本的分布是否相同。
一、適用情況
數(shù)據(jù)不滿足參數(shù)檢驗(yàn)假設(shè):
當(dāng)數(shù)據(jù)不服從正態(tài)分布、方差不齊或總體分布未知時,秩和檢驗(yàn)是一種合適的選擇。例如,一些社會經(jīng)濟(jì)數(shù)據(jù)、生物醫(yī)學(xué)數(shù)據(jù)可能不滿足正態(tài)分布假設(shè),此時使用秩和檢驗(yàn)可以避免因錯誤使用參數(shù)檢驗(yàn)而導(dǎo)致的錯誤結(jié)論。
比如,比較兩種不同治療方法對患者疼痛程度的影響,疼痛程度數(shù)據(jù)可能不呈正態(tài)分布,這時可以采用秩和檢驗(yàn)。
小樣本數(shù)據(jù):
在樣本量較小的情況下,參數(shù)檢驗(yàn)的效力可能會降低,而秩和檢驗(yàn)相對較為穩(wěn)健。特別是當(dāng)樣本量小于 30 時,秩和檢驗(yàn)常常是更好的選擇。
例如,在一項(xiàng)小型醫(yī)學(xué)實(shí)驗(yàn)中,只有十幾名患者參與,比較兩種藥物的療效,由于樣本量小且數(shù)據(jù)可能不滿足正態(tài)分布,使用秩和檢驗(yàn)更為可靠。
有序數(shù)據(jù):
對于有序分類數(shù)據(jù)(如等級數(shù)據(jù)),秩和檢驗(yàn)可以有效地比較不同組之間的差異。例如,將患者的病情分為 “輕度”“中度”“重度” 三個等級,比較不同治療方法對病情等級的影響,可以使用秩和檢驗(yàn)。
二、基本原理
對于兩個獨(dú)立樣本的秩和檢驗(yàn)(Wilcoxon 秩和檢驗(yàn)或 Mann-Whitney U 檢驗(yàn)):
將兩個樣本合并后進(jìn)行排序,得到每個數(shù)據(jù)的秩次。然后分別計(jì)算兩個樣本的秩和。如果兩個樣本來自相同的總體分布,那么它們的秩和應(yīng)該相近;反之,如果兩個樣本的分布不同,它們的秩和會有較大差異。
通過比較兩個樣本的秩和大小,以及根據(jù)特定的統(tǒng)計(jì)量計(jì)算和參考分布,來判斷兩個樣本是否來自不同的總體分布。
對于多個獨(dú)立樣本的秩和檢驗(yàn)(Kruskal-Wallis 檢驗(yàn)):
同樣將多個樣本合并后進(jìn)行排序,得到每個數(shù)據(jù)的秩次。然后計(jì)算每個樣本的秩和。如果多個樣本來自相同的總體分布,那么它們的秩和應(yīng)該在一定范圍內(nèi)波動;反之,如果樣本之間存在差異,它們的秩和會有明顯的不同。
通過計(jì)算統(tǒng)計(jì)量 H,并與特定的分布進(jìn)行比較,來判斷多個樣本是否來自不同的總體分布。
對于配對樣本的秩和檢驗(yàn)(Wilcoxon 符號秩檢驗(yàn)):
計(jì)算配對數(shù)據(jù)的差值,對差值進(jìn)行排序并賦予秩次。如果配對數(shù)據(jù)來自相同的總體分布,那么差值的秩和應(yīng)該接近零;反之,如果存在差異,差值的秩和會偏離零。
通過比較差值的正秩和與負(fù)秩和的大小,以及計(jì)算特定的統(tǒng)計(jì)量,來判斷配對樣本是否存在差異。
三、主要步驟
提出假設(shè):
對于兩個獨(dú)立樣本,原假設(shè)為兩個樣本來自相同的總體分布;備擇假設(shè)為兩個樣本來自不同的總體分布。
對于多個獨(dú)立樣本,原假設(shè)為多個樣本來自相同的總體分布;備擇假設(shè)為多個樣本不全來自相同的總體分布。
對于配對樣本,原假設(shè)為配對數(shù)據(jù)的差值來自對稱分布(即總體中位數(shù)為零);備擇假設(shè)為配對數(shù)據(jù)的差值不來自對稱分布。
計(jì)算秩和:
根據(jù)不同的檢驗(yàn)類型,將樣本數(shù)據(jù)進(jìn)行合并排序,計(jì)算相應(yīng)的秩和。
確定統(tǒng)計(jì)量:
根據(jù)秩和計(jì)算出特定的統(tǒng)計(jì)量,如 Wilcoxon 秩和檢驗(yàn)的 W 統(tǒng)計(jì)量、Kruskal-Wallis 檢驗(yàn)的 H 統(tǒng)計(jì)量、Wilcoxon 符號秩檢驗(yàn)的 T 統(tǒng)計(jì)量等。
確定 P 值:
通過查特定的統(tǒng)計(jì)量表或使用統(tǒng)計(jì)軟件,確定統(tǒng)計(jì)量對應(yīng)的 P 值。
做出結(jié)論:
如果 P 值小于預(yù)先設(shè)定的顯著性水平(通常為 0.05),則拒絕原假設(shè),認(rèn)為樣本之間存在顯著差異;如果 P 值大于顯著性水平,則接受原假設(shè),認(rèn)為樣本之間無顯著差異。
四、優(yōu)點(diǎn)
對數(shù)據(jù)分布要求寬松:
不依賴于總體分布的具體形式,適用于各種分布形態(tài)的數(shù)據(jù),具有廣泛的適用性。
對異常值不敏感:
具有較好的穩(wěn)健性,即使數(shù)據(jù)中存在異常值,也能提供較為可靠的結(jié)果。
計(jì)算簡單:
主要涉及數(shù)據(jù)的排序和秩和計(jì)算,相對容易理解和操作。
五、缺點(diǎn)
檢驗(yàn)效能相對較低:
在總體分布符合參數(shù)檢驗(yàn)假設(shè)的情況下,參數(shù)檢驗(yàn)通常比秩和檢驗(yàn)具有更高的檢驗(yàn)效能。
對樣本量要求相對較高:
為了達(dá)到與參數(shù)檢驗(yàn)相同的檢驗(yàn)效能,通常需要較大的樣本量。
結(jié)果解釋相對復(fù)雜:
結(jié)果基于秩次,對于不熟悉非參數(shù)檢驗(yàn)的人來說,理解和解釋可能有一定難度。