2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

分享

用clogit做條件logistic回歸

 醫(yī)學(xué)數(shù)據(jù)科學(xué) 2019-03-11

混雜是生物醫(yī)學(xué)研究中最為棘手的問題之一,混雜可以在設(shè)計(jì)階段,采用配對(duì)方法將可能的混雜因素加以控制,以提高研究效率和可靠性。然而這樣的資料確不能采用經(jīng)典的logistic回歸,需要使用條件logistic回歸。

理論部分

為何采用條件logistic回歸?

這里以1:1配對(duì)設(shè)計(jì)為例,1:1配對(duì)設(shè)計(jì)的特點(diǎn)是對(duì)子內(nèi)部控制的混雜因素一致,不同對(duì)子的這些因素不同。從統(tǒng)計(jì)學(xué)角度來看,把每個(gè)配對(duì)試做一個(gè)成組病例對(duì)照研究,將配對(duì)層設(shè)置為啞變量。按照傳統(tǒng)的logistic回歸方法建立模型,估計(jì)每個(gè)自變量的比值比,這樣做有的主要困難有:

其一、每個(gè)配對(duì)層僅有2個(gè)觀察樣品;

其二、啞變量樹是對(duì)子數(shù)-1,大大增加了估計(jì)參數(shù)的數(shù)量。

為克服原有方法解決配對(duì)資料參數(shù)估計(jì)的缺陷,往往通過構(gòu)造特殊的條件似然函數(shù),仍然采用極大似然估計(jì)法進(jìn)行參數(shù)估計(jì)。

構(gòu)造條件似然函數(shù)

1:1病例對(duì)照的資料常常整理成如下格式。設(shè)有n對(duì)獨(dú)立的觀察,每個(gè)對(duì)子包含兩個(gè)人,第1個(gè)已經(jīng)患病,第2個(gè)沒有患病。自變量為X,第i層第一個(gè)人自變量記為Xi1Xi1,第二個(gè)人自變量記為Xi2Xi2。

配對(duì)號(hào)病例
對(duì)照

XYXY
1X11X111X10X100
2X21X211X20X200
…………………………
nXn1Xn11Xn0Xn00

任何一層中,第一個(gè)人患病的概率和未患病的概率分別為:

π1=exp(β0+XT1β)1+exp(β0+XT1β)1?π1=11+exp(β0+XT1β)π1=exp(β0+X1Tβ)1+exp(β0+X1Tβ)1?π1=11+exp(β0+X1Tβ)

第二個(gè)人患病的概率與不患病的概率分別為:

π0=exp(β0+XT0β)1+exp(β0+XT0β)1?π0=11+exp(β0+XT0β)π0=exp(β0+X0Tβ)1+exp(β0+X0Tβ)1?π0=11+exp(β0+X0Tβ)

現(xiàn)在假定同一層中的2個(gè)人中,只有1個(gè)人患病。在只有1個(gè)人患病的情況下,恰好第1個(gè)人患病而第2個(gè)人不患病的條件概率為

P=π1(1?π0)π1(1?π0)+π0(1?π1)=11+exp(?(XT1?XT0)β)P=π1(1?π0)π1(1?π0)+π0(1?π1)=11+exp(?(X1T?X0T)β)

n個(gè)配對(duì)層的聯(lián)合概率,即似然函數(shù)為

L=P1×P2×Pn=11+exp(?(XT1?XT0)β)L=P1×P2×…Pn=∏11+exp(?(X1T?X0T)β)

對(duì)上面的式子求對(duì)數(shù),得到對(duì)數(shù)似然方程,通過迭代法求得偏回歸系數(shù)的值。假設(shè)檢驗(yàn)同樣采用似然比、score檢驗(yàn)以及wald檢驗(yàn)。

需要注意,上面的模型與經(jīng)典的logistic回歸有兩點(diǎn)不同:

  1. 與偏回歸系數(shù)相乘的是病例與對(duì)照相應(yīng)變量之差;

  2. 模型不含常數(shù)項(xiàng)。

實(shí)戰(zhàn)部分

在多種統(tǒng)計(jì)軟件如SPSS、SAS等中,配對(duì)logistic回歸通常采用分層COX回歸模型來實(shí)現(xiàn)。這是因?yàn)椋謱覥ox回歸假設(shè)不同層之間的基線風(fēng)險(xiǎn)函數(shù)完全無關(guān),只需估計(jì)協(xié)變量的偏回歸系數(shù)值。條件logistic回歸同樣如此,模型中不存在截距項(xiàng),不同層之間有相同的偏回歸系數(shù)??梢娪梅謱覥ox回歸來擬合條件logistic回歸完全是一種取巧。

在調(diào)用分層Cox回歸時(shí),會(huì)將病例算作發(fā)生終點(diǎn)事件,對(duì)照算作刪失。下面以一個(gè)例子來說明:

為探討女性乳腺癌危險(xiǎn)因素,研究者在某市1996-1997年間確診的女性乳腺癌患者中隨機(jī)抽取350名病例,對(duì)每一病例以一名性別相同、年兩差別不超過±2.5歲的對(duì)照。收集的信息包括:

變量變量含義值標(biāo)簽
X1X1文化程度0:大專以下,1:大專及以上
X2X2體質(zhì)指數(shù)0:小于等于27,1:大于27
X3X3近年精神壓抑0:無,1:有
X4X4乳腺良性疾病史0:無,1:有
X5X5惡性腫瘤家族史0:無,1:有
X6X6初潮年齡0:大于等于14歲,1:小于14歲
X7X7哺乳史0:有,1:無

部分?jǐn)?shù)據(jù)如下,數(shù)據(jù)中以id號(hào)來標(biāo)識(shí)層變量,同一個(gè)id中第一個(gè)為病例,后一個(gè)為對(duì)照。:

idx1x2x3x4x5x6x7
10000010
10000001
20100101
20000001
30000001
30000001
40010001
40000011
51111010

現(xiàn)在調(diào)用R程序進(jìn)行條件logistic回歸,使用的函數(shù)是survival包中的clogit函數(shù),該函數(shù)實(shí)際上默認(rèn)調(diào)用了coxph函數(shù)。下面的程序首先讀取了數(shù)據(jù),然后創(chuàng)建結(jié)局變量,進(jìn)而將分類變量轉(zhuǎn)化為因子。

1
2
3
4
5
6
7
8
9
10
11
df<-read.delim('clipboard',header = T)
df$result<-rep(c(1,0),times=350)
head(df)
df$x1<-factor(df$x1,labels = c('大專以下','大專及以上'),levels=0:1)
df$x2<-factor(df$x2,levels = 0:1,labels = c('≤27','>27'))
df$x3<-factor(df$x3,levels = 0:1,labels = c('無','有'))
df$x4<-factor(df$x4,levels = 0:1,labels = c('無','有'))
df$x5<-factor(df$x5,levels = 0:1,labels = c('無','有'))
df$x6<-factor(df$x6,levels = 0:1,labels = c('≤14歲','>14歲'))
df$x7<-factor(df$x7,levels = 0:1,labels = c('有','無'))
head(df)

clogit具有和其他建模函數(shù)同樣的用法,只需要使用strata參數(shù)指定分層變量即可

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
> library(survival)
> clogit.full<-clogit(result~.-id+strata(id),data = df)
> summary(clogit.full)
Call:
coxph(formula = Surv(rep(1, 700L), result) ~ . - id + strata(id),
data = df, method = "exact")

n= 700, number of events= 350

coef exp(coef) se(coef) z Pr(>|z|)
x1大專及以上 0.61655 1.85252 0.24368 2.530 0.011403 *
x2>27 1.07581 2.93237 0.47854 2.248 0.024570 *
x3有 1.38708 4.00313 0.26438 5.247 1.55e-07 ***
x4有 1.90482 6.71821 0.53637 3.551 0.000383 ***
x5有 0.60911 1.83879 0.26039 2.339 0.019326 *
x6>140.13795 1.14792 0.17979 0.767 0.442893
x7無 -0.08851 0.91530 0.23665 -0.374 0.708407
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

exp(coef) exp(-coef) lower .95 upper .95
x1大專及以上 1.8525 0.5398 1.1490 2.987
x2>27 2.9324 0.3410 1.1478 7.491
x3有 4.0031 0.2498 2.3843 6.721
x4有 6.7182 0.1488 2.3480 19.223
x5有 1.8388 0.5438 1.1038 3.063
x6>141.1479 0.8711 0.8070 1.633
x7無 0.9153 1.0925 0.5756 1.455

Rsquare= 0.102 (max possible= 0.5 )
Likelihood ratio test= 75.58 on 7 df, p=1.091e-13
Wald test = 50.46 on 7 df, p=1.173e-08
Score (logrank) test = 65.08 on 7 df, p=1.447e-11

變量x6和x7不是顯著的,現(xiàn)在將其剔除,

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
> clogit.mod<-clogit(result~.-id+strata(id)-x6-x7,data = df)
> summary(clogit.mod)
Call:
coxph(formula = Surv(rep(1, 700L), result) ~ . - id + strata(id) -
x6 - x7, data = df, method = "exact")

n= 700, number of events= 350

coef exp(coef) se(coef) z Pr(>|z|)
x1大專及以上 0.6105 1.8414 0.2433 2.509 0.012092 *
x2>27 1.0975 2.9965 0.4775 2.299 0.021529 *
x3有 1.3690 3.9313 0.2631 5.204 1.95e-07 ***
x4有 1.9001 6.6864 0.5327 3.567 0.000361 ***
x5有 0.6069 1.8348 0.2588 2.345 0.019039 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

exp(coef) exp(-coef) lower .95 upper .95
x1大專及以上 1.841 0.5431 1.143 2.966
x2>27 2.997 0.3337 1.175 7.639
x3有 3.931 0.2544 2.348 6.583
x4有 6.686 0.1496 2.354 18.993
x5有 1.835 0.5450 1.105 3.047

Rsquare= 0.101 (max possible= 0.5 )
Likelihood ratio test= 74.83 on 5 df, p=1.01e-14
Wald test = 49.86 on 5 df, p=1.483e-09
Score (logrank) test = 64.61 on 5 df, p=1.35e-12

剩下的變量都是顯著的,輸出的結(jié)果最后一部分是該模型與空模型的似然比檢驗(yàn),wald檢驗(yàn)以及score檢驗(yàn),結(jié)果同樣有統(tǒng)計(jì)學(xué)意義。

上述模型中,X1、X2、X3、X4、X5均有統(tǒng)計(jì)學(xué)意義,OR值均大于1。因此可以認(rèn)為高文化程度、肥胖、精神壓抑、乳腺良性疾病史和惡性腫瘤家族史是女性乳腺癌的危險(xiǎn)因素。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多