(為伊消得人憔悴;一用就錯學(xué)不會;舍得應(yīng)付換應(yīng)用;案例實戰(zhàn)真英雄?。┻@里沒有生澀難懂的統(tǒng)計理論,只有白話統(tǒng)計思維+案例實戰(zhàn)。咱們一起成長吧! Logistic回歸是一種非常重要的單、多因素分析方法,其單因素應(yīng)用主要目的在于篩選變量,多因素分析,在于獲取最終模型,并得到各因素的風(fēng)險值!多因素分析是統(tǒng)計分析的高級部分,能解其中味者,定能做出一定的研究成果。 對于Logistic回歸,松哥認為至少兩點大家應(yīng)該注意,一是:變量如何進入模型,二是:變量以何種形式進入模型。 1.變量如何進入模型 (1)通常我們進行Logistic回歸,常規(guī)操作為先進行單因素分析(即進行Logistic回歸時放入一個自變量X),如果該因素P<> (2)有時候,以P<><> (3)將上述篩選的有意義的幾個X,同時放入自變量框,構(gòu)建多因素模型。很多人為了省事,直接采用的就是stepwise(逐步法),松哥稱之為“懶人法”。意即最終模型由軟件根據(jù)各因素的P值決定去留,獲取最終模型。 (4)升個級吧!上述的單因素分析、多因素分析的因素去留選擇,其實都是基于P值,然而P值在近2年的詬病大家也都有所耳聞!我們進行單因素分析時,P>0.1的變量其真正就與Y無關(guān)嗎? 因為單因素分析是無法考慮混雜因素的,而混雜是雙向的,某因素X單因素分析P>0.1,萬一有個混雜因素,與其作用相反,把其拖入無意義界值之外呢? 同理,某個X與Y單因素分析P<> 關(guān)鍵是第一步就被剔除,沒有進入多因素分析的X,如果真正與Y有關(guān),將會讓我們的研究結(jié)局走向相悖的一面。 最近的觀點。。。。。。。 那我們到底該如何做呢?軍事醫(yī)學(xué)科學(xué)院胡良平講授的觀點為:依據(jù)專業(yè),選擇可能影響Y的相關(guān)影響因素X,直接進行多因素分析,讓眾多X們進行相互殘殺,看到底誰有本事留在模型中(以P是否小于0.05為標(biāo)準)。然而這種做法也有先決條件,自變量X不應(yīng)該太多,否則樣本量無法滿足構(gòu)建模型 的需要。 然而松哥最近看了些高質(zhì)量雜志發(fā)現(xiàn),多因素分析即使P>0.0.5,也是可以留在模型的。比如上述多因素分析,其中4個P<0.05,留在模型,還有1個p>0.05,是否該剔除呢?新的觀點認為,先記下沒有剔除前,各危險因素的β系數(shù)值,然后剔除再建立模型,再看β值,如果β值改變量達到10%,則該變量不能刪除,必須進入模型。 如果你用心看到這里,肯定會問,是前面4個β中的任何一個嗎?注意,建立模型的x中,有核心研究變量與混雜因素,我們看核心研究變量的系數(shù)β的該變量是否大于10%。 再升高一個級別吧,如果你多讀一些高質(zhì)量SCI論文你會發(fā)現(xiàn),結(jié)論往往會建立幾個模型,而不是我們常規(guī)思維構(gòu)建一個最終模型。當(dāng)然建立的幾個模型的最終解決的意義是不同的。比如研究者更關(guān)心X1對Y的影響,則采用Model1,而更關(guān)注X2對Y的影響,則采用Model2。如何決定留取幾個模型,則必必須須關(guān)注建模過程中的β值的變化。 切記,切記,多因素分析,P值已經(jīng)不是那么那么的重要,β的信息含量遠大于P值! 2.變量以何種形式進入模型 我們知道,變量包含三種形式,計量資料、等級資料和分類資料,也就是松哥所說的老大、老二和老三,經(jīng)常關(guān)注松哥統(tǒng)計文章的應(yīng)該知道其含義。 以血壓為例,其既可以是老大、老二,又可以是老三。請問當(dāng)血壓是某個疾病的風(fēng)險因素時,其應(yīng)該以老大、老二、還是以老三的形式進行模型呢? 松哥送大家一個口訣,未必放之四海而皆準,但有一定的實際意義,就是“級別對等”。 比如多重線性回歸,我們的Y是不是連續(xù)性的正態(tài)分布資料,也就是計量資料,也就是老大。那血壓是以多少mmHg(計量資料)優(yōu)先考慮進入模型。其結(jié)果解釋為血壓每改變1mmHg,Y的平均改變多少多少,線性回歸更注重數(shù)量的依存關(guān)系。 如果是Logistic回歸,或Cox回歸,其Y原始形式為計數(shù)資料(老二或老三),此時血壓最好以老二(高血壓、正常、低血壓)或老三(正常、異常)的級別進入。 以老三形式為例,結(jié)果為,當(dāng)你需要為異常時,你Y結(jié)局發(fā)生的風(fēng)險是正常時的多少倍。 如果你以血壓mmHg形式進入,則表示,血壓每增高1mmHg,你Y結(jié)局發(fā)生的風(fēng)險增加多少倍。而根據(jù)專業(yè)我們也知道,血壓增高1mmHg,能對Y有多少影響呢,可能太微乎其微,也就沒有多大的專業(yè)意義了。 所以我們以老三形式進入,正常與異常之間的差異就應(yīng)該比較大,而且有更好解釋的專業(yè)意義! 如果血壓以老二形式進入模型,請問可不可以?好不好?意思是把它當(dāng)做等級資料,基于專業(yè),我們認為可以,但不好。理由是如果當(dāng)做等級,結(jié)論是,血壓每升高一個等級,Y發(fā)生的風(fēng)險。我們會用正常與低血壓比,高血壓與正常比,這過于統(tǒng)計,而有失專業(yè)。此時應(yīng)該高血壓與正常比,低血壓與正常比才對,才有專業(yè)意義。 如此這樣,老二形式的血壓,應(yīng)該當(dāng)做老三無序分類,然后設(shè)定正常為參照,讓高、低血壓都與正常比,這才對! 剛才選擇的變量為血壓,專業(yè)上已經(jīng)有高低的標(biāo)準,如果是身高,是連續(xù)性資料,建立Logisticc回歸,如果以老大進入,則結(jié)果為身高每增高1cm,Y發(fā)生的風(fēng)險,同樣的道理,1cm的身高變化,到底能有多大風(fēng)險呢!專業(yè)意義不大! 身高如何變成老二或者老三呢?常規(guī)做法是,將身高進行四分位數(shù)分組,然后變成變量,以1、2、3、4形式進入模型。但是萬一Y疾病結(jié)局的發(fā)生并不按著1、2、3、4成線性遞增或者遞減,此時,就得將身高當(dāng)做老三進行模型,而多項無序老三進行模型,必須設(shè)置啞變量,我想這你是懂滴! 身高先考慮由老大變老二,老二不合適再考慮變老三。變法除了四分位數(shù)分組,還有三分位數(shù)分組,可以多次嘗試,以期找到最佳的形式。在進行線性回歸時,還需要考慮變量的閾值效應(yīng)和飽和效應(yīng)(不說了,我想多數(shù)的你已經(jīng)暈了)! 松哥統(tǒng)計說 多因素分析是真正體現(xiàn)統(tǒng)計思維、統(tǒng)計功底的分析。然絕大多數(shù)人(包括松哥),都不能解對其神秘面紗!本文撰寫參考一些書籍與發(fā)表論文,同時也包括松哥個人的經(jīng)驗與觀點,不妥處請大家一起討論,集思廣益嘛! 總結(jié)下吧! (1)變量該如何進入模型 常規(guī)做法:放寬進入,然后關(guān)門打狗 現(xiàn)代做法:全部進來,看關(guān)系(β) (2)變量以何種形式進入 建議:級別對等 洋洋灑灑數(shù)千言,辛辛苦苦幾小時,積累沉淀18載! 本文,您堅持看到這里了嗎?看到了底部留個言! |
|
來自: 萌小芊 > 《統(tǒng)計》