2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

分享

各類軌跡建模技術(shù)如何使用?適用數(shù)據(jù)、步驟及規(guī)范,一文講清楚

 妙趣橫生統(tǒng)計學(xué) 2024-04-30 發(fā)布于江蘇

統(tǒng)計服務(wù),歡迎咨詢!

鄭老師團(tuán)隊(duì)指導(dǎo) | 重復(fù)測量資料的數(shù)據(jù)分析一對一高級學(xué)習(xí)班,掌握SPSS、R語言分析技巧


本文翻譯自《Clinical Epidemiology》雜志的一篇論文,題為:“Trajectory Modelling Techniques Useful to Epidemiological Research: A Comparative Narrative Review of Approaches”(對流行病學(xué)研究有用的軌跡建模技術(shù):方法的比較敘述回顧)。
本篇是潛變量系列文章第8篇
本公眾號回復(fù)“沙龍”即可獲得R語言代碼,PPT,數(shù)據(jù)等資料
研究摘要

近年來,不斷有采用軌跡建模技術(shù)研究涌現(xiàn),多數(shù)為醫(yī)療領(lǐng)域內(nèi)縱向數(shù)據(jù)的挖掘,對人群健康情況隨時間的個體內(nèi)和個體間變異性進(jìn)行探究。本綜述旨將闡述流行病學(xué)研究中的各種軌跡建模方法,并概述它們的應(yīng)用和差異,同時提供如何報告軌跡建模結(jié)果的指導(dǎo)。
本文綜述的潛類別建模方法包括增長混合模型(GMM)、組軌跡模型(GBTM)、潛類別分析(LCA)和潛轉(zhuǎn)換分析(LTA),并與其他側(cè)重單個數(shù)據(jù)的統(tǒng)計方法如聚類分析(CA)和序列分析(SA)進(jìn)行對比。根據(jù)研究問題和數(shù)據(jù)類型不同,可以采用多種方法對縱向研究中的重復(fù)測量數(shù)據(jù)進(jìn)行軌跡建模,然而目前對于各種潛類別建模方法(GMM、GBTM、LTA、LCA)存在多種不一致的術(shù)語,容易引起混淆。報告術(shù)語的一致性有助于提高研究人員選擇技術(shù)時的效率,因此本文將一并對上述建模方法的術(shù)語進(jìn)行統(tǒng)一。
關(guān)鍵詞:建模技術(shù),增長混合模型,組軌跡模型,潛類別分析,潛轉(zhuǎn)換分析,聚類分析,序列分析

引言

對測量結(jié)果取均值是分析整體或某特定亞組的指標(biāo)變化最常見的手段,但有一種情況相當(dāng)普遍,就是存在一批未知的個體,擁有相似的臨床癥狀、行為或醫(yī)療模式。真實(shí)世界中的整體是由許多個體組成的,因此使用估計的均值來描述整體,實(shí)際上是對真實(shí)臨床環(huán)境中復(fù)雜的個體內(nèi)和個體間變異性的過度簡化。針對這一情況,軌跡模型應(yīng)運(yùn)而生,將個體按特定項(xiàng)目上的相似性區(qū)分,并分配到不同的軌跡中。

為什么要對軌跡進(jìn)行建模?

在縱向數(shù)據(jù)中,軌跡描述了隨時間變化的某一數(shù)量、行為、生物標(biāo)志物或其他重復(fù)測量數(shù)據(jù)的演變過程。軌跡建模側(cè)重個體間的關(guān)系,目的是基于個體反應(yīng)模式,將它們歸類到不同的潛在類別中。分類的目的是讓同一類別內(nèi)的個體之間的相似性大于不同類別內(nèi)個體之間的相似性。根據(jù)個體的相似性進(jìn)行分組并賦予類別標(biāo)簽,是組織大型數(shù)據(jù)集、提高效率和理解的一個有力工具,研究者可以通過尋找潛在類別以指導(dǎo)預(yù)防和臨床實(shí)踐。
例如可以根據(jù)癥狀嚴(yán)重程度的不同軌跡(隨時間變化的疼痛強(qiáng)度得分)對患者進(jìn)行重新分組。識別到潛在類別后,所在類別就可以作為一個因變量來識別健康軌跡的預(yù)測因子,或作為自變量來探索它們對未來健康結(jié)果的影響。如圖1所示,與基于樣本均值的測量相比,軌跡建模使研究人員能夠更好地描述和理解隨時間變化的健康結(jié)果在個體內(nèi)和個體間的變異性和模式,它在探索健康狀況的異質(zhì)性、識別需要更好醫(yī)療保健的脆弱人群以及識別通往最佳健康結(jié)果的軌跡方面非常有用。這樣的方法可以提供科學(xué)證據(jù),優(yōu)化針對特定亞群體需求的個性化醫(yī)療保健。
上述方法在流行病學(xué)領(lǐng)域的使用相對較新,迄今為止,關(guān)于軌跡建模的非技術(shù)性比較方法論論文發(fā)表不多,而且非統(tǒng)計學(xué)者在瀏覽相關(guān)文獻(xiàn)時會遇到各種挑戰(zhàn)。本綜述的目的是提供各種軌跡建模技術(shù)的概覽,并討論它們的應(yīng)用和差異,以幫助衛(wèi)生研究人員選擇最適合其研究問題的技術(shù)。更具體地說,本文回顧了四種潛在類別建模方法:一種參數(shù)法(增長混合模型[GMM]),和三種半?yún)?shù)法(組軌跡模型[GBTM]、潛類別分析[LCA]和潛轉(zhuǎn)換分析[LTA])。
本文超越了之前發(fā)表的綜述,通過將這些軌跡建模技術(shù)與其他以個體為中心的統(tǒng)計方法(如聚類分析[非參數(shù)法]和序列分析[非參數(shù)法])進(jìn)行比較。這篇綜述的受眾是為那些不熟悉高級統(tǒng)計理論的讀者,對于本文中回顧的每一種統(tǒng)計方法,我們都將介紹基本概念、處理的數(shù)據(jù)類型、進(jìn)行分析所涉及的各個步驟、可用的統(tǒng)計軟件包以及一個現(xiàn)實(shí)世界的例子,也會討論如何更好地報告軌跡建模的結(jié)果,最是本綜述中提出的關(guān)鍵點(diǎn)的總結(jié)。

軌跡建模方法

現(xiàn)有的用于檢查軌跡模式方法和算法可以分為三種主要類型:非參數(shù)法、參數(shù)法和半?yún)?shù)法。非參數(shù)法不對數(shù)據(jù)的分布做任何假設(shè),因此個體被分配到一個子類別是基于不相似程度。相比之下,參數(shù)法和半?yún)?shù)法假設(shè)數(shù)據(jù)來自有限的混合分布。因此,個體被分配到一個亞組是基于該亞組成員資格的條件概率。

潛類別建模方法

潛變量的使用起源于心理學(xué)和社會科學(xué)領(lǐng)域,用于建模未被觀察到的量,例如發(fā)展軌跡。其在流行病學(xué)領(lǐng)域的應(yīng)用相對較新。例如在疼痛研究中,潛變量越來越多地被用于建模疼痛嚴(yán)重程度(例如強(qiáng)度評分、干擾評分)。
潛類別模型是包括無法直接觀察到的隨機(jī)變量的統(tǒng)計模型,基于個體被觀察到的癥狀或行為,將他們分配到潛在軌跡亞組中。每個亞組由在觀察到的行為上有相對類似觀察的個體組成。潛類別模型可以應(yīng)用于縱向或橫斷面數(shù)據(jù),能夠處理包括部分缺失數(shù)據(jù)、離散量表重復(fù)測量或時間變化協(xié)變量等多種復(fù)雜情況。在縱向數(shù)據(jù)的潛類別模型方法中,為了正確估計,至少需要三個測量時間點(diǎn),而為了估計涉及立方或二次趨勢的更復(fù)雜模型,四到五個測量時間點(diǎn)更為理想。縱向潛在類別建模方法不是評估單個時間點(diǎn)或相鄰時間點(diǎn)之間的變化,而是識別在整個研究期間具有相似結(jié)果模式的受試者子群。
本文論述了四種潛類別模型。三種適用于縱向數(shù)據(jù):增長混合模型(GMM)、組軌跡模型(GBTM)和潛轉(zhuǎn)換分析(LTA),而潛類別分析(LCA)適用于橫斷面數(shù)據(jù)。時常見到論文作者使用不恰當(dāng)?shù)男g(shù)語來指代他們所使用的方法,因此非統(tǒng)計學(xué)研究者在選擇合適的方法進(jìn)行自己的研究時會面臨困難。為了解決這個問題,本文概述了不同的潛在類別方法,并提供了使用這些統(tǒng)計方法的研究的具體示例,見表1。下面將詳細(xì)介紹每種方法。

增長混合模型Growth Mixture Modelling (GMM)

1.介紹
GMM是一種有限混合模型。它假設(shè)在任何給定的人群中,存在有限數(shù)量的未觀察到的亞群體或類別(潛在類別),這些類別具有相似的行為或經(jīng)歷。這與經(jīng)典統(tǒng)計模型形成對比,傳統(tǒng)模型假設(shè)所有個體都來自具有共同人群參數(shù)的同一人群。
GMM是一種用于縱向數(shù)據(jù)的參數(shù)模型,它為每個潛在類別估計一個平均增長曲線,并允許同一類別內(nèi)部個體之間存在變異。通過在模型中引入隨機(jī)效應(yīng),可以捕捉類別內(nèi)的異質(zhì)性,從而估計增長參數(shù)(截距和斜率)的方差。因此,隨機(jī)效應(yīng)用于表示個體潛在增長參數(shù)與人口平均增長參數(shù)之間的差異。
例如,在三個疼痛強(qiáng)度軌跡亞組(無改善、逐漸改善、快速改善)的情況下,GMM允許在這些亞組中的任何一個里,任何個體的疼痛強(qiáng)度都可以比同一亞組中的任何其他個體更強(qiáng)烈。對于每個軌跡,GMM估計一個截距、一個斜率以及一個增長參數(shù)的方差。這些參數(shù)是通過最大化對數(shù)似然函數(shù)來估計的。對于每個個體,基于觀測數(shù)據(jù)估計其屬于每個類別的概率(后驗(yàn)群體概率)。然后根據(jù)較高的后驗(yàn)群體概率將個體分配到對應(yīng)的子軌跡中。
在GMM中,協(xié)變量(無論其是否隨時間變化)的貢獻(xiàn)也可以被建模。實(shí)際上,某個體屬于某一潛類別的概率可能會根據(jù)協(xié)變量而變化,且協(xié)變量可以影響模型系數(shù)。一旦確定了軌跡成員身份,它可以被用作因變量或自變量來探索健康軌跡的預(yù)測因子及其對未來健康結(jié)果的貢獻(xiàn)。
2.適用數(shù)據(jù)類型
GMM用于縱向數(shù)據(jù),最初是為研究連續(xù)數(shù)據(jù)而開發(fā)的。但后來,它被改進(jìn)以處理其他類型的數(shù)據(jù),比如計數(shù)數(shù)據(jù)(無論是否存在零膨脹)和分類數(shù)據(jù)。
3.操作步驟
GMM可以通過迭代程序?qū)嵤?,其?shí)施需要基于研究領(lǐng)域的知識以及統(tǒng)計推斷來做出先驗(yàn)決策。
第一步:問題定義和軌跡亞組數(shù)量的規(guī)定
首先,研究領(lǐng)域與方法之間的聯(lián)系被正式建立。其次,制定一個合適的分析計劃。基于研究者對該領(lǐng)域的了解和對原始數(shù)據(jù)的描述性分析,假設(shè)潛在類別的預(yù)期數(shù)量和每個類別的曲線形態(tài)。例如,我們可以預(yù)期,接受手術(shù)的患者將遵循各種術(shù)后疼痛強(qiáng)度的軌跡(輕度、中度或重度疼痛,隨后是疼痛的改善或持續(xù))。
第二步:模型規(guī)范 
在這一步中,可以指定和估計一系列模型。研究人員可能會就增長參數(shù)(截距、斜率方差和協(xié)方差)以及協(xié)變量的添加做出決策。應(yīng)盡可能采取實(shí)質(zhì)性理論和先前的研究指導(dǎo)這些決策。例如,如果研究人員預(yù)期有三個潛在類別,他們可以開始擬合兩個、三個和四個類別的模型,決定決定每個軌跡隨時間變化的形狀應(yīng)該是線性的、二次的還是三次的,還應(yīng)決定增長因子方差是否應(yīng)該對每個類別具體化,類內(nèi)增長因子協(xié)方差是否應(yīng)該不為零,以及結(jié)果殘差方差是否應(yīng)該與類別無關(guān)。Frankfurt等(2016)強(qiáng)調(diào)正確規(guī)定模型以避免基于解釋的陷阱的重要性。此外,正確的模型規(guī)范能夠降低GMM結(jié)果解釋的復(fù)雜性。
第三步:模型估計 
GMM可以通過最大似然法或貝葉斯方法估計。
第四步:模型選擇與解釋 
本步驟的目的是確定測試的模型哪一個最能合理地代表觀測到的數(shù)據(jù)。應(yīng)通過LoMendell-Rubin調(diào)整似然比測試(LMR-LRT,p<0.05表示更好的擬合)來比較各個模型的擬合優(yōu)度,該測試適用于嵌套模型(k+1與k類模型),和/或參數(shù)化自助法似然比測試(p<0.05表示更好的擬合),和/或貝葉斯信息準(zhǔn)則(BIC)(較小的BIC表示更優(yōu)的模型)。研究人員還應(yīng)考慮模型的收斂性、模型提供的類別是否分明(熵接近1)、樣本中每個軌跡的比例(建議超過5%)、平均后驗(yàn)概率(接近1)、簡約性以及觀察到的潛在類別在實(shí)踐中的實(shí)用性。
4.可用軟件包
GMM可以通過Mplus軟件和R中的lcmm包來實(shí)現(xiàn)。據(jù)我們所知,商業(yè)統(tǒng)計軟件如SPSS、SAS等目前還沒有提供GMM軟件包。
5.優(yōu)勢與局限性
與所有其他潛在類別建模方法一樣,GMM對于處理一些技術(shù)方面非常有用,例如處理缺失數(shù)據(jù)、允許殘差相關(guān)以及將回歸中的殘差和混合效應(yīng)模型中的隨機(jī)效應(yīng)視為潛在變量。與其他潛在類別建模方法不同的是,GMM為每個類別估計一個平均增長曲線,并通過估計每個類別的增長因子方差來捕捉圍繞這些增長曲線的個體變異。此外,因?yàn)镚MM估計的參數(shù)比其他潛在類別建模方法多得多,結(jié)果的解釋可能會很復(fù)雜,這使得這種方法對許多健康研究人員來說難以接近。
6.GMM的實(shí)際應(yīng)用
以Pagé等(2019)的研究為例,他們采用GMM檢查心臟手術(shù)患者術(shù)后抑郁和焦慮的軌跡。使用手術(shù)前、手術(shù)后7天以及3個月、6個月、12個月和24個月時測量的醫(yī)院焦慮和抑郁量表(HADS)分?jǐn)?shù),擬合了一個包含圍手術(shù)期協(xié)變量的三條軌跡模型。軌跡建?;谔囟ǖ倪x擇標(biāo)準(zhǔn),如最低的AIC和BIC、最小軌跡亞組中超過5%的患者以及理論上的合理性。然后將軌跡類別用作廣義估計方程(GEE)中的分類變量,旨在檢查與此類軌跡相關(guān)的人口統(tǒng)計學(xué)和臨床特征。該研究發(fā)現(xiàn)了一組患者焦慮持續(xù)不緩解的患者,可能預(yù)測了持續(xù)的、甚至延續(xù)到術(shù)后2年的疼痛。

組軌跡模型Group-Based Trajectory Modelling (GBTM)

1.介紹
同GMM一樣,GBTM(類似潛在類別增長模型LCGA)是一種有限混合模型。GBTM是一種基于縱向數(shù)據(jù)的半?yún)?shù)模型,它假設(shè)人群分布是離散的,從而從中區(qū)分出擁有相似軌跡的潛在類別。GMM估計潛類別內(nèi)部的方差,而GBTM假設(shè)同一潛類別內(nèi)部的個體之間沒有變異(增長因素上沒有隨機(jī)效應(yīng)),因此實(shí)際上GBTM是GMM的簡化版。例如,在前述的三個疼痛強(qiáng)度軌跡潛類別(無改善、逐漸改善、快速改善)中,GBTM假設(shè)每個潛類別中的所有個體具有相同的疼痛強(qiáng)度演變,然后估計屬于該潛類別的人口比例,再估計每個個體屬于某個潛類別的概率(后驗(yàn)群體概率)。如同在GMM模型中一樣,每個個體按照最高的后驗(yàn)群體概率被分配到特定的潛類別中。參數(shù)通過最大化似然來估計,模型中也可以納入隨時間變化或保持不變的協(xié)變量。
2.適用數(shù)據(jù)類型
GBTM是基于縱向數(shù)據(jù)的,專為研究下列三中類型的變量而開發(fā):連續(xù)數(shù)據(jù)(特別是心理測量學(xué)產(chǎn)生的尺度數(shù)據(jù))、計數(shù)數(shù)據(jù)、以及分類數(shù)據(jù)。
3.操作步驟
與GMM一樣,GBTM擬合過程是迭代的,需要根據(jù)研究領(lǐng)域的知識進(jìn)行事先決策。然而它需要研究人員做出的決策更少。
第一步:問題定義和軌跡亞組數(shù)量的規(guī)定
與GMM模型相同。
第二步:模型規(guī)范 
建議首先測試一個單一群組模型,然后逐步調(diào)整,最后確定邏輯亞組的最大數(shù)量,這個最大數(shù)量應(yīng)該大于預(yù)期的亞組數(shù)量。在只有三個時間點(diǎn)的數(shù)據(jù)集中,應(yīng)該只測試一個單一的二次方程軌跡模型。如果這個模型的二次項(xiàng)并不顯著,那么應(yīng)該運(yùn)行一個線性軌跡模型來代替,并計算這個模型的貝葉斯信息準(zhǔn)則(BIC)值。如果二次項(xiàng)顯著,那么就進(jìn)行兩條軌跡的二次模型分析。然后將BIC值與只包含一條軌跡的模型的BIC值進(jìn)行比較,這一過程會一直重復(fù),直到找到BIC值最小的模型。每增加一條軌跡,都會重新評估模型的BIC值,以確定是否通過增加軌跡數(shù)量來改進(jìn)模型擬合。理想情況下,應(yīng)結(jié)合研究領(lǐng)域的知識和統(tǒng)計考慮來決定每個子軌跡的形狀。例如模擬隨時間變化的醫(yī)療接觸次數(shù)時,那些在整個研究期間沒有與醫(yī)療系統(tǒng)接觸的病人,可以假設(shè)他們屬于一個“零階形狀”軌跡,即他們的醫(yī)療接觸次數(shù)保持為零(水平直線)。
第三步:模型估計
與GMM相同。
第四步:模型選擇與解釋
模型選擇應(yīng)結(jié)合研究領(lǐng)域的具體需求,同時還應(yīng)考慮以下因素:1)選擇模型時,應(yīng)偏好既實(shí)用又簡潔的模型;2)模型應(yīng)確保每個子群體的估計概率與根據(jù)最大概率歸屬規(guī)則分類的個體比例相匹配;3)每個子群體的平均后驗(yàn)概率應(yīng)大于或等于0.7;4)每個子群體中的個體數(shù)量應(yīng)超過總數(shù)的5%;5)模型的置信區(qū)間應(yīng)足夠窄;6)比較具有不同子群體數(shù)量的模型時,應(yīng)考慮它們的BIC值差異。
4.可用軟件包
GBTM模型可以通過SAS軟件中的Proc Traj程序步來使用,也可以通過Mplus、R語言的crimCV包和lcmm包,以及使用Stata的traj插件來實(shí)現(xiàn),在SPSS或Excel中不可用。
5.優(yōu)勢與局限性
GBTM是GMM的一個更簡潔的版本,兩者在處理缺失數(shù)據(jù)和允許相關(guān)殘差方面都具有相同的優(yōu)勢。GBTM假設(shè)同一軌跡類別中的所有個體都表現(xiàn)出相同的行為,而GMM允許存在潛類別內(nèi)部存在隨機(jī)效應(yīng)。這意味著,使用GBTM時,研究人員可以討論潛類別之間的差異,但不能討論潛類別內(nèi)部的差異。GBTM估計的參數(shù)更少,因此運(yùn)行速度更快,報錯更少。同時由于模型較為簡單,結(jié)果也可能更易于解釋。出于這些原因,GBTM通常是研究人員更實(shí)用的選擇。
6.GBTM的實(shí)際應(yīng)用
Flint等(2017)通過GBTM法研究了參加以患者為中心的疾病管理干預(yù)隨機(jī)對照試驗(yàn)的心力衰竭門診患者的健康狀態(tài)軌跡。研究借助堪薩斯城心肌病問卷(KCCQ)在基線、3個月、6個月和12個月的測量數(shù)據(jù),根據(jù)以下標(biāo)準(zhǔn)識別了包括一些協(xié)變量的三種健康狀態(tài)軌跡:
(1)各種統(tǒng)計指標(biāo)(較低的BIC和AIC,顯著的LMR-LRT以及軌跡樣本量超過總樣本的5%),
(2)潛類別分類的理論意義和概念可解釋性。
然后將軌跡亞組作為多項(xiàng)邏輯回歸模型中的分類變量,以識別軌跡亞組的預(yù)測因子。研究顯示,較差的抑郁情緒、癥狀負(fù)擔(dān)和平靜感與健康狀況較差的軌跡亞組相關(guān)。大多數(shù)時間里患者的健康狀態(tài)變化是平穩(wěn)的,也就是說在這一期間內(nèi),大多數(shù)患者的健康狀況沒有經(jīng)歷劇烈的波動。

潛轉(zhuǎn)換分析Latent Transition Analysis (LTA)

1.介紹
LTA能夠分析多個分類變量隨時間的變化(例如,是/否,輕度/中度/重度),以及隨時間變化的2x2表或任何列聯(lián)表的變化。LTA是一種用于縱向數(shù)據(jù)的半?yún)?shù)有限混合模型,通過一組分類變量的觀察數(shù)據(jù)來定義每個時間點(diǎn)的潛在變量。該模型假設(shè)個體隨時間可以改變其所在的潛類別。例如,在三個疼痛強(qiáng)度亞組(輕度/中度/重度)中,LTA允許個體從一個時間點(diǎn)的重度亞組轉(zhuǎn)換到下一個時間點(diǎn)的輕度或中度亞組,因此這種方法的主要目標(biāo)是研究個體從一個時間點(diǎn)的一個類別轉(zhuǎn)移到下一個時間點(diǎn)另一個類別的轉(zhuǎn)換概率。在這個模型中,變化在兩個連續(xù)時間點(diǎn)之間的轉(zhuǎn)換概率矩陣中被量化。模型估計以下參數(shù):
(1)第一時間點(diǎn)在某潛類別中的概率;
(2)每個時間點(diǎn)每個潛類別中的人口比例;
(3)隨時間從一個潛類別轉(zhuǎn)移到另一個潛類別的條件概率例如,給定時間t-1的潛在狀態(tài)L1,時間t的潛在狀態(tài)L2的概率);
(4)后驗(yàn)群體概率。在任何給定的時間點(diǎn)都可以預(yù)測一個后驗(yàn)群體概率。因此,可以使用時間1的潛在狀態(tài)成員資格概率,將個體分配到時間1的潛在類別/狀態(tài),并使用后群體概率在給定時間點(diǎn)進(jìn)行分配。
參數(shù)是通過最大似然函數(shù)或貝葉斯法來估計。如同GMM和GBTM一樣,LTA模型也可以加入?yún)f(xié)變量,但必須在添加協(xié)變量之前選擇類別數(shù),主要是為了避免加入?yún)f(xié)變量前后類別數(shù)可能發(fā)生的變化。
2.適用數(shù)據(jù)類型
LTA可以研究隨時間變化的分類變量(名義或順序)。不過,由于數(shù)據(jù)集的結(jié)構(gòu)可能導(dǎo)致變量類別過多時形成龐大而復(fù)雜的列聯(lián)表,因此推薦將這些變量重新編碼為盡可能少的類別。當(dāng)時間點(diǎn)的數(shù)量不超過6個時,使用LTA更為合適。
3.操作步驟
與GMM和GBTM一樣,LTA的實(shí)施是迭代的,需要基于研究領(lǐng)域的知識和統(tǒng)計考慮做出先驗(yàn)決策。LTA的實(shí)施還需要幾個步驟。
第一步:問題定義和軌跡子群體數(shù)量的規(guī)定
選擇潛在類別數(shù)量基于假設(shè)測試的結(jié)果,以及研究領(lǐng)域的理論和特定考慮因素。
第二步:模型規(guī)定
在此步驟中,研究人員需要決定項(xiàng)目響應(yīng)概率的時間不變性、轉(zhuǎn)換概率的測量不變性(為了實(shí)現(xiàn)模型識別并促進(jìn)類別流行度的解釋)以及協(xié)變量的添加。
第三步:模型估計
在此步驟中,應(yīng)在擬合模型之前選擇估計方法。LTA模型可以通過使用期望最大化算法的最大似然法來估計。它們也可以使用馬爾可夫鏈蒙特卡洛算法的貝葉斯方法來估計。
第四步:模型選擇和解釋
依據(jù)更小的AIC和BIC來選擇最佳模型。 
4.可用軟件包
LTA可以通過SAS中的Proc LTA程序步、Mplus以及R中的poLCA和depmixs4包來使用。
5.優(yōu)勢與局限性
LTA在模擬隨時間變化以及研究這種變化的預(yù)測因素方面非常有用,也有助于比較不同子群體以測試治療效果。然而LTA需要大樣本量,因?yàn)樾枰烙嬙S多參數(shù)。實(shí)際上,每個可能的轉(zhuǎn)換都可以被視為一個單獨(dú)的列聯(lián)表。這個表通常包含大量可能的響應(yīng)模式。事實(shí)上,許多已抽樣的單元格可能是空的,但是樣本量越大,列聯(lián)表單元格內(nèi)稀疏的可能性就越小。此外,當(dāng)時間點(diǎn)的數(shù)量增加(例如大于6)時,由于需要估計的參數(shù)眾多,LTA變得更加復(fù)雜。值得注意的是,LTA與隱藏馬爾可夫模型(HMM)有一些相似之處。
6.LTA的實(shí)際應(yīng)用
Pat-Horenczyk等(2016)使用LTA法評估乳腺癌患者治療后適應(yīng)情況的穩(wěn)定性和轉(zhuǎn)變。通過在治療后0個月、6個月、12個月和24個月測量的一系列指標(biāo),包括困擾和應(yīng)對策略,基于多個擬合優(yōu)度指標(biāo)和類別的可解釋性,發(fā)現(xiàn)了四種治療后適應(yīng)情況:困擾、抵抗、建設(shè)性成長和掙扎成長。研究結(jié)論是,適應(yīng)情況之間的大多數(shù)轉(zhuǎn)變發(fā)生在治療后6到12個月之間。他們的工作被視為對成長、困擾和應(yīng)對之間關(guān)系理論理解的貢獻(xiàn)。

潛類別分析Latent Class Analysis (LCA)

1.介紹
LCA假設(shè)存在未觀察到的潛在分類變量,這些變量將人群劃分為互斥且完整的潛在類別。每個潛在類別代表一組個體,這些個體通過對一組變量的響應(yīng)類型來進(jìn)行特征描述。LCA是用于分類橫斷面數(shù)據(jù)的半?yún)?shù)模型(即,非縱向版本的LTA)。實(shí)際上,在LTA中,每個時間點(diǎn)都使用LCA來確定類別。因此像在LTA中一樣,LCA中的參數(shù)通過最大化似然或貝葉斯方法來估計。每個類別中還可以模擬協(xié)變量的貢獻(xiàn)。因此,屬于某一類別的概率取決于協(xié)變量的值或水平。
2.適用數(shù)據(jù)類型
LCA是為了研究橫斷面數(shù)據(jù)中的分類變量而開發(fā)的。與LTA一樣,當(dāng)變量的類別過多時,最好將它們重新編碼為盡可能少的類別。
3.操作步驟
執(zhí)行LCA的步驟與其縱向版本LTA相同,不同之處在于LTA中關(guān)于縱向方面的模型規(guī)范決策,例如參數(shù)時間不變性。
4.可用軟件包
LCA可以通過SAS中的Proc LCA實(shí)現(xiàn),也可以在Mplus、R(通過poLCA和depmixs4包)以及其他一些文獻(xiàn)中較少提及的軟件中進(jìn)行。
5.優(yōu)勢與局限性
LCA是一種強(qiáng)大的工具,用于分析分類變量之間關(guān)系的結(jié)構(gòu)。它使研究人員能夠探索和解釋復(fù)雜的列聯(lián)表,并提供了一種測試分類變量之間潛在結(jié)構(gòu)假設(shè)的方法。然而,LCA僅適用于橫斷面數(shù)據(jù)或序數(shù)數(shù)據(jù)。LCA更適合用于探索性研究,由于它分析的是橫截面數(shù)據(jù),LCA不能真正被視為一種“軌跡”建模技術(shù)。
6.LCA的實(shí)際應(yīng)用
Huh等(2011)采用LCA法,以飲食、體育活動和體重感知等方面,識別兒童的不同亞型。使用一組代表肥胖風(fēng)險維度的橫截面指標(biāo),得到了一個包括人口統(tǒng)計變量的5類模型。通過較低的BIC和AIC、顯著的LMR-LRT以及每個類別的內(nèi)容和獨(dú)特性確定了類別數(shù)量,然后評估潛在類別成員資格與體重、體重感知和社會人口統(tǒng)計特征等多種變量之間的關(guān)聯(lián)。研究顯示,兒童的體重、種族、性別和社會經(jīng)濟(jì)地位與潛在類別成員資格相關(guān)。最后,作者建議,兒童肥胖相關(guān)因素的這些亞型對肥胖干預(yù)計劃的設(shè)計和實(shí)施是相關(guān)的。
關(guān)于潛類別建模方法的進(jìn)一步說明
  • a.使用以往的研究和理論來指導(dǎo)建模的類別數(shù)量時,可能會遇到困難(缺乏先前的研究)或者在研究的人群中可能不適用。在這種情況下,研究人員應(yīng)當(dāng)從建模一個類別開始,然后是兩個類別、三個類別等(包括建模他們認(rèn)為正確的軌跡數(shù)量)。然后可以比較模型的擬合優(yōu)度。
  • b.潛在類別模型因其靈活性和能夠處理隨機(jī)缺失數(shù)據(jù)(MAR)而受到重視。當(dāng)數(shù)據(jù)非隨機(jī)缺失(NMAR)時,一些作者提出了對增長模型(如GMM、GBTM和LTA)的擴(kuò)展,以考慮這類缺失數(shù)據(jù)。
  • c.除了前面提到的擬合優(yōu)度指標(biāo)外,熵也可以用來評估模型在使用潛在類別建模方法時提供良好分離子群的能力。實(shí)際上,如果分析的目的是對研究參與者進(jìn)行分類(這通常是潛在類別建模的情況),那么就有必要報告這種分類的性能。熵總結(jié)了潛在類別的可區(qū)分程度以及個體被分配到類別的精確性。它是個體估計后驗(yàn)概率的函數(shù),范圍從0到1,數(shù)值越高表示類別分離得越好。然而,對于解釋沒有固定的截止標(biāo)準(zhǔn)。此外,當(dāng)向潛在類別模型添加協(xié)變量時,熵可能會被高估,這會增加對分類的信心。
  • d.值得注意的是,對于GMM、GBTM、LCA和LTA,底層的軌跡是未被觀察到的,也永遠(yuǎn)無法去觀察。因此,在報告和解釋結(jié)果時,不應(yīng)該將其描述為已知的軌跡。此外,衍生的軌跡只應(yīng)在其研究的人群背景下進(jìn)行解釋,它們可能在不同的人群中不適用。
  • e.一旦確定了軌跡(類別/亞組),就有不同的方法將這些軌跡與先前因素或后續(xù)結(jié)果關(guān)聯(lián)起來。需要注意的是,評估此類關(guān)聯(lián)的方法可能會產(chǎn)生非常不同的結(jié)果。
  • f.潛類別建模方法對于回答許多類型的研究問題都是有用的。然而研究人員應(yīng)該意識到,最佳模型可能是單一類別模型,建模的擬合優(yōu)度可能較差或者無法解釋。在這些情況下,研究人員可以使用常見的建模方法,如回歸模型,或者使用非參數(shù)建模方法,如下一節(jié)所述。

其他建模方法

聚類分析

在某些情況下,由于數(shù)據(jù)的性質(zhì),潛類別建模方法可能不適用。在這些情況下,聚類分析可以作為非參數(shù)的替代方法來使用,例如當(dāng)不滿足假設(shè)或者感興趣的變量不是分類變量時。
1.介
在數(shù)據(jù)挖掘領(lǐng)域,“聚類”一詞指的是一組相似的對象。聚類分析是一種完全非參數(shù)的方法,用于橫斷面數(shù)據(jù),旨在將相似的對象或個體分類為離散的類別,其目標(biāo)是確定類別的數(shù)量和組成。個體之間的相似性是通過距離度量來衡量的。這種方法的目標(biāo)是最大化組內(nèi)相似性,同時最小化組間相似性。
在聚類分析中,可以使用多種方法對數(shù)據(jù)進(jìn)行分類:
(1) 劃分法:構(gòu)建多個集群,然后根據(jù)特定的標(biāo)準(zhǔn)對這些分區(qū)進(jìn)行評估來對數(shù)據(jù)進(jìn)行分類(如k-均值,k-中心點(diǎn)算法)。必須事先確定集群的數(shù)量(k);
(2) 層次法:根據(jù)特定標(biāo)準(zhǔn)對對象進(jìn)行層次化分解。這種方法使用距離矩陣作為分組標(biāo)準(zhǔn)。集群的數(shù)量(k)無需預(yù)先定義;但必須指定一個停止條件(例如達(dá)到預(yù)定的群集數(shù)量);
(3)密度法依據(jù)數(shù)據(jù)點(diǎn)的密集程度和相互連接性來確定群集;
(4)網(wǎng)格法:通過將數(shù)據(jù)空間劃分為有限數(shù)量的單元格,即“網(wǎng)格”,來進(jìn)行數(shù)據(jù)分類。這些單元格構(gòu)成了一個多級粒度結(jié)構(gòu),使得聚類過程可以在不同的粒度級別上進(jìn)行。
經(jīng)典的距離度量包括歐幾里得距離、曼哈頓距離和基于相關(guān)性的距離(皮爾遜相關(guān)距離、Eisen余弦相關(guān)距離、Spearman相關(guān)距離和Kendall相關(guān)距離)。
聚類分析中,每個個體或?qū)ο髮儆谝粋€單一的集群,并且完整的集群集包含所有個體。聚類分析經(jīng)常用于流行病學(xué)和公共衛(wèi)生,以及心理學(xué)和社會科學(xué)。
2.適用數(shù)據(jù)類型
聚類分析可以支持各種類型的橫截面數(shù)據(jù),包括連續(xù)數(shù)據(jù)、分類數(shù)據(jù)和混合數(shù)據(jù)。
3.操作步驟
構(gòu)建聚類的步驟取決于所選方法和距離度量。
第一步:數(shù)據(jù)探索 
鑒于距離度量的選擇取決于所用數(shù)據(jù)的類型,對數(shù)據(jù)集進(jìn)行探索性分析以了解數(shù)據(jù)的類型和分布。在某些情況下,根據(jù)所追求的目標(biāo),數(shù)據(jù)可以進(jìn)行轉(zhuǎn)換(例如,連續(xù)變量可以被重新編碼為二進(jìn)制變量)。
第二步:方法和距離度量的選擇
一旦了解數(shù)據(jù)的性質(zhì),就可以選擇距離度量和聚類分析方法。然而,不同的方法使用相同的變量集合可能會產(chǎn)生截然不同的結(jié)果。聚類分析方法高度依賴于所選的距離度量。根據(jù)變量的性質(zhì)(連續(xù)、分類或混合數(shù)據(jù)),距離的定義也有所不同。Everitt等建議在特定情況下使用距離度量,具體如下:
(1)連續(xù)數(shù)據(jù):使用Minkowski距離;
(2)二元數(shù)據(jù):基于列聯(lián)表,如果對象是對稱的,則使用簡單匹配系數(shù),如果對象是不對稱的,則使用Jaccard系數(shù);
(3)多余兩類的分類數(shù)據(jù):根據(jù)變量總數(shù)和匹配數(shù)使用簡單匹配系數(shù),或?yàn)槊糠N模態(tài)創(chuàng)建一個二進(jìn)制變量并采用二元數(shù)據(jù)的方法;
(4)混合數(shù)據(jù):結(jié)合兩種或更多上述距離度量。
第三步:方法實(shí)施和結(jié)果解釋
根據(jù)選定的方法和距離度量的特點(diǎn)進(jìn)行聚類分析。距離度量用于找出兩個對象之間的相似度,并決定執(zhí)行哪種分組。兩個對象之間的距離測量結(jié)果范圍在0到1之間,其中“0”表示對象不相似,“1”表示完全相似。
4.可用軟件包
聚類分析可以在多種常見軟件包中進(jìn)行,例如SAS的proc cluster、R的一系列包、Stata的cluster和clustermat命令、SPSS的cluster語法。
5.優(yōu)勢與局限性
聚類分析在探索橫截面多變量數(shù)據(jù)時非常有用。通過將這些數(shù)據(jù)組織成聚類,有助于研究人員發(fā)現(xiàn)潛在結(jié)構(gòu)或模式的特征。然而聚類分析無法提供有關(guān)子群內(nèi)個體差異的詳細(xì)視角。與之相反,潛在類別模型比聚類分析更靈活,適用于識別異質(zhì)的子群體。與潛在類別分析一樣,聚類分析處理的是橫截面數(shù)據(jù),并不能真正被視為“軌跡”建模技術(shù)。
6.聚類分析的實(shí)際應(yīng)用
為了研究導(dǎo)致自發(fā)性早產(chǎn)的共同機(jī)制和潛在的遺傳因素,Esplin等(2015)使用層次聚類分析來識別同質(zhì)的表型特征配置。利用橫截面臨床和人口統(tǒng)計變量、每種表型的二元指標(biāo)、每個表型類別的加權(quán)得分和不相似矩陣,找到了一個5聚類模型,可能識別出具有相似遺傳風(fēng)險的自發(fā)性早產(chǎn)婦女的子集,然后選擇其中一個表型聚類進(jìn)行了基因關(guān)聯(lián)研究。

序列分析

當(dāng)研究人員對將展示了相似事件序列的個體進(jìn)行分組感興趣時,序列分析顯得非常重要。例如,在健康服務(wù)研究領(lǐng)域,個人的護(hù)理軌跡可以被視為一系列健康事件的模式,這涉及到與患者、疾病狀況、護(hù)理提供者、護(hù)理環(huán)境、治療方法及時間相關(guān)的變量。
1.介紹
序列分析是一種用于縱向序列數(shù)據(jù)的完全非參數(shù)方法,旨在根據(jù)觀察序列的相似性對其進(jìn)行分類(例如護(hù)理軌跡:急診-住院-回家-普通執(zhí)業(yè)醫(yī)生訪問)。這種方法最初是為蛋白質(zhì)和DNA序列分析而開發(fā)的,然而自那時起它已經(jīng)被應(yīng)用于許多其他領(lǐng)域,包括流行病學(xué)和公共衛(wèi)生、心理學(xué)和社會科學(xué)。
序列分析首先計算個體之間的不相似性或距離矩陣。這種矩陣是通過比較序列中的事件或狀態(tài)的順序和持續(xù)時間來構(gòu)建的,從而反映出個體序列之間的差異。接著,這些不相似性矩陣被用于分類方法——主要是聚類分析方法——以確定根據(jù)其相似性的觀察子組或類別。這意味著,通過分析數(shù)據(jù)中的模式和關(guān)系,可以將具有相似生活或健康軌跡的個體分為相同的組或類別。
基于之前的“多維護(hù)理軌跡模型”,最近提出了一種全面的序列分析方法。這種方法同時考慮疾病狀況、護(hù)理提供者和護(hù)理設(shè)置,從而提供了一個更為全面的視角來分析和理解個體的健康和護(hù)理路徑。這種方法的提出,是為了更好地理解不同因素如何共同影響健康結(jié)果。在這種分類方法中,子組成員資格可以用作依賴變量或獨(dú)立變量,以探索健康軌跡的預(yù)測因素及其對未來結(jié)果的貢獻(xiàn)。這意味著,通過識別和分析影響健康軌跡的關(guān)鍵因素,可以更好地預(yù)測個體未來的健康狀況,并為制定個性化的健康干預(yù)措施提供依據(jù)。這種方法在公共衛(wèi)生、流行病學(xué)、心理學(xué)和社會科學(xué)等多個領(lǐng)域都有廣泛的應(yīng)用前景。
2.適用數(shù)據(jù)類型
序列分析能夠處理分類的縱向數(shù)據(jù)。
3.操作步驟
第一步:數(shù)據(jù)探索 
在進(jìn)行分析之前,必須從原始數(shù)據(jù)中創(chuàng)建狀態(tài)序列數(shù)據(jù)。例如,確保為每個狀態(tài)選擇合適的字母(例如,H代表住院,E代表急診訪問等)。狀態(tài)序列必須放置在時間軸上,時間周期(每日、每周、每月、每年等)必須明確定義。對于每個時間周期,研究者必須選擇一個單一狀態(tài)。
這一步驟相對復(fù)雜,因?yàn)樵诮o定時間點(diǎn)有多個狀態(tài)可供選擇時,確定優(yōu)先考慮的狀態(tài)有許多可能性(例如,在月度醫(yī)療利用的情況下,一個人可能在同一個月內(nèi)既住院又急診)。
第二步:距離度量選擇
研究者應(yīng)基于更新的距離或基于子序列的距離選擇合適的距離度量?;诟碌木嚯x通過計算將一個序列轉(zhuǎn)換成另一個完全相同的序列所需的最少更新操作次數(shù)來測量兩個序列之間的距離,這些距離度量被稱為“最優(yōu)匹配”。因此,兩個軌跡之間的距離是一個函數(shù),取決于歸因于插入、刪除和替換等操作的成本(就運(yùn)行時間和計算機(jī)內(nèi)存空間而言)。確定所有操作的相對成本對于確定序列之間的距離至關(guān)重要。這些需要研究者事先定義。相比之下,基于子序列的距離通過計算共有子序列的數(shù)量來評估序列之間的距離。然而,最優(yōu)匹配是文獻(xiàn)中最廣泛使用的距離度量。
第三步:序列分析及結(jié)果解釋
計算所有序列之間的距離會得到一個距離矩陣。序列分析使用這個距離矩陣將序列劃分為相對均勻的子組。為此目的,各種聚類分析方法都是合適的,包括層次化方法。
4.可用軟件包
SAS、Stata、SPSS、R等軟件包執(zhí)行序列分析,迄今為止,執(zhí)行序列分析最強(qiáng)大和完整的方法是R的TraMineR軟件包。
5.優(yōu)勢與局限性
序列分析的優(yōu)勢在于,當(dāng)研究人員對隨時間發(fā)生事件的順序感興趣時,這種方法使得可以根據(jù)路徑的相似性將個體分組為類別。然而,如果研究人員對隨時間發(fā)生的事件數(shù)量感興趣,則順序分析就不太合適。
6.序列分析的實(shí)際應(yīng)用
Vanasse等(2020)使用序列分析來識別慢性阻塞性肺疾病(COPD)首次住院后患者之間的類似護(hù)理軌跡。護(hù)理軌跡由在一年時間內(nèi)的醫(yī)療利用序列組成,以“周”為時間單位。利用魁北克醫(yī)療行政數(shù)據(jù)中關(guān)于醫(yī)療就診和住院情況的信息,基于多種工具和特定選擇標(biāo)準(zhǔn)(最佳匹配、匯總距離矩陣、Ward's連接標(biāo)準(zhǔn)和平方和或慣性),發(fā)現(xiàn)了五個亞組,形成了新的護(hù)理軌跡類型學(xué)。隨后,患者的特征在護(hù)理軌跡亞組之間進(jìn)行了比較。研究表明,在第三高利用護(hù)理軌跡亞組中的患者年齡較大,合并癥較多,并且在住院期間病情更為嚴(yán)重。

如何報告軌跡模型的方法

在科學(xué)論文中報告統(tǒng)計方法時,研究者應(yīng)確保分析描述得足夠詳細(xì),以便其他研究者能夠復(fù)現(xiàn)。因此應(yīng)包含:

(1)數(shù)據(jù)呈現(xiàn)(確定因變量和可能的協(xié)變量,并提及所有數(shù)據(jù)處理,例如創(chuàng)建新變量,重新編碼某些變量以便于分析等);

(2)軌跡建模技術(shù)及其使用的理由;

(3)選擇軌跡數(shù)量的邏輯和標(biāo)準(zhǔn)的規(guī)格說明(例如,使用BIC和/或AIC,或用于在聚類分析和序列分析中選擇子組的距離度量);

(4)統(tǒng)計軟件(例如,指定在SAS中使用的程序,或R上的包等)。之前已發(fā)布了關(guān)于潛在軌跡研究報告的詳細(xì)指南(GRoLTS),如GMM和GBTM。

根據(jù)我們的審查,軌跡建模技術(shù)的完整描述通常不夠充分,并且由于某些醫(yī)學(xué)期刊的空間限制,缺乏必要的細(xì)節(jié)。這影響了研究社區(qū)理解、評估適當(dāng)性以及復(fù)制軌跡建模分析的能力。如果稿件長度有限,研究者應(yīng)考慮增加網(wǎng)絡(luò)附錄以完整描述其建模步驟。這將增強(qiáng)軌跡建模技術(shù)的透明度、適當(dāng)性和可復(fù)制性。

如何報告軌跡模型的結(jié)果

軌跡分析結(jié)果的描述應(yīng)包含:
(1)獲得的軌跡/類別數(shù)量;
(2)軌跡形狀(在GMM和GBTM的情況下:線性、二次、三次等);
(3)用于選擇軌跡數(shù)量的標(biāo)準(zhǔn)值(例如,BIC和/或AIC);
(4)軌跡亞組成員的特征(每個亞組中的頻率和百分比,包括潛在狀態(tài)的普遍性、項(xiàng)目響應(yīng)概率和LTA的轉(zhuǎn)換概率);
(5)一個顯示軌跡亞組的圖形(例如,使用SAS proc traj進(jìn)行GBTM時,連續(xù)曲線代表觀察到的數(shù)據(jù),不連續(xù)曲線代表所選模型的估計)。
還應(yīng)解釋分配給每個軌跡的標(biāo)簽或名稱。

總結(jié)

軌跡建模方法已被用于使用不同統(tǒng)計方法預(yù)測各種結(jié)果。在醫(yī)療研究中,它們有助于改善我們對疾病嚴(yán)重程度、干擾、管理和隨時間演變的理解。然而,一些問題限制了人們對它們的理解、實(shí)用性和解釋。事實(shí)上,在已發(fā)表的科學(xué)文獻(xiàn)中,用于指代潛在類模型方法的各種術(shù)語(如GMM、GBTM、LTA、LCA)使用不一致,經(jīng)?;Q使用。對于描述和報告潛在類模型統(tǒng)計技術(shù)結(jié)果的空間在科學(xué)文章中也是不足的。我們希望這篇敘述性評論將指導(dǎo)研究人員選擇最適合其研究問題的技術(shù)。我們展示了不同方法如何實(shí)施以及結(jié)果如何報告,這對非統(tǒng)計學(xué)研究人員是有價值的。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多