Emerging Safety Issues in Artificial Intelligence編譯自:Robert Challen,AHRQ Patient Safety Network,Perspectives on Safety,July 2019 圖片來自網(wǎng)絡(luò) 【背景】 自電子健康記錄問世以來,人們便致力于運(yùn)用信息技術(shù)為臨床醫(yī)生提供更加安全和高效的服務(wù)。事實上,人工智能(Artificial intelligence,AI) 決策支持系統(tǒng)在醫(yī)療行業(yè)中的一些應(yīng)用也有一段時間了。如今,許多基于規(guī)則的人工智能決策支持系統(tǒng)在臨床上得以廣泛使用,另有一些尚在積極開發(fā)之中。最近,人們將人工智能的研究重點放在了機(jī)器學(xué)習(xí)(Machine Learning)更新上,希望通過對過去收集的案例數(shù)據(jù)進(jìn)行分析整合從而構(gòu)建一個機(jī)器內(nèi)部系統(tǒng)模型,最終應(yīng)用該模型為新病人的推理診斷提供服務(wù)。由于該研究重點在近期文獻(xiàn)中頻頻出現(xiàn),AI幾乎成了機(jī)器學(xué)習(xí)更新的代名詞。 未來的機(jī)器學(xué)習(xí)系統(tǒng)將基于新病人的數(shù)據(jù)對進(jìn)行預(yù)判性診斷,并為獲取最佳臨床結(jié)局制定患者管理策略。這類系統(tǒng)既可以定期反復(fù)訓(xùn)練,也可以從以往的決策中自主學(xué)習(xí)。從長遠(yuǎn)來看,自主決策系統(tǒng)將有望應(yīng)用于診斷特定的臨床問題,但這場演變也將在短期、中長期時間內(nèi)引發(fā)一系列特定的安全問題,這些問題在最近的一篇綜述中已被提及。然而,就在近日,美國食品藥品監(jiān)管局(FDA)對提供輔助診斷的機(jī)器自主學(xué)習(xí)更新系統(tǒng)進(jìn)行了批準(zhǔn),因此,伴隨著這些系統(tǒng)而來的安全問題成為了本文將要探討的重點。 圖示:機(jī)器學(xué)習(xí)研究的趨勢以及相關(guān)的短期、中期和長期安全風(fēng)險 【新涌現(xiàn)的安全問題】 在傳統(tǒng)的臨床決策支持系統(tǒng)中,疾病診斷依據(jù)主要由專家們提出,且均基于循證原則。而機(jī)器學(xué)習(xí)行為取決于它在訓(xùn)練過程中所獲得的數(shù)據(jù),當(dāng)機(jī)器學(xué)習(xí)系統(tǒng)現(xiàn)有數(shù)據(jù)不能完全匹配患者的疾病現(xiàn)狀時,系統(tǒng)的準(zhǔn)確性將受到質(zhì)疑,這種現(xiàn)象稱為分布位移(Distributional shift)。原因可能包括訓(xùn)練數(shù)據(jù)的代表性不強(qiáng)、患者診斷不全面、或者將機(jī)器學(xué)習(xí)系統(tǒng)不適當(dāng)?shù)貞?yīng)用于不同的患者群體而該群體不在樣本內(nèi)。其他因素還包括不同患者的人口統(tǒng)計學(xué)差異、時間變化、疾病各階段臨床差異、定義黃金診斷標(biāo)準(zhǔn)的不一致以及用于掃描患者的機(jī)器本身的差異性等。臨床醫(yī)生應(yīng)該思考這樣一個問題:如果沒有對整個培訓(xùn)過程進(jìn)行深入了解,我們?nèi)绾未_信特定的機(jī)器自主學(xué)習(xí)決策支持系統(tǒng)適合特定的患者? 機(jī)器學(xué)習(xí)訓(xùn)練包括優(yōu)化預(yù)測準(zhǔn)確性的過程。與臨床醫(yī)生工作量相比,越來越多的研究聲稱機(jī)器診斷行為堪稱超人的表現(xiàn)。例如,針對皮膚病分類的機(jī)器學(xué)習(xí)系統(tǒng)的診斷效率已被證實明顯優(yōu)于臨床醫(yī)生在一系列良性和惡性皮膚病中進(jìn)行的人工測試效率,但同時,該系統(tǒng)相比臨床醫(yī)生而言更容易出現(xiàn)誤判。這種情況下,在訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)時必須考慮到錯誤情況下可能造成某些后果的嚴(yán)重性,同時,也必須要考慮到算法的目的,權(quán)衡由假陽性和假陰性診斷結(jié)果帶來的利弊。一些算法,例如Isabel診斷支持系統(tǒng)中包括“不能錯誤診斷”這一類別,以圍繞該軸重新確定診斷建議的優(yōu)先級。 最近,蘋果公司獲FDA批準(zhǔn),使用智能手表來檢測心房顫動的算法。對此,蘋果公司也有相應(yīng)的擔(dān)憂:這種算法的廣泛使用,特別是在那些使用蘋果手表而房顫發(fā)生率很低的年輕人群中,可能會出現(xiàn)大量的假陽性房顫診斷而促使其進(jìn)行不必要的醫(yī)學(xué)檢查。近期,蘋果公司向美國心臟病學(xué)會提交了關(guān)于AppleWatch大規(guī)模研究的初步結(jié)果,基于目前現(xiàn)有數(shù)據(jù)下結(jié)論還為時尚早。但在少量已發(fā)生的心房顫動警報案例中,只有34%的使用者通過隨訪心電圖得以證實他確實有房顫的發(fā)生。雖然指導(dǎo)GRADE指南發(fā)展準(zhǔn)則很重要,但在機(jī)器學(xué)習(xí)研究中卻很少考慮到:“如果一項測驗不能改善患者的重要結(jié)果,無論它的準(zhǔn)確度多高,都沒有使用它的理由。” 在對心電圖診斷支持系統(tǒng)的評估中,Tsai及其同事巧妙地證明了臨床醫(yī)生會受到專業(yè)系統(tǒng)建議的影響,甚至在其錯誤的指示下出現(xiàn)“自動化偏差”,這類偏差通常存在于航空業(yè)或車輛自動化大背景下。在有關(guān)醫(yī)學(xué)和非醫(yī)學(xué)背景下決策支持的綜述中,針對減少該項技術(shù)的支持性證據(jù)是有限的,但更顯而易見的問題是,在決策支持系統(tǒng)協(xié)助下受過訓(xùn)練的人一旦脫離了該系統(tǒng)的幫助,將不能實現(xiàn)正常工作。這個問題很嚴(yán)重,但并非僅局限于AI或特定的機(jī)器學(xué)習(xí)系統(tǒng)。很難想象在沒有超聲心動圖的情況下能對瓣膜性心臟病進(jìn)行明確診斷。不出所料,由于高準(zhǔn)確度的檢測技術(shù)越來越容易獲取,聽診技巧在臨床實踐中變得越來越不受重視。 機(jī)器學(xué)習(xí)技術(shù)與臨床工具(如床旁超聲心動圖)的應(yīng)用存在著重要差異。機(jī)器學(xué)習(xí)系統(tǒng)就像人類決策者一樣,他們也會不可避免地犯錯,也可能像“黑匣子”一樣運(yùn)作而顯得神秘莫測,這種情況下,人們不能評估到機(jī)器學(xué)習(xí)系統(tǒng)的決策過程。通常情況下,我們會假定臨床醫(yī)生的角色是解釋機(jī)器學(xué)習(xí)系統(tǒng)的建議并在其出現(xiàn)錯誤時及時采取控制措施。然而,機(jī)器學(xué)習(xí)系統(tǒng)和相關(guān)自動化偏差會以一種非常特殊且可能自我實現(xiàn)的方式出現(xiàn),它們的出現(xiàn)或會妨礙臨床技能的發(fā)展和改進(jìn),而這些臨床技能能起到監(jiān)督作用且是保證安全實施的關(guān)鍵。 無論采用何種技術(shù),最終它都可能形成由相對于AI能力弱的臨床醫(yī)生去監(jiān)管AI系統(tǒng)的局面,并可能因此對患者造成傷害。這種方式下,醫(yī)療保健為其他高風(fēng)險技術(shù)系統(tǒng)(如汽車領(lǐng)域和航空領(lǐng)域的先進(jìn)自動化)提供了借鑒經(jīng)驗,因為即便是少數(shù)但足夠引人矚目的事故將使公眾對自動化的智慧產(chǎn)生質(zhì)疑。如果說,臨床醫(yī)生需要在這場設(shè)想中承擔(dān)什么責(zé)任,我們認(rèn)為,這樣的機(jī)器并不能很好地適應(yīng)醫(yī)療設(shè)備的現(xiàn)存定義,而需要在類似于人類決策者的監(jiān)管框架內(nèi)運(yùn)作,無論是在合適的資歷、預(yù)期的實踐標(biāo)準(zhǔn)、績效審查以及為自身錯誤而承擔(dān)責(zé)任等各個方面。在這種情況下,AI系統(tǒng)需要像臨床醫(yī)生一樣,保證不會出現(xiàn)差錯。這將需要一個公司勇敢地站出來向世人展示他對人工智能系統(tǒng)的支持和信任。 【結(jié)論】 這篇文章探討了在醫(yī)學(xué)上采用機(jī)器學(xué)習(xí)系統(tǒng)(或稱人工智能技術(shù))可能產(chǎn)生的各種實際和哲學(xué)問題。但是,這些問題的嚴(yán)重性主要取決于AI系統(tǒng)在醫(yī)療領(lǐng)域的應(yīng)用程度。敗血癥預(yù)測算法的實驗正在進(jìn)行中,其益處明確且可以在重要的結(jié)果中表達(dá)出來,并且數(shù)據(jù)的算法監(jiān)測與從整體中識別患者身份的臨床技能相互補(bǔ)充。臨床醫(yī)生和機(jī)器學(xué)習(xí)研究人員需要專注于尋找“簡單易懂”的應(yīng)用程序,以確保機(jī)器學(xué)習(xí)技術(shù)和計算機(jī)卓越的數(shù)據(jù)處理能力能安全的運(yùn)用于臨床。在我們看來,關(guān)鍵是要正確理解診斷測試在臨床環(huán)境中的作用。 關(guān)于機(jī)器學(xué)習(xí)在實驗室的成果表現(xiàn)的研究報告(由Topol及其同事總結(jié))讓臨床醫(yī)生們對其作用效果產(chǎn)生了質(zhì)疑,他們懷疑這樣的目標(biāo)在現(xiàn)實環(huán)境中無法實現(xiàn)。一些研究集中于將機(jī)器學(xué)習(xí)系統(tǒng)與臨床醫(yī)生決策相結(jié)合,并將最終決策與無機(jī)器學(xué)習(xí)系統(tǒng)輔助的臨床醫(yī)生診斷結(jié)果進(jìn)行比較,研究通過機(jī)器學(xué)習(xí)系統(tǒng)來提高醫(yī)生疾病診斷準(zhǔn)確性的方法。機(jī)器學(xué)習(xí)系統(tǒng)與臨床醫(yī)生的合作過程使其發(fā)展前景一片光明,并挖掘了機(jī)器自主學(xué)習(xí)作為教學(xué)和決策支持工具的巨大潛力。有機(jī)器自主學(xué)習(xí)系統(tǒng)輔助的醫(yī)生和沒有輔助的醫(yī)生之間的對比,應(yīng)當(dāng)作為機(jī)器自主學(xué)習(xí)實驗標(biāo)準(zhǔn)化設(shè)計的一部分。 【作者】 Robert Challen, MA, MBBS |
|