人工智能及其患者安全問題

mandy53wiuq5i6 2019-07-18

展開全文

Emerging Safety Issues in Artificial Intelligence

編譯自：Robert Challen，AHRQ Patient Safety Network，Perspectives on Safety，July 2019 圖片來自網(wǎng)絡(luò)

【背景】

自電子健康記錄問世以來，人們便致力于運(yùn)用信息技術(shù)為臨床醫(yī)生提供更加安全和高效的服務(wù)。事實上，人工智能（Artificial intelligence，AI) 決策支持系統(tǒng)在醫(yī)療行業(yè)中的一些應(yīng)用也有一段時間了。如今，許多基于規(guī)則的人工智能決策支持系統(tǒng)在臨床上得以廣泛使用，另有一些尚在積極開發(fā)之中。最近，人們將人工智能的研究重點放在了機(jī)器學(xué)習(xí)（Machine Learning）更新上，希望通過對過去收集的案例數(shù)據(jù)進(jìn)行分析整合從而構(gòu)建一個機(jī)器內(nèi)部系統(tǒng)模型，最終應(yīng)用該模型為新病人的推理診斷提供服務(wù)。由于該研究重點在近期文獻(xiàn)中頻頻出現(xiàn)，AI幾乎成了機(jī)器學(xué)習(xí)更新的代名詞。

未來的機(jī)器學(xué)習(xí)系統(tǒng)將基于新病人的數(shù)據(jù)對進(jìn)行預(yù)判性診斷，并為獲取最佳臨床結(jié)局制定患者管理策略。這類系統(tǒng)既可以定期反復(fù)訓(xùn)練，也可以從以往的決策中自主學(xué)習(xí)。從長遠(yuǎn)來看，自主決策系統(tǒng)將有望應(yīng)用于診斷特定的臨床問題，但這場演變也將在短期、中長期時間內(nèi)引發(fā)一系列特定的安全問題，這些問題在最近的一篇綜述中已被提及。然而，就在近日，美國食品藥品監(jiān)管局（FDA）對提供輔助診斷的機(jī)器自主學(xué)習(xí)更新系統(tǒng)進(jìn)行了批準(zhǔn)，因此，伴隨著這些系統(tǒng)而來的安全問題成為了本文將要探討的重點。

圖示：機(jī)器學(xué)習(xí)研究的趨勢以及相關(guān)的短期、中期和長期安全風(fēng)險

【新涌現(xiàn)的安全問題】

在傳統(tǒng)的臨床決策支持系統(tǒng)中，疾病診斷依據(jù)主要由專家們提出，且均基于循證原則。而機(jī)器學(xué)習(xí)行為取決于它在訓(xùn)練過程中所獲得的數(shù)據(jù)，當(dāng)機(jī)器學(xué)習(xí)系統(tǒng)現(xiàn)有數(shù)據(jù)不能完全匹配患者的疾病現(xiàn)狀時，系統(tǒng)的準(zhǔn)確性將受到質(zhì)疑，這種現(xiàn)象稱為分布位移（Distributional shift）。原因可能包括訓(xùn)練數(shù)據(jù)的代表性不強(qiáng)、患者診斷不全面、或者將機(jī)器學(xué)習(xí)系統(tǒng)不適當(dāng)?shù)貞?yīng)用于不同的患者群體而該群體不在樣本內(nèi)。其他因素還包括不同患者的人口統(tǒng)計學(xué)差異、時間變化、疾病各階段臨床差異、定義黃金診斷標(biāo)準(zhǔn)的不一致以及用于掃描患者的機(jī)器本身的差異性等。臨床醫(yī)生應(yīng)該思考這樣一個問題：如果沒有對整個培訓(xùn)過程進(jìn)行深入了解，我們?nèi)绾未_信特定的機(jī)器自主學(xué)習(xí)決策支持系統(tǒng)適合特定的患者？

機(jī)器學(xué)習(xí)訓(xùn)練包括優(yōu)化預(yù)測準(zhǔn)確性的過程。與臨床醫(yī)生工作量相比，越來越多的研究聲稱機(jī)器診斷行為堪稱超人的表現(xiàn)。例如，針對皮膚病分類的機(jī)器學(xué)習(xí)系統(tǒng)的診斷效率已被證實明顯優(yōu)于臨床醫(yī)生在一系列良性和惡性皮膚病中進(jìn)行的人工測試效率，但同時，該系統(tǒng)相比臨床醫(yī)生而言更容易出現(xiàn)誤判。這種情況下，在訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)時必須考慮到錯誤情況下可能造成某些后果的嚴(yán)重性，同時，也必須要考慮到算法的目的，權(quán)衡由假陽性和假陰性診斷結(jié)果帶來的利弊。一些算法，例如Isabel診斷支持系統(tǒng)中包括“不能錯誤診斷”這一類別，以圍繞該軸重新確定診斷建議的優(yōu)先級。

最近，蘋果公司獲FDA批準(zhǔn)，使用智能手表來檢測心房顫動的算法。對此，蘋果公司也有相應(yīng)的擔(dān)憂：這種算法的廣泛使用，特別是在那些使用蘋果手表而房顫發(fā)生率很低的年輕人群中，可能會出現(xiàn)大量的假陽性房顫診斷而促使其進(jìn)行不必要的醫(yī)學(xué)檢查。近期，蘋果公司向美國心臟病學(xué)會提交了關(guān)于AppleWatch大規(guī)模研究的初步結(jié)果，基于目前現(xiàn)有數(shù)據(jù)下結(jié)論還為時尚早。但在少量已發(fā)生的心房顫動警報案例中，只有34％的使用者通過隨訪心電圖得以證實他確實有房顫的發(fā)生。雖然指導(dǎo)GRADE指南發(fā)展準(zhǔn)則很重要，但在機(jī)器學(xué)習(xí)研究中卻很少考慮到：“如果一項測驗不能改善患者的重要結(jié)果，無論它的準(zhǔn)確度多高，都沒有使用它的理由。”

在對心電圖診斷支持系統(tǒng)的評估中，Tsai及其同事巧妙地證明了臨床醫(yī)生會受到專業(yè)系統(tǒng)建議的影響，甚至在其錯誤的指示下出現(xiàn)“自動化偏差”，這類偏差通常存在于航空業(yè)或車輛自動化大背景下。在有關(guān)醫(yī)學(xué)和非醫(yī)學(xué)背景下決策支持的綜述中，針對減少該項技術(shù)的支持性證據(jù)是有限的，但更顯而易見的問題是，在決策支持系統(tǒng)協(xié)助下受過訓(xùn)練的人一旦脫離了該系統(tǒng)的幫助，將不能實現(xiàn)正常工作。這個問題很嚴(yán)重，但并非僅局限于AI或特定的機(jī)器學(xué)習(xí)系統(tǒng)。很難想象在沒有超聲心動圖的情況下能對瓣膜性心臟病進(jìn)行明確診斷。不出所料，由于高準(zhǔn)確度的檢測技術(shù)越來越容易獲取，聽診技巧在臨床實踐中變得越來越不受重視。

機(jī)器學(xué)習(xí)技術(shù)與臨床工具（如床旁超聲心動圖）的應(yīng)用存在著重要差異。機(jī)器學(xué)習(xí)系統(tǒng)就像人類決策者一樣，他們也會不可避免地犯錯，也可能像“黑匣子”一樣運(yùn)作而顯得神秘莫測，這種情況下，人們不能評估到機(jī)器學(xué)習(xí)系統(tǒng)的決策過程。通常情況下，我們會假定臨床醫(yī)生的角色是解釋機(jī)器學(xué)習(xí)系統(tǒng)的建議并在其出現(xiàn)錯誤時及時采取控制措施。然而，機(jī)器學(xué)習(xí)系統(tǒng)和相關(guān)自動化偏差會以一種非常特殊且可能自我實現(xiàn)的方式出現(xiàn)，它們的出現(xiàn)或會妨礙臨床技能的發(fā)展和改進(jìn)，而這些臨床技能能起到監(jiān)督作用且是保證安全實施的關(guān)鍵。

無論采用何種技術(shù)，最終它都可能形成由相對于AI能力弱的臨床醫(yī)生去監(jiān)管AI系統(tǒng)的局面，并可能因此對患者造成傷害。這種方式下，醫(yī)療保健為其他高風(fēng)險技術(shù)系統(tǒng)（如汽車領(lǐng)域和航空領(lǐng)域的先進(jìn)自動化）提供了借鑒經(jīng)驗，因為即便是少數(shù)但足夠引人矚目的事故將使公眾對自動化的智慧產(chǎn)生質(zhì)疑。如果說，臨床醫(yī)生需要在這場設(shè)想中承擔(dān)什么責(zé)任，我們認(rèn)為，這樣的機(jī)器并不能很好地適應(yīng)醫(yī)療設(shè)備的現(xiàn)存定義，而需要在類似于人類決策者的監(jiān)管框架內(nèi)運(yùn)作，無論是在合適的資歷、預(yù)期的實踐標(biāo)準(zhǔn)、績效審查以及為自身錯誤而承擔(dān)責(zé)任等各個方面。在這種情況下，AI系統(tǒng)需要像臨床醫(yī)生一樣，保證不會出現(xiàn)差錯。這將需要一個公司勇敢地站出來向世人展示他對人工智能系統(tǒng)的支持和信任。

【結(jié)論】

這篇文章探討了在醫(yī)學(xué)上采用機(jī)器學(xué)習(xí)系統(tǒng)（或稱人工智能技術(shù)）可能產(chǎn)生的各種實際和哲學(xué)問題。但是，這些問題的嚴(yán)重性主要取決于AI系統(tǒng)在醫(yī)療領(lǐng)域的應(yīng)用程度。敗血癥預(yù)測算法的實驗正在進(jìn)行中，其益處明確且可以在重要的結(jié)果中表達(dá)出來，并且數(shù)據(jù)的算法監(jiān)測與從整體中識別患者身份的臨床技能相互補(bǔ)充。臨床醫(yī)生和機(jī)器學(xué)習(xí)研究人員需要專注于尋找“簡單易懂”的應(yīng)用程序，以確保機(jī)器學(xué)習(xí)技術(shù)和計算機(jī)卓越的數(shù)據(jù)處理能力能安全的運(yùn)用于臨床。在我們看來，關(guān)鍵是要正確理解診斷測試在臨床環(huán)境中的作用。

關(guān)于機(jī)器學(xué)習(xí)在實驗室的成果表現(xiàn)的研究報告（由Topol及其同事總結(jié)）讓臨床醫(yī)生們對其作用效果產(chǎn)生了質(zhì)疑，他們懷疑這樣的目標(biāo)在現(xiàn)實環(huán)境中無法實現(xiàn)。一些研究集中于將機(jī)器學(xué)習(xí)系統(tǒng)與臨床醫(yī)生決策相結(jié)合，并將最終決策與無機(jī)器學(xué)習(xí)系統(tǒng)輔助的臨床醫(yī)生診斷結(jié)果進(jìn)行比較，研究通過機(jī)器學(xué)習(xí)系統(tǒng)來提高醫(yī)生疾病診斷準(zhǔn)確性的方法。機(jī)器學(xué)習(xí)系統(tǒng)與臨床醫(yī)生的合作過程使其發(fā)展前景一片光明，并挖掘了機(jī)器自主學(xué)習(xí)作為教學(xué)和決策支持工具的巨大潛力。有機(jī)器自主學(xué)習(xí)系統(tǒng)輔助的醫(yī)生和沒有輔助的醫(yī)生之間的對比，應(yīng)當(dāng)作為機(jī)器自主學(xué)習(xí)實驗標(biāo)準(zhǔn)化設(shè)計的一部分。

【作者】

Robert Challen, MA, MBBS
EPSRC Centre for Predictive Modelling in Healthcare and Department of Mathematics, Living Systems Institute，University of Exeter，Exeter, Devon, UK
Taunton and Somerset NHS Foundation Trust，Taunton, Somerset, UK