當前位置:首頁  院系

公共衛(wèi)生學院研究闡釋健康醫(yī)療大數(shù)據(jù)在癌癥研究中的應用

發(fā)布時間:2023-12-05來源:公共衛(wèi)生學院作者:137

20231115日,浙江大學公共衛(wèi)生學院吳息鳳院長團隊在《Trends in Cancer》上發(fā)表題為“Big Data and Artificial Intelligence in Cancer Research”的綜述。全面闡述了健康醫(yī)療大數(shù)據(jù)和人工智能技術(shù)在癌癥研究中的應用并作出重要展望。

 

2020年全球新發(fā)癌癥病例高達1929萬例,給人類的生命健康帶來了嚴重威脅。隨著社會經(jīng)濟的轉(zhuǎn)型和居民生活方式的變化,全球惡性腫瘤發(fā)病率逐年攀升,疾病負擔不斷增重,因此癌癥防控顯得刻不容緩。

腫瘤學領域正在經(jīng)歷大數(shù)據(jù)和人工智能(AI)應用的迅猛發(fā)展。人工智能的突破性發(fā)展使得跨尺度多模態(tài)數(shù)據(jù)的融合和分析成為可能。一個從龐大而復雜的大數(shù)據(jù)中提取信息的新時代正在迅速到來。然而,數(shù)據(jù)的高效獲取、管理、辨析和利用仍然面臨著眾多挑戰(zhàn)。在這一背景下,本文全面概述了大數(shù)據(jù)技術(shù)的現(xiàn)狀,強調(diào)了其在癌癥研究中的關鍵應用、面臨的挑戰(zhàn)以及未來的機遇。通過描繪當前的局勢,作者呼吁促進腫瘤大數(shù)據(jù)的充分利用和發(fā)展,倡導跨學科合作,以助力改善癌癥患者的預后和對癌癥的深刻理解。

1.大數(shù)據(jù)和人工智能(AI)導論

在過去的幾十年里,癌癥的預防和靶向治療在疾病防控方面取得了長足進展。然而,癌癥類型的異質(zhì)性和復雜性仍然帶來了巨大的挑戰(zhàn)。癌癥異質(zhì)性指的是單個腫瘤內(nèi)或同一類型的不同腫瘤之間的遺傳、分子和表型多樣性,導致環(huán)境暴露反應、易感性、治療反應和臨床結(jié)局的個體差異。因此,必須采用精準醫(yī)學的策略,而有效收集和利用大數(shù)據(jù)至關重要。

實驗室技術(shù)的突破、基于人群的隊列研究以及基于電子病歷(EHR)的臨床實踐已經(jīng)積累了大量各種類型的數(shù)據(jù)。在過去,從這些繁雜數(shù)據(jù)中提取有意義的信息十分困難。然而,隨著人工智能的廣泛應用,大數(shù)據(jù)和人工智能在我們與癌癥的斗爭中顯示出卓越優(yōu)勢。

大數(shù)據(jù)和人工智能為徹底改變我們對癌癥的理解帶來了巨大的希望,從其起源到篩查、診斷、治療、反應、毒性、復發(fā)和生存。人工智能已經(jīng)被高度整合到癌癥研究的許多方面,例如構(gòu)建標準化大型數(shù)據(jù)集和生物樣本庫、鑒別可改變的危險因素、發(fā)現(xiàn)新的生物標志物或藥物靶點、構(gòu)建精準預測模型和知識圖譜,以及搭建新的綜合在線服務平臺等。這都涉及到癌癥大數(shù)據(jù)的有效收集和利用。然而,在數(shù)據(jù)協(xié)調(diào)、缺失數(shù)據(jù)處理和管理等領域仍然存在巨大挑戰(zhàn)。

這篇綜述旨在強調(diào)大數(shù)據(jù)和人工智能對癌癥領域的變革性影響,概述在精準腫瘤學研究和臨床實踐中收集和利用大數(shù)據(jù)的框架,突出當前的挑戰(zhàn)和解決方案,并回顧這些技術(shù)的應用,推動精準腫瘤學的進步。

2、大數(shù)據(jù)管理

數(shù)據(jù)管理通常涉及數(shù)據(jù)采集、質(zhì)量控制和驗證等步驟,以確保數(shù)據(jù)準確、完整和可靠,符合法律和道德要求。腫瘤大數(shù)據(jù)的來源廣泛,包括流行病學問卷、電子醫(yī)療記錄(EHR)、醫(yī)學影像、生命組學和移動健康設備等。

流行病學問卷通常包括人口統(tǒng)計學數(shù)據(jù)、病史、生活方式、環(huán)境暴露、家族史和藥物使用等信息。EHR則涵蓋患者人口統(tǒng)計學信息、臨床藥物記錄、檢查結(jié)果、診療計劃、賬單數(shù)據(jù)和轉(zhuǎn)診情況等。醫(yī)學影像數(shù)據(jù)包括MRICTPET掃描等。生命組學數(shù)據(jù)包括基因組學、轉(zhuǎn)錄組學、蛋白質(zhì)組學、微生物組學、代謝組學等,來源于不同組學技術(shù)的廣泛數(shù)據(jù)集。移動健康設備數(shù)據(jù)則來自可穿戴設備和移動健康應用程序,可實時監(jiān)測患者的生命體征、活動水平、癥狀,甚至治療反應。腫瘤大數(shù)據(jù)的來源還包括慢性病監(jiān)測、癌癥篩查記錄、常規(guī)體檢和醫(yī)療保險等。

盡管這些數(shù)據(jù)的整合顯著提高了風險預測模型的準確性,推動了癌癥研究和臨床實踐的進步,但腫瘤大數(shù)據(jù)仍然面臨著諸多挑戰(zhàn)。其中包括數(shù)據(jù)協(xié)調(diào)、數(shù)據(jù)缺失、數(shù)據(jù)存儲、數(shù)據(jù)安全與隱私等問題。數(shù)據(jù)協(xié)調(diào)方面的挑戰(zhàn)主要源于數(shù)據(jù)源的異質(zhì)性、格式不一致和數(shù)據(jù)質(zhì)量的可變性。語義差異、時間變異性和倫理道德問題使這一過程更加復雜。數(shù)據(jù)缺失問題則由記錄不完整、數(shù)據(jù)輸入不一致以及縱向隊列研究中的失訪等因素引起。對于大量患者數(shù)據(jù)的匯總也加劇了對數(shù)據(jù)安全和隱私的擔憂。為了應對這些挑戰(zhàn),作者提出了一系列解決方案,包括使用標準化協(xié)議統(tǒng)一數(shù)據(jù)、利用高級算法處理缺失、確保安全和合規(guī)的數(shù)據(jù)共享、實施版本控制、采用基于云的解決方案以及定期安全審計等。

3、多模態(tài)數(shù)據(jù)分析

1)醫(yī)學影像

大數(shù)據(jù)與人工智能的結(jié)合正在革新放射組學和數(shù)字病理學領域。深度學習算法在圖像分析和模式識別方面表現(xiàn)出色,通常超越了人類的表現(xiàn)水平。影像組學采用先進的數(shù)學算法,如灰度共生矩陣、基于直方圖的特征和支持向量機,對MRICTPET掃描等高維特征進行定量分析,包括圖像采集、預處理、分割、特征提取以及模型驗證等步驟。這些算法能夠識別和量化圖像中的各種紋理、基于形狀和基于強度的特征,從而全面了解腫瘤的異質(zhì)性、嚴重程度和其他臨床相關特征。數(shù)字病理學是腫瘤診斷的“黃金標準”,而人工智能增強的數(shù)字病理學通過對標本進行數(shù)字捕獲和全面分析,改進了診斷過程,也減輕了病理學家的工作負擔。人工智能與放射組學和數(shù)字病理學的融合正在帶來協(xié)同效應,為提高腫瘤學診斷的準確性和效率帶來廣闊前景。

2)數(shù)據(jù)融合分析

多尺度、多模態(tài)的高維數(shù)據(jù)通過數(shù)據(jù)融合分析得以充分利用。圖1展示了常見的機器學習模型和融合策略。例如,IRENE模型使用嵌入層將圖像、非結(jié)構(gòu)化文本和結(jié)構(gòu)化臨床數(shù)據(jù)轉(zhuǎn)換為視覺和文本標記,然后通過具有模態(tài)內(nèi)和模態(tài)間注意力的雙向塊學習整體表征,在肺部疾病識別和結(jié)果預測方面優(yōu)于傳統(tǒng)和純圖像模型。另一方面,基于深度學習的模型整合了組織病理學圖像與基因表達譜,其表現(xiàn)優(yōu)于單一數(shù)據(jù)模型。

3)知識圖譜

知識圖譜整合了多個數(shù)據(jù)源,提供基因、蛋白質(zhì)和患者結(jié)局等實體的全面視圖,為個體健康狀況提供可導航的快照。例如,REMAP是一種多模態(tài)機器學習方法,用于從結(jié)構(gòu)化知識圖和非結(jié)構(gòu)化文本中提取疾病關系。通過對齊多模態(tài)數(shù)據(jù)源,該方法提高了準確性和F1分數(shù),對比基于圖的方法在發(fā)現(xiàn)疾病關系方面更為優(yōu)越。采用基于結(jié)構(gòu)、類別和描述嵌入的反向超平面投影算法構(gòu)建的多模態(tài)推理模型,證明了嵌入模型在生物分子相互作用分類中的多功能性。

 

1.常見的機器學習模型和融合策略

4)多生命組學聯(lián)合分析

不同生命組學的數(shù)據(jù)可以在分析過程中進行聯(lián)合,但由于數(shù)據(jù)類型的異構(gòu)性和高維度,需要大量的計算資源和專門的算法進行處理。圖2展示了多組學分析的框架。利用弱監(jiān)督深度學習模型,整合多生命組學與組織病理學的分析策略可以更好地探索組織病理學圖像與遺傳因素之間的聯(lián)系。機器學習算法也可以發(fā)現(xiàn)微生物組中與不同類型癌癥相關的特定模式或生物標志物。整合單核RNA測序和空間轉(zhuǎn)錄組學可以揭示癌癥組織復雜的細胞結(jié)構(gòu),從而發(fā)現(xiàn)潛在的治療策略。在綜合分析方法中,整合循環(huán)游離細胞DNA基因組特征可以增強癌癥早期診斷和最小殘留疾病的檢測。

 

2. 多組學分析與應用框架

5EHR分析

自然語言處理(NLP)技術(shù)有助于從EHR、醫(yī)學文獻和臨床筆記中提取和解釋非結(jié)構(gòu)化文本數(shù)據(jù)。例如,PheCAP是一個半監(jiān)督系統(tǒng),利用NLPEHR中提取有價值的信息,加速表型檢測并增強醫(yī)療決策。缺失多視圖知識圖譜整合算法(MIKGI)將來自醫(yī)療代碼共生模式的嵌入和來自文本字符串的語義嵌入相結(jié)合,并將它們合成為統(tǒng)一的語義向量,從而在檢測相似或相關實體對和跨機構(gòu)映射醫(yī)療代碼等任務中達到較高精度。聯(lián)邦學習已成為在融合模型開發(fā)中維護數(shù)據(jù)隱私的關鍵解決方案,使機構(gòu)能夠在不集中患者級數(shù)據(jù)的情況下訓練本地模型,不僅確保數(shù)據(jù)安全,還提高了模型性能,促進了跨機構(gòu)研究。

4、整合的大數(shù)據(jù)平臺

為了整合癌癥大數(shù)據(jù),大型隊列、隊列聯(lián)盟和組學數(shù)據(jù)庫已經(jīng)成為目前一些卓越的解決方案。例如,弗萊明漢心臟病研究、英國生物樣本庫等大規(guī)模隊列研究被認為是獲取高標準、高質(zhì)量、跨尺度、多模態(tài)大數(shù)據(jù)和生物樣本的最佳途徑。這些研究不僅收集了問卷、生物標志物、臨床和表型數(shù)據(jù)等基線數(shù)據(jù),還進行了長期的隨訪。全球范圍內(nèi),越來越多的國家投資于建設隊列,以識別癌癥的可改變風險因素和新型生物標志物,制定癌癥篩查、診斷、治療和管理的個性化策略,建立智能服務平臺。癌癥基因組圖譜等大型數(shù)據(jù)庫也為精準醫(yī)學提供了支持,在分子水平上推動了我們對癌癥的深入理解。

5、大數(shù)據(jù)和人工智能在癌癥研究中的成功應用

1)可改變風險因素辨析

癌癥的發(fā)展與一系列可改變的風險因素密切相關。整合和分析不同的數(shù)據(jù)集提供了揭示可改變風險因素之間復雜相互作用所需的統(tǒng)計能力和穩(wěn)健性。例如,通過機器學習算法,研究人員能夠構(gòu)建衰老生物標志物,并探索它們對癌癥易感性的影響。在基于英國生物樣本庫的研究中,研究人員證實了可自由支配的屏幕時間、地中海生活方式、身體活動、綜合健康生活方式評分以及其他因素與癌癥易感性的關聯(lián)。這些發(fā)現(xiàn)來源于廣泛的隊列研究,闡明了可改變危險因素對癌癥的巨大影響。

2)生物標志物發(fā)現(xiàn)

易感性生物標志物:通過基因圖譜識別出某些疾病風險較高的個體,使醫(yī)生能夠在早期實施個性化的預防措施,減輕總體疾病負擔。全基因組關聯(lián)研究(GWAS)為識別與腫瘤相關的遺傳風險因素提供了一種新的方法。建立多基因評分模型,計算癌癥多基因風險評分,可以提高對遺傳性疾病的預測水平。

診斷和預后生物標志物:診斷和預后生物標志物可以是提示癌癥存在的分子、組織學、放射學或生理學特征,在癌癥的預防和診斷中至關重要。RNA測序和甲基化有助于識別各種類型癌癥的新生物標志物。成像技術(shù)的進步也在這些生物標志物的發(fā)現(xiàn)中發(fā)揮了重要作用。鑒定特定的腸道微生物組特征,可以預測癌癥和癌癥,幫助醫(yī)生在早期發(fā)現(xiàn)癌癥,從而提高治療成功率。通過結(jié)合放射科醫(yī)生、病理因素、成像指標和機器學習技術(shù),可以實現(xiàn)更高的診斷準確性,極大地有利于患者健康管理。

藥物發(fā)現(xiàn)和再利用:人工智能正在克服虛擬篩選和分子對接等傳統(tǒng)技術(shù)的局限性,特別是在改善藥物-靶點相互作用、基于結(jié)構(gòu)的虛擬篩選和毒性表征方面。人工智能算法可以預測異構(gòu)網(wǎng)絡中的新藥相互作用。深度生成模型在設計具有良好藥代動力學的抑制特定受體的分子方面顯示出前景。人工智能在簡化藥物-靶點相互作用預測、擴大藥物重復使用和聯(lián)合治療方面也發(fā)揮了重要作用。

治療反應和不良事件的生物標志物:預測性生物標志物是一種用于預測特定治療干預結(jié)果的工具,包括化療、放療和免疫療法的治療獲益和可能的副作用。用適當?shù)纳飿酥疚镌u估腫瘤微環(huán)境,可以確定在特定患者群體中使用的最佳治療方法并預測耐藥性。分析腫瘤組織樣本、基因表達、腸道微生物組特征和非侵入性血漿衍生生物標志物,可以提供腫瘤生物學信息,以評估癌癥患者對免疫療法的反應。

藥物劑量調(diào)整:通過整合患者特定因素,如年齡、體重、遺傳和腎肝功能,描述藥物在不同患者組中的吸收、分布、代謝和消除方式,可以開發(fā)藥代動力學模型,以指導計算適合每個患者的最佳藥物或輻射劑量。

醫(yī)學影像學:人工智能在放射組學圖像分析中的應用取得了突出進展。已經(jīng)為腺體分割和腫瘤分類等任務打造了一系列機器學習模型,證明了顯著的檢測和分級準確性。

3)風險預測建模

健康風險分層:深度學習模型在風險預測方面的應用日益增多,旨在提供更準確的癌癥風險評分,從而實現(xiàn)更個性化、精準的癌癥風險分層。機器學習方法已成功用于從胸部X光和MRI等不同模態(tài)的數(shù)據(jù)中預測癌癥風險,并有一些模型致力于提升其可解釋性,如通過熱圖顯示癌癥最可能發(fā)展的區(qū)域。

治療反應預測模型:對于選擇適當治療方法和避免不必要手術(shù)的臨床決策而言,準確的反應預測具有重要的臨床意義。最新的研究應用深度學習模型于成對超聲圖像,以預測癌癥對新輔助化療的反應,為臨床提供了有力的證據(jù)支持。

復發(fā)模型:估計復發(fā)是癌癥分期和治療計劃中的核心需求。當前的模型綜合考慮了各種臨床參數(shù),如年齡、性別、癌癥分期、遺傳改變、循環(huán)分子標記物和多種組織學風險因素。然而,更高層次的特征,如淋巴細胞的空間排列和染色質(zhì)結(jié)構(gòu),也攜帶著關鍵的預后信息。卷積神經(jīng)網(wǎng)絡模型運用PET/CT數(shù)據(jù)成功預測局部腫瘤復發(fā),顯示出比傳統(tǒng)模型更為出色的預測性能。

生存模型:生存預測模型在癌癥預后中扮演著重要的角色,幫助臨床醫(yī)生評估患者預后,制定個性化的干預方案。人工智能為其提供了一種潛在的替代方案,有望更有效地利用患者數(shù)據(jù),估計其生存能力和生存時間。

4)腫瘤防診治綜合在線服務平臺搭建

面對來自不同癌癥系統(tǒng)和數(shù)據(jù)平臺的腫瘤數(shù)據(jù),作者提出打造一個綜合在線服務平臺,涵蓋了數(shù)據(jù)采集、AI健康助手、風險評估、健康畫像、篩查方案推薦、物聯(lián)網(wǎng)設備接入等主要模塊。該平臺通過移動設備和便攜式數(shù)據(jù)采集設備,實現(xiàn)全天候的數(shù)據(jù)收集,包括人群的一般流行病學信息、體征信息、自我健康檢查與癥狀反饋以及其他新型暴露數(shù)據(jù)。平臺內(nèi)嵌可用于癌癥篩查、診斷、治療、復發(fā)和生存的風險預測模型,通過在線云計算平臺實時計算。這包括對各類數(shù)據(jù)的融合分析、影像自動切割與輔助診斷、在線實時預測建模、腫瘤風險評估等功能,最終生成個人個性化的健康管理方案。此外,平臺還實現(xiàn)了對異常指征的主動提醒和預警,并協(xié)助預約體檢篩查。為提高醫(yī)生的患者護理效率,平臺采用自動化流程,同時幫助患者提高自我管理能力,與健康管理和成本控制目標保持一致。其可擴展性使得平臺能夠支持臨床決策系統(tǒng)和管理其他疾病,為未來的健康管理工作奠定堅實的基礎。該平臺不僅滿足當前癌癥防診治需求,同時為更廣泛的健康管理提供了前瞻性的解決方案。

 

3. 基于人工智能(AI)輔助的平臺

 

6、結(jié)論

借助大型人群隊列、廣泛的數(shù)據(jù)庫和龐大的樣本庫,將生物技術(shù)與信息技術(shù)深度融合,成功突破了健康醫(yī)療大數(shù)據(jù)融合辨析中的跨尺度、多模態(tài)難題。這為癌癥腫瘤篩查、診斷、治療乃至藥物研發(fā)提供了前所未有的機遇。然而,這一創(chuàng)新也伴隨著一系列挑戰(zhàn),其中包括數(shù)據(jù)安全、算法的可解釋性、數(shù)據(jù)質(zhì)量控制和隱私保護等方面的問題。要克服這些挑戰(zhàn),需要進行流行病學、臨床醫(yī)學、數(shù)據(jù)科學和政策制定等多學科的協(xié)同合作。盡管面臨種種挑戰(zhàn),將大數(shù)據(jù)和人工智能整合到腫瘤研究中帶來了巨大的變革潛力。通過持續(xù)關注創(chuàng)新,我們有望實現(xiàn)更為精確、高效和個性化的癌癥發(fā)現(xiàn)、診斷和治療策略,最終改善患者的預后,減輕疾病負擔。這種前景展示了科學家、醫(yī)生和決策者共同努力的成果,為提升癌癥防治水平開辟了嶄新的道路。

浙江大學公共衛(wèi)生學院李文淵研究員及涂華康教授為共同作者。李文淵研究員,博士畢業(yè)于美國哈佛大學,從事人工智能驅(qū)動的環(huán)境健康及醫(yī)學影像研究。涂華康教授,博士畢業(yè)于美國埃默里大學,從事基于電子病歷的腫瘤真實世界大數(shù)據(jù)研究。

掃碼閱讀全文

 

Wu X #, Li W, Tu H. Big data and artificial intelligence in cancer research. Trends Cancer. 2023 Nov 15:S2405-8033(23)00217-0. doi: 10.1016/j.trecan.2023.10.006. PMID: 37977902.