首页 >科技周边 >人工智能 >效率高,无需标签,谷歌团队用AI挖掘临床数据,改善基因发现和疾病预测,登Nature子刊

效率高,无需标签,谷歌团队用AI挖掘临床数据,改善基因发现和疾病预测,登Nature子刊

WBOY
WBOY原创
2024-07-19 21:45:12464浏览

效率高,无需标签,谷歌团队用AI挖掘临床数据,改善基因发现和疾病预测,登Nature子刊

编辑 | ScienceAI

现代医疗保健系统会产生大量高维临床数据 (HDCD),例如肺功能图、光体积变化描记图法 (PPG)、心电图 (ECG) 记录、CT 扫描和 MRI 成像,这些数据无法用单个二进制或连续数字来概括。

了解我们的基因组与 HDCD 之间的联系不仅可以提高我们对疾病的了解,而且对于疾病治疗的发展也至关重要。

近日,Google Research 的基因组学团队在利用 HDCD 表征疾病和生物学特征方面取得了进展。

研究团队提出了一种无监督深度学习模型,即低维嵌入基因发现的表示学习 (REGLE),用于发现基因变异与 HDCD 之间的关联。

REGLE 作为一种新颖的基因发现方法,可以利用高维临床数据中的隐藏信息,其计算效率高,不需要疾病标签,并且可以整合来自专家定义知识的信息。

总体而言,REGLE 包含的临床相关信息超出了现有专家定义的特征所捕获的信息,从而可以改善基因发现和疾病预测。

相关研究以「Unsupervised representation learning on high-dimensional clinical data improves genomic discovery and prediction」为题,于 7 月 8 日发布在《Nature Genetics》上。

效率高,无需标签,谷歌团队用AI挖掘临床数据,改善基因发现和疾病预测,登Nature子刊

论文连接:https://www.nature.com/articles/s41588-024-01831-6

揭示 HDCD 中的隐藏信息

研究基因与 HDCD 之间联系的一种简单方法是对每个数据坐标执行 GWAS,例如,可以研究医学图像中每个像素值的变化。这种方法计算成本高,并且由于邻近坐标之间的高相关性和大量的多重测试负担,发现显著关联的能力较低。

一种更常用的方法是专注于从 HDCD 中提取的少量专家定义特征 (Expert-defined Features,EDF) 作为 GWAS 的目标特征或表型。EDF 可以包括临床已知的特征,例如肺量图的用力肺活量 (FVC) 或 1 秒用力呼气量 (FEV1)。

虽然这些 EDF 是专家发现的重要特征,但假设它们可能无法全面捕获 HDCD 中编码的信号,因此对这些信号运行 GWAS 可能无法充分利用 HDCD 的潜力。

REGLE 旨在使用变分自动编码器 (VAE) 模型克服这些限制。该方法包括三个主要步骤:

(1) 通过 VAE 学习 HDCD 的非线性、低维、解纠缠表示(即编码或嵌入);

(2) 对每个编码坐标独立进行 GWAS;

(3) 使用来自编码坐标的多基因风险评分 (PRS) 作为一般生物功能的遗传评分,然后可能将这些评分组合起来为特定疾病或特征创建 PRS(给定少量疾病标签)。

值得注意的是,REGLE 还允许在修改后的 VAE 架构中将相关 EDF 选择性地包含在解码器的输入中,从而鼓励编码器仅学习 EDF 未表示的残差信号。

效率高,无需标签,谷歌团队用AI挖掘临床数据,改善基因发现和疾病预测,登Nature子刊

图示:REGLE 的三个步骤。(来源:论文)

检测肺和循环功能的新基因位点

研究人员使用两种高维临床数据模式展示了 REGLE 的功能:测量肺功能的肺量图和测量心血管功能的 PPG。两者都可以在诊所或消费者可穿戴设备中以非侵入性、相对便宜的方式收集,并且这两种模式都有众所周知的特征)。

与具有相同维度的肺量图和 PPG 特征的全基因组关联研究相比,REGLE 对学习编码的研究恢复了与肺和循环功能相关的大多数已知基因位点(loci),同时还检测到了其他位点(例如,PPG 的重要位点增加了 45%)。如果这些位点在进一步的分析和湿实验室实验中得到验证,它们有可能成为新的药物靶点。

改进的遗传风险评分

多基因风险评分 (PRS) 是许多遗传变异对特定特征的估计影响的总结,以单个数字表示。通过对 REGLE 嵌入进行全基因组关联研究创建的 PRS 可以仅使用少量疾病标签进行组合,以生成针对该特定疾病的 PRS。

Penyelidik memerhatikan bahawa PRS fungsi paru-paru yang dihasilkan daripada pengekodan spirometri meningkatkan ramalan COPD dan asma berbanding kaedah sedia ada seperti ciri yang ditentukan pakar, PCA dan PRS, dan ciri PRS yang mengatasi prestasi di kedua-dua hujung spektrum risiko Susun kumpulan risiko dengan lebih cekap. Peningkatan ketara secara statistik dalam pelbagai metrik (korelasi AUC-ROC, AUC-PR dan Pearson) merentas berbilang set data bebas (COPDGene, eMERGE III, Indiana Biobank dan EPIC-Norfolk) untuk asma dan COPD, seperti Paparan berikut.

效率高,无需标签,谷歌团队用AI挖掘临床数据,改善基因发现和疾病预测,登Nature子刊

Ilustrasi: Perbandingan pengekodan spirometri (SPINC) dan pengekodan spirometri sisa (RSPINC) PRS berbanding PRS ciri yang ditentukan pakar mengenai prevalens asma. (Sumber: kertas)

Begitu juga, PRS yang diperolehi daripada pembenaman REGLE PPG meningkatkan ramalan hipertensi dan tekanan darah sistolik (SBP). Hipertensi dan SBP PRS yang dijana oleh pengekodan PPG dan tandatangan PPG dinilai dalam tiga set data bebas (COPDGene, eMERGE III dan EPIC-Norfolk) serta dalam set ujian yang dipegang Biobank UK.

Memerhatikan bahawa merentas berbilang set data, terdapat trend peningkatan yang konsisten menggunakan PRS daripada pengekodan PPG berbanding menggunakan PRS daripada ciri yang ditentukan pakar, untuk kedua-dua hipertensi dan SBP.

效率高,无需标签,谷歌团队用AI挖掘临床数据,改善基因发现和疾病预测,登Nature子刊

Ilustrasi: Pengekodan PPG (PLENC) Perbandingan PRS untuk hipertensi (HTN). (Sumber: Kertas)

效率高,无需标签,谷歌团队用AI挖掘临床数据,改善基因发现和疾病预测,登Nature子刊

Grafik: Pengekodan PPG (PLENC) Perbandingan PRS untuk tekanan darah sistolik (SBP). (Sumber: Kertas)

Pembenaman Separa Boleh Ditafsirkan

Mengambil kesempatan daripada sifat generatif REGLE, kami mengkaji kesan pengekodan koordinat pada spirometri dengan menetapkan nilai ciri yang ditentukan pakar dan menukar satu pengekodan koordinat sambil mengekalkan yang lain pengekodan koordinat sifar. Kemudian, peta spirometri yang sepadan dijana menggunakan hanya bahagian penyahkod model terlatih.

Spirometri isipadu aliran biasa terdiri daripada dua bahagian yang berbeza: (1) bahagian yang agak pendek untuk mencapai aliran puncak, di mana aliran meningkat secara monoton dengan peningkatan isipadu; (2) bahagian utama bahagian spirometri, di mana kadar aliran berkurangan secara monoton.

Imej di bawah menunjukkan bahawa menukar koordinat pertama adalah bersamaan dengan mengembangkan atau mengecilkan bahagian kedua (cerun negatif) sambil mengekalkan bahagian pertama secara relatif tetap. Malah, lekuk di bahagian kedua lengkung, yang dirujuk oleh ahli pulmonologi sebagai penurunan, adalah penunjuk halangan saluran pernafasan yang tidak diwakili dengan baik oleh EDF standard.

效率高,无需标签,谷歌团队用AI挖掘临床数据,改善基因发现和疾病预测,登Nature子刊

Ilustrasi: Kesan menukar koordinat pengekodan peta pernafasan. (Sumber: Penyelidikan Google)

Menjelaskan asas genetik sifat dan penyakit manusia

REGLE ialah kaedah pembelajaran tanpa pengawasan yang melakukan analisis genetik, penemuan lokus novel yang dipertingkatkan dan ramalan risiko. Memandangkan EDF sukar ditemui secara manual pada skala, pembelajaran perwakilan HDCD tanpa pengawasan adalah menarik untuk penemuan genom.

Rangka kerja REGLE juga menyokong penggunaan berprinsip ciri ini dalam pemodelan dengan mengubah suai seni bina VAE tradisional. REGLE ditunjukkan dalam dua modaliti data klinikal (spirometri dan PPG), yang boleh diukur secara rutin dalam tetapan klinikal atau secara pasif dan bukan invasif melalui telefon pintar atau peranti boleh pakai.

REGLE menyediakan mekanisme untuk mengenal pasti pengaruh genetik pada fungsi organ tanpa data berlabel dan membenarkan penggabungan ciri pakar ke dalam model. Ia juga menyediakan cara untuk mencipta PRS khusus penyakit dan sifat menggunakan beberapa label. Pada masa hadapan, pendekatan seperti ini akan semakin digunakan untuk menjelaskan lagi asas genetik sifat dan penyakit manusia.

Kandungan rujukan: https://research.google/blog/harnessing-hidden-genetic-information-in-clinical-data-with-regle/



🎜🎜🎜🎜🎜

以上是效率高,无需标签,谷歌团队用AI挖掘临床数据,改善基因发现和疾病预测,登Nature子刊的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn