Nature发布Delphi-2M模型

News Message

Nature发布Delphi-2M模型

by wittx 2025-09-28

用户发布的文档

加载速度比较慢比较慢，请稍等，手机环境下，有可能无法显示！

Nature 期刊上发布了一篇论文，提出了一项突破性的研究成果：Delphi-2M 模型。模型基于生成式预训练 Transformer（GPT）技术，通过分析个人病历和生活方式，对 1000 多种疾病提供长达 20 年的潜在疾病风险评估，并生成保护隐私的合成数据，为个性化医疗和长期健康规划开辟了全新路径。
论文链接：https://www.nature.com/articles/s41586-025-09529-3

魔改 GPT-2，AI 预测个体未来 20 年健康

Delphi-2M 模型的核心在于，通过理解患者过去与当下的健康状态，预测未来疾病风险并进行干预。

过去，AI 方法虽能从医疗记录中学习和预测疾病进展，但受限于模型架构，难以实现对多疾病、长周期、大规模的精准预测。随着人口老龄化加剧，疾病预测的重要性愈发凸显。在此背景下，可以精准模拟多疾病进展的 AI 模型，将成为医疗规划与资源分配的关键工具。

为了模拟疾病历史数据，研究团队对 GPT-2 架构进行了“魔改”。Transformer 模型通过将输入映射到嵌入空间，逐步聚合信息以实现自回归预测。他们用正弦和余弦基函数对连续年龄进行编码，并在输出头中加入另一个模块，通过指数等待时间模型预测下一时间。该架构允许用户通过提供部分健康轨迹，计算出疾病及死亡事件的每日新增率，并根据这些速率对后续 token 及对应时间进行抽样，逐步完成完整健康轨迹的抽样。

图｜Delphi-2M 模型架构

Delphi-2M 的训练与验证依托内、外两大高质量数据集，确保模型的泛化能力与可靠性。训练数据主要来自英国生物样本库的 40 万名参与者，涵盖 ICD-10 顶级诊断代码、性别、体重指数（BMI）、吸烟 / 饮酒习惯及死亡信息。

内部验证数据：英国生物样本库剩余 20% 参与者（约 10.2 万人），用于模型超参数优化；同时选取 47.1 万名 2020 年 7 月 1 日仍存活的参与者，追踪至 2022 年 7 月 1 日，验证模型的纵向预测能力。

外部验证数据：丹麦全国疾病登记系统的 193 万国民数据，时间跨度从 1978-2018 年。值得注意的是，应用于丹麦数据时，模型未调整任何参数，直接复用英国数据训练的权重，以此检验其跨人群、跨医疗体系的适用性。

传统临床风险模型往往注重专精，如 QRisk3 用于心血管疾病风险评估、UKBDRS 用于痴呆预测，多数模型仅能覆盖数十种疾病。而 Delphi-2M 近乎实现了“全谱覆盖”，可同时预测 1256 种疾病及死亡风险，且精准度表现出色。

图｜Delphi-2M 模型精准模拟了多种疾病的发病率。

内部验证表现方面，在英国生物样本库数据中，模型对多数疾病的年龄 - 性别分层 AUC（受试者工作特征曲线下面积，越高表示预测能力越强）平均达 0.76，97% 的疾病 AUC 超过 0.5，表明其具备一定的预测价值。其中，死亡风险预测的 AUC 最高，男女均达 0.97，已经接近完美预测。

与临床工具进行对比时，研究团队发现，当使用模型预测心血管疾病、痴呆时，AUC 与 QRisk3、UKBDRS 等经典工具相当；预测死亡风险时，AUC 优于 Charlson 共病指数、Elixhauser 共病指数等常用指标；仅在糖尿病预测上略逊于临床金标准 HbA1c，这也提示了研究人员未来可以通过整合生物标志物进一步优化。

Delphi-2M 在跨人群泛化能力的表现也较为优异。应用于丹麦数据时，Delphi-2M 平均 AUC 虽略低于英国数据，但疾病预测结果与丹麦人群实际发病模式高度相关，证明其在不同医疗体系下具备广泛适用性。

图｜Delphi-2M inform 生成未来健康轨迹的建模方法。

不同于传统模型仅能预测 1-5 年的发病概率，Delphi-2M 的“生成式”特性使其能模拟个体未来长达 20 年的健康路径。研究团队以英国生物样本库中 60 岁参与者为例，基于其 60 岁前的病史数据，生成未来健康轨迹，并与实际随访结果对比得出以下结论：

首先，群体层面的吻合度较高。Delphi-2M 的 70-75 岁疾病发病率与实际观察值高度一致，衡量预测分布与真实分布差异的交叉熵损失与真实数据无显著差异；若随机打乱参与者的既往病史，模拟结果的准确性会明显下降，证明 Delphi-2M 确实捕捉到了病史与未来疾病的关联。

其次，个体风险区分清晰。对于胰腺癌等疾病，模型能区分出“高风险”与“低风险”个体。如既往有消化系统疾病的人群，其患胰腺癌的风险会大幅升高；而哮喘、骨关节炎等疾病的风险预测虽仍依赖年龄 - 性别趋势，但也能识别出偏离群体平均风险的个体。

此外，实验证明长期预测仍然有效。随着预测时间延长，模型准确性会逐渐下降，但仍优于仅基于年龄和性别的预测，证明了其具备长期预测价值。

安格利亚鲁斯金大学生物医学科学教授 Justin Stebbing 评价道，“Delphi-2M 是计算医学与数据整合领域的重大突破，凸显了 GPT 模型在预测大规模人群及个体健康轨迹中千余种疾病发生率与时间节点方面的强大能力。”

伦敦国王学院基因组神经影像与人工智能教授 Gustavo Sudre 也认为，“Delphi-2M 清晰地展示如何运用可解释 AI 进行预测建模至关重要，这为该技术应用于临床实践奠定基础，并暗示识别出需要干预的高风险个体。”

此外。医疗数据的隐私敏感性一直是 AI 研究的痛点，直接使用真实数据训练模型可能泄露个人信息，但匿名化处理又会损失关键信息，模型的合成数据生成能力为这一难题提供了新解法。

Delphi-2M 可生成完全虚构的健康轨迹，复现真实人群的年龄 - 性别特异性发病率模式，且无法通过合成数据反推真实的个人信息，因此可作为真实数据的一种替代品，用于训练其他医疗 AI 模型，既能保护隐私，又避免了数据资源的浪费。Stebbing 教授也肯定了这一优势，称其“外部验证能力与合成数据集生成能力，彰显了模型的鲁棒性、隐私管理优势及医疗规划潜力”。

不足与未来

尽管 Delphi-2M 表现突出，但研究团队在论文中也明确指出了其局限性，需在应用过程中谨慎对待。

例如，Delphi-2M 存在训练数据偏差的情况，这是由于在学习英国生物样本库时造成的“固有偏差”。英国生物样本库参与者以 40-70 岁社会经济地位较高的白人为主，导致模型对其他人群的预测可靠性较低。目前的模型还无法建立因果关系，仅能捕捉“相关性”，不能基于预测结果直接制定干预方案。

此外，Delphi-2M 仅通过数据拟合验证，尚未经过前瞻性临床试验，未在真实临床场景中测试。英国工程与技术学会院士 Peter Bannister 也表示，“这两个数据集在年龄、种族和当前医疗结果方面都存在偏差，距离改善医疗保健还有很长的路要走。”

Delphi-2M 的发布，标志着 AI 在医疗预测领域从单一扩展到多元、从“短期风险”向“长期轨迹”、从“依赖真实数据”向“隐私保护兼容”的跨越。其核心价值不仅在于预测能力强，更在于为精准医疗提供了可解释、可扩展的框架。通过 SHAP 分析，模型可清晰地展示“某一既往疾病如何影响未来风险”。通过整合基因组数据、更丰富的代谢组学信息、诊断影像数据或可穿戴设备数据，可进一步提升其预测能力。

Share Http URL: http://www.wittx.cn/get_news_message.do?new_id=1498