大模型及其在医疗中的应用(二)

大模型及其在医疗中的应用(二)

1、什么样的医疗数据可以用得上大模型

(1) 医学影像数据

医学影像数据,如X光片、CT扫描、MRI、超声波等,是医疗领域最重要的非结构化数据之一。大模型在医学影像分析中有着巨大的潜力,尤其是在自动化的疾病检测和预测中。

  • 应用场景:
    • 肿瘤检测:大模型可以帮助分析医学影像中的微小异常,如肺部结节、乳腺癌、脑部肿瘤等的早期识别。
    • 图像分割与重建:用于从医学影像中自动分割出组织或器官区域,如对CT扫描进行分割,以分析不同的器官或肿瘤区域。
    • 疾病预测与监控:通过大量的历史影像数据训练大模型,能够预测疾病进展,并提供治疗效果的定量分析。
    • 大模型的优势:大模型能够处理复杂的图像数据,捕捉到细微的视觉特征,并从中识别出可能被人眼忽视的病变。

(2) 基因组数据

基因组学数据是另一个非常适合大模型应用的领域,特别是在基因突变分析、疾病关联研究、个性化治疗等方面。大模型可以帮助从基因组数据中提取有用的特征,预测疾病风险或帮助设计针对性的治疗方案。

  • 应用场景:
    • 基因突变与疾病关联:通过分析大量的基因组数据,识别出哪些基因突变与某些疾病(如癌症、心血管疾病等)相关。
    • 个性化治疗:结合基因组数据和病史数据,为患者量身定制个性化的治疗方案,尤其是在癌症免疫治疗和靶向治疗中。
    • 全基因组关联研究(GWAS):大模型能够分析来自不同种族和地区的庞大基因组数据,发现新的疾病易感基因或生物标志物。
    • 大模型的优势:大模型具有处理大规模、高维数据的能力,能够深入挖掘基因与疾病之间的复杂关系。

(3) 电子健康记录(EHR)

电子健康记录(EHR)数据是医疗行业中的宝贵资源,通常包含患者的病史、诊断结果、治疗方案、药物使用记录、实验室检测结果等信息。大模型能够处理这种高维度、异构的结构化数据,为临床决策提供支持。

  • 应用场景:
    • 疾病预测与预警:通过历史EHR数据训练大模型,预测患者是否可能患有特定的疾病,或者检测潜在的并发症风险。
    • 治疗方案推荐:根据患者的历史病历和诊疗记录,推荐最适合的治疗方案,尤其在复杂病例(如多种疾病共存)中尤为有效。
    • 临床决策支持系统(CDSS):大模型可以根据患者的病历数据和临床症状,提供决策支持,帮助医生做出更加精准的判断。
    • 大模型的优势:EHR数据通常涉及复杂的多变量分析和时间序列建模,大模型能够处理这些复杂的数据结构,从中挖掘出更多的隐含规律。

(4) 实验室检测与生物标志物数据

实验室检测数据包括患者的血液检测结果、尿液分析、基因表达数据等,生物标志物(如肿瘤标志物、血糖水平等)常常用于疾病筛查和监控。大模型可以帮助分析这些检测数据,提取有价值的信息,并在诊断和治疗决策中提供支持。

  • 应用场景:
    • 疾病筛查与早期诊断:利用大模型分析生物标志物数据,帮助筛查出早期潜在的疾病,如癌症、心血管疾病等。
    • 疾病进展监控:通过分析实验室数据的时间序列,监控疾病进展,特别是慢性病患者(如糖尿病、肝病等)进行长期跟踪。
    • 大模型的优势:实验室检测数据往往涉及复杂的变化规律,大模型可以自动识别出数据中的异常波动,进而判断疾病的风险和发展趋势。

(5) 临床试验数据

临床试验数据是药物或治疗方案效果的关键证据。大模型可以帮助从大量的临床试验数据中提取有用信息,分析不同患者群体对药物或治疗方案的反应。

  • 应用场景:
    • 药物效果预测与评估:大模型能够基于历史临床试验数据预测新药的效果和副作用,帮助制定更精准的药物研发策略。
    • 患者群体分析:通过分析大量临床试验数据,识别哪些患者群体对某种药物有更好的响应,哪些则可能出现严重副作用。
    • 大模型的优势:大模型能够分析大量的临床数据,并基于患者的多种特征(如年龄、性别、病史等)进行个性化分析,帮助优化治疗策略。

(6) 健康监测数据(穿戴设备数据)

随着可穿戴设备的普及,健康监测数据(如心率、血糖、步数、睡眠质量等)变得越来越重要。大模型可以实时分析这些数据,帮助监测患者的健康状况,甚至预警潜在的健康问题。

  • 应用场景:
    • 健康状态实时监控:通过穿戴设备收集的数据,实时分析患者的健康状况,帮助疾病的早期诊断和管理。慢性病管理:例如,对于糖尿病患者,系统可以实时监控血
    • 糖变化,预警潜在的高血糖或低血糖事件。
    • 大模型的优势:大模型可以处理这些动态变化的时间序列数据,基于长时间跨度的健康数据,预测健康风险,并提供个性化的健康管理建议。

(7) 临床文本数据

临床文本数据通常包含医生的诊断记录、病人报告、医嘱等信息。这些文本数据可以提供患者病情的详细描述、医生的诊断过程和治疗决策。大模型(尤其是基于自然语言处理的模型)能够从中提取出结构化信息,辅助诊断和决策。

  • 应用场景:
    • 文本挖掘与疾病诊断:通过自然语言处理技术,自动从医生记录中提取出患者的症状、诊断、治疗历史等信息,为医生提供决策支持。
    • 医疗知识图谱构建:基于大量的临床文本数据,构建医疗领域的知识图谱,帮助医生了解疾病的进展、治疗方案等。
    • 大模型的优势:大模型(如BERT、GPT等)擅长处理大规模文本数据,能够识别文本中的潜在语义关系,辅助疾病诊断和个性化治疗。

2、国内医疗大模型相关文献(视觉-语言)

(1)语言引导的公共语义空间中的统一医学图像预训练

《Unified Medical Image Pre-training in Language-Guided Common Semantic Space》(2024.7)

浙江大学胡浩基团队联合微软亚洲研究院提出了一种全新的统一医学图像预训练框架 UniMedI。它利用诊断报告作为公共语义空间,可为不同模态的医学图像创建统一的表示,成功整合了 2D 和 3D 图像,使复杂的医学数据被更好地利用。

本研究提出的 UniMedI 是一个视觉语言预训练框架,医学图像及其文本报告分别由视觉编码器 (Vision Encoder) 和文本编码器 (Text Encoder) 两个编码器进行编码,然后通过 VL (Vision-Language) 对比学习共同学习。

(2)构建面向糖尿病诊疗的视觉-大语言模型

《Integrated image-based deep learning and language models for primary diabetes care》(Nature Medicine,2024.7)
清华大学副教务长、医学院主任黄天荫教授团队,上海交通大学电院计算机系/教育部人工智能重点实验室盛斌教授团队,上海交通大学医学院附属第六人民医院贾伟平教授及李华婷教授团队,新加坡国立大学及新加坡国家眼科中心覃宇宗教授团队通力合作,成功构建全球首个面向糖尿病诊疗的视觉-大语言模型集成系统 DeepDR-LLM,可为基层医生提供个性化的糖尿病管理意见及糖尿病视网膜病变辅助诊断结果。

该系统在覆盖亚非欧 3 大区域、7 个国家的多中心队列中进行了回顾性验证。

  • 本研究创新性地提出融合适配器 (Adaptor) 和低秩自适应 (Low-Rank Adaptation, LoRA) 协同优化技术
  • DeepDR-Transformer 模块引入 Transformer 模型架构针对超 50 万张眼底图像进行训练,精准实现眼底影像的质量检测、病变分割和 DR 分级诊断
  • DeepDR-LLM 系统纳入糖尿病诊疗流程后,可显著改善新发糖尿病患者的自我管理行为,提高 DR 患者的转诊依从性。DeepDR-LLM 系统由 2 个模块组成: 模块 I (LLM module),为糖尿病患者提供个性化管理建议;模块 II (DeepDR-Transformer module),从标准或便携式眼底图像中进行图像质量评估、病变分割和 DR 分级。

(3)构建医学多语言模型

《Towards building multilingual language model for medicine》(Nature Communications,2024.9)
上海交通大学王延峰教授与谢伟迪教授团队创建了一个包含 255 亿 tokens 的多语言医疗语料库 MMedC,开发了一个覆盖 6 种语言(覆盖了英语、中文、日语、法语、俄语和西班牙语这 6 类语种,其中英语所占比例最大,为 42%,中文占比约为 19%,俄语所占比例最小,仅为 7%)的多语言医疗问答评测标准 MMedBench,同时还构建了一个 8B 的基座模型 MMed-Llama 3。

  • MMedC 是首个专门针对多语言医学领域构建的语料库,同时也是迄今为止最广泛的多语言医学语料库。MMedC 下载地址:https://go.hyper.ai/EArvA
  • 在 MMedC 上的自回归训练有助于提升模型性能,在全面微调评估下,MMed-Llama 3 的性能为 67.75,而 Llama 3 为 62.79
  • MMed-Llama 3 在英文基准测试中表现出了最先进的性能,显著超过了 GPT-3.5
  • 为了更好地评估多语言医学模型的性能,研究人员进一步提出了多语言医学问答基准 MMedBench (multilingual medical Question and Answering Benchmark),汇总了 MMedC 所覆盖的 6 种语言现有的医学多项选择问答题,并利用 GPT-4 为 QA 数据增加了归因分析的部分。最终,MMedBench 包含 53,566 对 QA,跨越了 21 个医学领域,例如内科、生物化学、药理学和精神病学等。研究人员将其划分为 45,048 对训练样本和 8,518 对测试样本。同时,为了进一步检验模型的推理能力,研究人员选择了一个由 1,136 对 QA 组成的子集,每对都附带经过人工验证的推理语句,作为更专业的推理评估基准。 MMedBench 下载地址:https://go.hyper.ai/D7YAo

(4)通过平扫 CT 和深度学习进行大规模胰腺癌检测

《Large-scale pancreatic cancer detection via noncontrast CT and deep learning》(nature medicine, 2023.11)
针对胰腺癌的早筛早治问题,阿里达摩院联合上海市胰腺疾病研究所、浙江大学医学院附属第一医院、中国医科大学附属盛京医院等国内外医疗机构,开发了基于深度学习的胰腺癌人工智能检测 (Pancreatic Cancer Detection with Artificial Intelligence,PANDA),通过「平扫 CT+AI」进行大规模的胰腺癌早期筛查。在 2 万余真实世界连续病人群体中发现了 31 例临床漏诊病变。

训练集来自上海胰腺疾病研究所 (SIPD) 于 2015 年 1 月至 2020 年 10 月之间收治的 3,208 例患者,研究人员还进行了两年的随访确认。

模型架构:Transformer 识别病变类型 。Transformer 来自动编码胰腺病变的特征原型,如局部纹理、位置和胰腺形状,以便更准确地进行细粒度分类。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

愷创作者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值