基于临床任务的计算病理学切片聚合方法研究

小罗碎碎念

在医学AI的计算病理学领域,全切片图像(WSI)分析至关重要,而如何将大量瓦片级图像嵌入聚合为切片级表示是一大关键问题。

这篇文章针对此展开研究,目前多数研究依赖特定公共数据集,其在临床实践中的适用性存疑。

https://proceedings.mlr.press/v254/chen24a.html

此前相关研究也存在局限性,比如对基础模型优势挖掘不足、受数据集限制或未涉及临床相关数据集,这为后续研究指明了方向。

为解决这些问题,文章进行了全面的基准测试。研究人员精心挑选了十种切片级聚合技术,涵盖多种技术类型。

同时,从两所机构收集了九个与临床紧密相关的数据集,涉及多种疾病检测、生物标志物分类以及结果预测等任务

实验中使用四个预训练基础模型生成嵌入,通过蒙特卡罗交叉验证等方法进行严格实验。

研究发现,来自特定领域(如组织学图像)基础模型的嵌入,在多数任务上胜过基于通用ImageNet的模型。

空间感知聚合器对基于ImageNet预训练的模型有显著性能提升,但对基础模型效果不明显,且没有哪种模型能在所有任务中都表现出色。

这一研究为医学AI研究人员在选择和改进聚合技术方面提供了重要参考,也指出未来应聚焦开发更能有效利用空间信息和层次结构的方法。,代码可在https://github.com/fuchs-lab-public/CPath_SABenchmark获取。


交流群

欢迎大家加入【医学AI】交流群,本群设立的初衷是提供交流平台,方便大家后续课题合作。

目前小罗全平台关注量67,000+,交流群总成员1500+,大部分来自国内外顶尖院校/医院,期待您的加入!!

由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业,即可邀您入群


知识星球

对推文中的内容感兴趣,想深入探讨?在处理项目时遇到了问题,无人商量?加入小罗的知识星球,寻找科研道路上的伙伴吧!


一、文献概述

1-1:研究背景

深度学习推动计算病理学发展,WSI常被分割为小瓦片分析,弱监督学习结合预训练视觉模型编码瓦片特征向量,自监督学习训练FMs成为趋势。

但该领域依赖公共数据集评估下游任务性能,在临床应用中存在局限性,如TCGA数据集用于组织学分析时,受高肿瘤患病率、旧扫描技术和冰冻切片组织等因素影响,限制了组织学研究的准确性和泛化性。

已有相关研究在评估AI算法性能时存在不足,如Laleh等人(2022)未充分关注切片级聚合阶段和FMs优势;Bilal等人(2023)研究受数据集特异性限制;Saunders等人(2023)未涉及临床相关数据集。

因此,需要针对临床相关任务,结合FMs嵌入对切片级聚合方法进行基准测试。


1-2:研究方法

聚合方法选择

通过文献搜索,选取2017 - 2023年间,无需实例级标签、有公开可实现代码且常用于基准测试的方法

涵盖关键实例、注意力、聚类、自注意力和基于图的方法等类别,如AB-MIL、DS-MIL、TransMIL、Patch-GCN等。


数据集收集

从西奈山医疗系统(MSHS)和纪念斯隆凯特琳癌症中心(MSKCC)收集九个数据集,涉及多种疾病和任务,包括:

  1. 乳腺癌(BCa)检测
  2. 炎症性肠病(IBD)检测
  3. 乳腺癌生物标志物预测
  4. 乳腺癌同源修复缺陷(HRD)预测
  5. 肺腺癌EGFR突变状态预测
  6. 肺癌免疫治疗反应预测

各数据集样本数量和瓦片数量范围不同。


模型实现细节

使用四个预训练FMs生成嵌入作为聚合模块输入,分别是:

  1. 在ImageNet预训练的Truncated ResNet50(tres50 imagenet,维度1024)
  2. 整合CNN和Swin Transformer并在TCGA和PAIP数据集预训练的CTransPath(维度768)
  3. 在16亿组织学图像预训练的DINO-ViT small(dinosmall,维度384)
  4. 通过DINOv2在10万张WSI图像预训练的UNI(维度1024)

采用蒙特卡罗交叉验证(MCCV)策略,每个任务生成21个MCCV折叠,1个用于超参数调整,20个用固定随机种子(0和2024)各运行两次评估模型方差和稳健性。

所有模型用单个A100 GPU训练40个epoch,使用AdamW优化器和余弦退火学习率调度。


1-3:研究结果

通过计算20次MCCV运行的平均受试者工作特征曲线下面积(AUC)评估聚合方法性能。

总体上,特定领域嵌入(CTransPath、dinosmall、UNI)在大多数任务中优于tres50 imagenet,UNI在肺部数据集表现更好。

不同数据集和嵌入下,各方法表现不同:

  • 在BCa和BCa PR检测中,部分方法(如transMIL和PatchGCN在CTransPath输入时)比基线AB-MIL有显著改进(p<0.05p<0.05p<0.05);
  • 在BCa ER和IBD检测任务中,多种方法优于AB-MIL;在MS LUAD EGFR任务中,所有方法与基线相当或更差,可能受数据集大小(294张幻灯片)影响;
  • 在BCa HER2和BIOME HRD任务中,各嵌入和聚合器间无显著差异,但特定领域嵌入在箱线图中显示出较小方差。
  • 在NSCLC IO结果预测中,VarMIL和transMIL在dinosmall输入时表现较好,AB-MIL FC big在UNI输入时表现较好,但改进幅度小且变异性高。

1-4:研究结论

研究表明:

  • 在一般疾病检测任务中,注意力机制(如AB-MIL)有效,但整合空间信息会增加计算成本;直接从自然图像预训练的FM转移学习到组织学图像可能降低性能,但合适的聚合方法可缩小差距;
  • 在更具挑战性的任务(如结果预测或复制生物标志物预测)中,当前方法整合空间信息对性能提升有限。建议使用AB-MIL作为强基线,根据具体情况验证其他方法
  • 未来研究应开发更好利用空间上下文和层次结构的方法,扩展数据集涵盖更多临床任务(如生存分析),探索最新FMs和类激活图可视化,提高聚合方法的可解释性和有效性。

二、方法

2-1:模型概况

在方法选择部分,为确定本研究的聚合方法,研究者在谷歌学术上以“((deep learning) AND ((computational histopathology) OR (whole slide images)) AND (classification))”为检索词,筛选2017年至2023年的文献。

尽管层次模型在融合局部和全局特征方面有潜力,但本研究聚焦于无需实例级标签的嵌入聚合技术,这些技术基于统一放大倍数下的嵌入以保证一致性。

分析重点为有公开可实现代码,且常用于近期学术研究基准测试的方法。基准测试聚合方法的问题公式在附录A中给出,所选聚合方法的详细信息及其计算复杂度在附录C的表2中呈现。

这张图是计算病理学(CPath)中切片聚合方法在2017 - 2023年的演变图 ,按是否考虑空间信息分为“Spatially - Unaware”(未感知空间信息)和“Spatially - Aware”(感知空间信息)两类。

image-20250428125007895

未感知空间信息(Spatially - Unaware)

  • 关键实例(Key Instance)方法:如2018年Campanella提出的Deep - MIL和2019年的MIL - RNN ,聚焦处理关键切片子集 ;2021年Li的DS - MIL ,用非局部注意力关注关键切片 。
  • 注意力(Attention)方法:2018年Ilse的AB - MIL ,通过注意力权重考虑实例贡献 ;2019年Yao的DeepMISL和DeepAttnMISL ,基于注意力和成对相关性,整合表型聚类 ;2020年Yao的DeepAttnMISL ,受多类标签约束 ;2021年Lu的CLAM ,也属于此类。
  • 聚类(Cluster)方法:2022年Yang的ReMix ,利用补丁聚类质心减少实例并进行潜在空间增强 。

感知空间信息(Spatially - Aware)

  • 自注意力(Self - Attention)方法:源于2017年Vaswani的Transformer 。2020年Dosovitskiy的ViT ,对所有补丁进行自注意力操作并使用条件金字塔位置编码 ;2021年Shao的TransMIL ,用自注意力分析空间信息但位置编码缺乏一致性 ;2021年Li的DT - MIL ,结合绝对位置特征和可变形Transformer ;2022年Zheng的KAT ,基于核的交叉注意力 ;2022年Zhao的SET - MIL ,令牌到令牌视觉Transformer ;2023年Ding的EGT ,将前k个关键令牌用于图Transformer 。
  • 基于图(Graph)方法:2018年Velickovic的GAT ,图注意力 ;2018年Li的DeepGraphConv ,基于特征相似性 ;2019年Huang的AttPool ,选择判别性节点用于层次图 ;2021年Chen的PatchGCN ,从相邻补丁构建图 ;2022年Hou的H2 - MIL ,异构图 ;2022年Zheng的GTP ,结合邻接矩阵和自注意力 ;2023年Chan的HEAT ,补丁级和分辨率级处理 。

图中黑色轮廓标注的是本研究进行基准测试的模型 ,颜色区分方法类别 ,垂直位置体现时间顺序 ,水平方向表明是否整合空间信息 ,反映了切片聚合方法从早期到近年的技术演进与创新 。


2-2:数据集

为了在临床任务上对聚合方法的性能进行基准测试,研究人员从西奈山医疗系统(MSHS)和纪念斯隆凯特琳癌症中心(MSKCC)这两个机构收集了九个数据集。

MSHS的切片是通过飞利浦超快扫描仪扫描的,而MSKCC的切片则是利用徕卡Aperio AT2扫描仪进行扫描的。

这些数据集相关信息在附录B的表1中进行了汇总,每个切片的瓦片数量直方图可在附录C的图3B中查看。


BCa(乳腺癌)检测队列

第一个数据集是BCa(乳腺癌)检测队列,其中的乳腺癌组织块和正常乳腺组织块均取自病理实验室信息系统。

总共采集了1998张切片,阳性和阴性切片各999张。阳性切片取自接受癌症病例常规生物标志物检测(雌激素受体ER、孕激素受体PR、人表皮生长因子受体2 HER2和Ki67)的组织块,阴性切片则来自未进行常规生物标志物检测的乳腺病例,并且这些阴性病例不是乳房切除术病例,病例报告中没有概要报告,也未提及癌症或癌。


IBD(炎症性肠病)检测队列

第二个数据集是IBD(炎症性肠病)检测队列,正常黏膜样本取自2018年至2022年接受筛查和常规监测下消化道内镜检查的患者,IBD病例包括初诊和随访病例。

共采集了1441张切片,其中717张有活动性炎症,724张为正常黏膜。


BCa生物标志物预测队列

BCa ER、BCa PR、BCa HER2这三个数据集属于BCa生物标志物预测队列。

乳腺癌病例通常使用免疫组织化学(IHC)和荧光原位杂交(FISH)来评估ER、PR和HER2状态,每个生物标志物的检测结果自动从病理报告中提取。


BR HRD队列

BioMe BR HRD是乳腺癌(BR)同源修复缺陷(HRD)预测队列。

西奈山BioMe是一个包含3万人的全外显子测序队列,携带影响HRD基因(如BRCA1、BRCA2、BRIP1、PALB2、RAD51、RAD51C、RAD51D、ATM、ATR、CHEK1、CHEK2)的致病性和蛋白质截断变异的个体被视为阳性。

该队列选取了BioMe数据集中有可用乳腺病理切片的患者子集,既包含仅含正常乳腺组织的切片,也有乳腺癌切片。


LUAD EGFR数据集

LUAD EGFR数据集用于预测肺腺癌(LUAD)中EGFR(表皮生长因子受体)突变状态,分别从MSHS和MSKCC收集了两个数据集。

MSHS数据集从其临床切片数据库中获取了294张切片,103张阳性,191张阴性,该队列依据Campanella等人(2022)先前研究的指南构建,将突变映射为二元目标。

MSKCC数据集包含1000张切片,307张阳性,693张阴性,是Campanella等人(2022)所述数据集的随机子集。


NSCLC IO数据集

NSCLC IO数据集用于预测肺癌免疫治疗反应,研究对象为接受基于PD - L1阻断的免疫治疗的非小细胞肺癌(NSCLC)患者,排除细胞学标本。

客观总体缓解情况依据Eisenhauer等人(2009)的实体瘤疗效评价标准(RECIST),由一名不知情的胸部放射科医生判定。

共获取454张切片,86张阳性,368张阴性 。这些数据集为评估聚合方法在不同临床任务中的性能提供了丰富的数据支持,有助于深入探究相关技术在医学人工智能领域的实际应用效果。


2-3:模型实现

在模型实现细节方面,研究人员对所有数据集和任务采用了相同的实验设置。

聚合模块的输入嵌入由四个预训练的基础模型(FMs)生成:

  • 其一为Truncated ResNet50(tres50 imagenet,维度为1024),它是在ImageNet上进行预训练的(Lu等人,2021);
  • 其二是CTransPath(维度为768),该模型整合了卷积神经网络(CNN)和Swin Transformer,在来自TCGA和PAIP数据集的560万个图像块上进行预训练(Wang等人,2022);
  • 其三是DINO-ViT small(dinosmall,维度为384),在超过42万张临床切片的16亿张组织学图像上完成预训练(Campanella等人,2023);
  • 其四是UNI(维度为1024),它借助DINOv2利用ViT-L/16,在来自公共和内部数据集(Mass-100K)的10万张全切片图像(WSIs)的超过1亿张图像上进行预训练(Chen等人,2023)。

对于每个数据集,研究人员运用蒙特卡罗交叉验证(MCCV)策略进行划分。在每次MCCV划分中,80%的样本用于训练,其余用于验证。

针对每个任务,共生成21个MCCV折数,其中1个专门用于超参数调整,后续的20个折数分别使用固定随机种子(0和2024)运行两次,以此评估模型的方差和稳健性。

所有模型均在单个A100 GPU上训练40个轮次,使用AdamW优化器(Loshchilov和Hutter,2017)。

学习率和权重衰减超参数采用带有10轮热身期的余弦退火调度。每种方法的实现细节遵循官方说明,但在所有实验中保持一致的训练策略。

每种方法的GPU内存使用量与每张切片的图像块数量的关系总结在附录C的图3A中。这种统一且规范的模型实现方式,有助于确保实验结果的可靠性和可比性,为准确评估不同聚合方法在各种临床任务中的性能提供了坚实的技术保障 。


三、结果

在结果部分,研究人员通过计算20次蒙特卡罗交叉验证(MCCV)运行的平均受试者工作特征曲线下面积(AUC)来评估聚合方法的性能,AUC值在训练结束(40个epoch)时报告。

研究使用箱线图对比了由四个基础模型(FMs)生成的嵌入的AUC分布情况,这些结果呈现在图2的同一子图中。

image-20250428125825206

总体而言,特定领域的嵌入(CTransPath、dinosmall、UNI)在大多数任务中,无论使用何种聚合器,其表现均优于tres50 imagenet。

此外,在肺部数据集上,使用UNI通常能产生更好的性能表现。研究还发现,没有一种方法在所有数据集和嵌入情况下都始终优于其他方法。


为了在相同嵌入条件下比较不同方法,研究人员进行了单侧t检验,以确定每种方法是否显著优于作为基线的AB - MIL。

在乳腺癌(BCa)和BCa孕激素受体(PR)检测中,除了在CTransPath输入时,transMIL和PatchGCN相较于基线有统计学意义的显著改进(p < 0.05)外,未观察到先进方法相对于基线方法的一致优势。

在BCa雌激素受体(ER)和炎症性肠病(IBD)检测任务中,以所有四种嵌入作为输入时,有几种方法优于基线AB - MIL。在MSK肺腺癌(LUAD)EGFR任务中,PatchGCN和AB - MIL FC表现出色。

而在MS LUAD EGFR任务中,所有方法的表现与基线相当或更差,这可能是由于该数据集规模较小(294张切片)所致。在BCa人表皮生长因子受体2(HER2)和BioMe BR同源修复缺陷(HRD)任务中,所有嵌入和聚合器之间均未观察到显著差异,但特定领域的嵌入在箱线图中显示出较小的方差。

在非小细胞肺癌(NSCLC)免疫治疗反应(IO)的结果预测中,当输入为dinosmall时,VarMIL和transMIL表现更优;当输入为UNI时,AB - MIL FC big表现更好,但这些改进幅度较小且变异性较高。为展示收敛速度,训练过程中验证AUC的示例曲线在附录C的图3C中给出。

这些结果全面地呈现了不同聚合方法在多种临床任务下的性能差异,为后续深入分析和方法改进提供了重要依据。


结束语

本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值