- 博客(6144)
- 资源 (2)
- 收藏
- 关注

原创 【荐读IEEE TPAMI】基于模型的强化学习与独立想象力
在基于视觉的交互系统中,世界模型学习行动的后果。然而,在实际场景中,如自动驾驶,存在不可控制的动态,这些动态独立于或与行动信号稀疏相关,这使得学习有效的世界模型变得具有挑战性。为了解决这个问题,我们提出了Iso-Dream++,这是一种基于模型的强化学习方法,具有两个主要贡献。首先,我们优化了逆动力学,鼓励世界模型从环境混合的时空变化中隔离出可控制的状态转换。其次,我们基于解耦的潜在想象进行策略优化,我们将不可控制的状态滚动到未来,并将其与当前可控制的状态自适应地关联起来。
2024-05-18 19:15:00
1244

原创 【荐读IEEE TPAMI】无监督去雨:非对称对比学习与自相似性相遇
大多数现有的基于学习的去雨方法都是在合成的雨-清洁对上进行有监督训练的。合成雨与真实雨之间的领域差距使它们在复杂的真实雨场景中的泛化能力降低。此外,现有方法主要独立利用图像或雨层的属性,很少有方法考虑它们之间的相互排斥关系。为了解决这一困境,我们探索了每层内部的内在自相似性以及两层之间的相互排斥性,并提出了一种无监督的非局部对比学习(NLCL)去雨方法。非局部自相似性图像块作为正样本被紧密地拉在一起,而雨块作为负样本则被显著地推开,反之亦然。
2024-05-13 12:24:06
1062
原创 医图论文 Arxiv‘25 | 通过半监督学习减少标签依赖的巩膜分割方法
巩膜分割在开发自动眼相关医疗计算机辅助诊断系统以及个人身份识别和验证中至关重要,因为巩膜包含独特的个人特征。与依赖手工特征的传统方法相比,基于深度学习的巩膜分割取得了显著成功,主要是因为它能够自主提取关键输出相关特征,而无需考虑潜在的物理约束。然而,由于高质量、完全标注的数据集稀缺,这些方法在实现准确的巩膜分割方面面临挑战,这些数据集依赖于昂贵且劳动密集的医学采集和专业知识。为了解决这一挑战,本文提出了一种新颖的巩膜分割框架,能够在有限的标注样本下表现出色。
2025-06-27 09:30:00
原创 MIA 2025 | 基于深度学习的冠状动脉X光血管造影与光学相干断层扫描自动跨模态3D融合框架
冠状动脉疾病(CAD)是全球范围内导致死亡的主要原因。冠状动脉X光血管造影(XA)和光学相干断层扫描(OCT)的3D融合可提供互补信息,以更好地了解冠状动脉解剖结构和斑块形态。这通过实现精确的血流动力学和计算生理学评估,显著改善了CAD的诊断和预后。融合的挑战在于XA中的缩短效应和OCT回撤采集的不均匀性可能导致的潜在错位。此外,对主要分叉的重建在技术上要求较高。本文提出了一种自动化的3D融合框架AutoFOX,它由用于3D血管对齐的深度学习模型TransCAN组成。3D血管轮廓被当作顺序数据处理,其特征被
2025-06-27 09:30:00
512
原创 INFFUS‘25 | 基于光学相干断层扫描(OCT)和光学相干断层扫描血管造影(OCTA)图像的多模态多阶段融合增强分割网络
视网膜血管(RV)和中央凹无血管区(FAZ)的准确分割对视网膜健康评估至关重要。然而,融合光学相干断层扫描(OCT)和光学相干断层扫描血管造影(OCTA)图像,并将这些三维数据进行投影以用于分割是一项挑战。在本文中,作者提出了一种用于RV和FAZ分割的自适应投影与多阶段融合增强网络(APMFENet),该网络由三维投影、融合增强和二维分割三部分组成。作者设计了一种核自适应单向卷积以提高投影效率,并设计了一个体融合模块来准确捕捉语义和空间信息。
2025-06-27 09:30:00
4
原创 TMI‘24 | PolarFormer:基于 Transformer 的血管内 OCT 多病变分割方法
基于深度学习的方法已被提出用于从血管内光学相干断层扫描(OCT)图像中提取单一类别的易损斑块。然而,由于缺乏大规模公开的多类别易损斑块注释的血管内 OCT 数据集,进一步的研究受到限制。此外,由于斑块的不规则分布、独特的几何形状和模糊的边界,多类别易损斑块分割极具挑战性。现有方法未能充分考虑易损斑块的几何特征和空间先验信息。为解决这些问题,我们收集了一个包含 70 个回撤数据的数据集,并开发了一个多类别易损斑块分割模型,称为 PolarFormer,该模型结合了易损斑块在空间分布上的先验知识。
2025-06-27 09:30:00
原创 TCSVT 2025 | 渐进边界引导的异常合成用于工业异常检测
无监督异常检测方法仅利用正常样本进行训练,就能够识别工业图像中的表面缺陷。由于从单一类别学习时存在过拟合风险,因此引入异常合成策略,通过生成人工异常来增强检测能力。然而,现有策略严重依赖辅助数据集中的异常纹理。此外,它们在异常合成的覆盖范围和方向性方面存在局限性,可能导致无法捕获有用信息,并产生大量冗余。为解决这些问题,作者提出一种新颖的渐进式边界引导异常合成(PBAS)策略,该策略无需辅助纹理即可有方向地合成关键特征级异常。
2025-06-27 09:30:00
原创 ICML 2024 | 图分布外检测之邻域塑造
尽管关于图像的分布外(OOD)检测已有大量研究工作,但针对相互依赖数据(如:图)的OOD检测文献仍相对有限。为填补这一空白,作者引入TopoOOD,这是一种基于原则的方法,它融合图拓扑结构和邻域上下文,用于检测图上的OOD节点实例。同时,作者通过基于不同拓扑分布划分分布内(ID)和OOD数据,丰富了实验设置,为基于图的OOD检测提供了新的基准,旨在全面评估这些判别器在涉及结构信息的分布变化下的性能,为图上OOD检测这一新兴领域的方法提供严格的评估。
2025-06-27 09:30:00
原创 ICML 2024 | 超声图像中解剖结构检测的无监督域适应方法
在一个机构的超声图像上训练的模型,直接应用到其他机构时,通常效果会下降。此外,与自然图像不同,胎儿超声图像中存在密集且重叠的结构,这使得结构检测更具挑战性。因此,为了解决这个问题,作者提出了一种新的无监督域适应(UDA)方法,该方法集成了拓扑知识迁移(TKT)和形态学知识迁移(MKT)模块,用于胎儿结构检测,命名为ToMo-UDA。TKT利用胎儿医学解剖的先验知识作为拓扑信息,在源域和目标域之间重建和对齐解剖特征。然后,MKT为器官的每个子结构构建更一致且独立的形态学表示。
2025-06-27 09:30:00
转载 聊聊VLM架构以及训练后的一些实验和思考
实际训练的时候,每张图会用换行符隔开。对于Type-A模型,MiniCPM和LLaVA使用的是 SigLIP SoViT-400m/14,Qwen2-VL使用的是DFN,这些模型都是基于CLIP的方法训练得到的ViT模型,只是训练的loss不同或者基于的初始数据集不同。适配下游应用时,大部分试图创新模型结构或训练方法来提升效果的努力都是徒劳的(搞大模型的人太多了,你能想到的方法早就被人试过无数遍了,这些方法之所以没出现在论文里,是因为这些方法没用),除非你训练数据非常多,且训练过程的把控很好。
2025-06-26 10:16:38
1
转载 小米汽车今年的薪资。。。
本文带大家看看小米汽车的2025届校招程序员岗(含算法和软开)薪资(数据来自OfferShow)。将于6月26日正式发布!将挑战Model Y的销量~大家拭目以待(已上市一年的小米Su7,还在持续卖爆中)重磅干货,第一时间送达。最高的薪资还是算法岗!
2025-06-26 10:16:38
2
原创 医图论文 Arxiv‘25 | 基于证据校准的不确定性引导的超声图像交互分割范式
准确且稳健的超声图像分割对于计算机辅助诊断系统至关重要。然而,超声图像固有的挑战,如模糊边界和斑点噪声,往往使传统分割方法难以取得理想效果。尽管近年来通用图像分割技术(如Segment Anything Model)取得了进展,现有的交互分割方法仍然存在效率低下和缺乏专业性的问题。这些方法严重依赖大量准确的手动或随机采样提示进行交互,需要多次提示和迭代才能达到满意的性能。为了解决这一挑战,作者提出了一种基于证据不确定性估计的端到端高效分层交互分割范式——证据不确定性引导的交互分割(EUGIS)。具体而言,E
2025-06-26 09:45:24
8
原创 ACM MM‘24 | 基于解缠多模态特权知识蒸馏的不完整多模态数据抑郁症识别方法
利用面部图像、音频信号或语言文本记录进行抑郁症识别(DR)已取得显著成果。近年来,多模态抑郁症识别通过融合这些模态的信息,表现优于单模态方法。然而,收集包含所有模态的高质量数据颇具挑战。特别是当某些模态缺失或质量下降时,这些方法的性能往往会降低。为解决这一问题,作者提出了一种通用的多模态抑郁症识别框架,该框架结合了特征解缠和特权知识蒸馏技术。具体而言,作者的方法旨在分离多模态信号中的同质和异质特征,同时抑制噪声,从而自适应地聚合最具信息性的成分,实现高质量的抑郁症识别。
2025-06-26 09:44:30
7
原创 TMM‘24 | 基于语义保留与噪声对齐的跨域低剂量CT图像去噪
基于深度学习(DL)的低剂量CT(LDCT)图像去噪方法可能面临域偏移问题,不同域(即医院)的数据可能具有相似的解剖区域,但呈现出不同的内在噪声特征。因此,作者提出了一种即插即用的模型,称为低频和高频对齐(LHFA),通过利用语义特征和对齐不同CT数据集的噪声分布来解决这一问题,同时保持诊断图像质量并抑制噪声。具体而言,LHFA模型由一个低频对齐(LFA)模块组成,该模块保留语义特征(即低频分量),在重建时来自两个域的干扰较少。
2025-06-26 09:30:00
1121
原创 AAAI‘24 | 基于Transformer的扩散医学图像分割模型MedSegDiff-V2
扩散概率模型(DPM)最近在计算机视觉领域受到广泛关注,这得益于其在图像生成应用中的出色表现,如Imagen、潜在扩散模型和Stable Diffusion等,这些应用展示了令人瞩目的能力,并在社区内引发了大量讨论。最近的研究进一步揭示了DPM在医学图像分析领域的实用性,医学图像分割模型在各种任务中展现出的卓越性能便是明证。尽管这些模型最初基于UNet架构,但通过整合视觉Transformer机制,仍存在提升性能的潜在途径。然而,作者发现简单地将这两种模型结合会导致性能不佳。
2025-06-26 09:30:00
4
原创 CVPR 2025 | 迈向基于多模态大语言模型的零样本异常检测与推理
零样本异常检测(ZSAD)是一种新兴的异常检测范式。与传统的无监督异常检测设置不同,传统方法需要大量的正常样本训练模型,而零样本异常检测在处理数据受限的现实场景时更具实用性。最近,多模态大语言模型(MLLMs)在各种视觉任务中展现出了革命性的推理能力。然而,由于缺乏相应的数据集和基准,图像异常推理方面的研究仍未得到充分探索。为了推动异常检测和推理领域的研究,作者建立了首个视觉指令调优数据集Anomaly-Instruct-125k和评估基准VisA-D&R。
2025-06-26 09:30:00
6
原创 TCSVT 2024 | 用于鲁棒RGB-T跟踪的在线学习样本与自适应恢复
随着视觉跟踪任务的日益多样化,RGB和热红外(RGB - T)模态下的目标跟踪受到了广泛关注。现有的大多数RGB - T跟踪方法主要通过整合RGB和热红外模态的分层互补信息来提高跟踪性能,但由于缺乏重新检测能力,在处理跟踪失败问题上存在不足。为解决这些问题,作者提出了一种具有在线学习样本和自适应目标恢复功能的新型RGB - T跟踪方法。首先,将RGB和热红外模态的特征串联起来,进行稳健的外观建模。其次,设计了一种多模态融合策略,以稳定地整合各模态的可靠信息,并提出使用相似度来衡量跟踪置信度。
2025-06-26 09:30:00
3
转载 YOLOv13来了!清华大学提出基于超图增强的实时目标检测
例如,YOLOv11在保持“骨干-颈部-头部”模块化设计的同时,采用了更高效的C3k2单元,并加入了带局部空间注意力的卷积块(C2PSA),以增强对小尺寸和被遮挡目标的检测效果。:YOLOv12标志着注意力机制的全面融入,它引入了轻量级的区域注意力(Area Attention, A2)和Flash Attention,旨在以高效的方式实现全局和局部语义建模,提升了模型的鲁棒性和精度。结合创新的FullPAD信息流范式和深度可分离卷积的轻量化设计,该模型在保持高效率的同时,实现了当前最优的检测性能。
2025-06-25 15:00:43
4
转载 基金委:这笔经费定向投给青年人
评审会开幕式上,自然科学基金委相关负责人叮嘱评审专家,要以高度的使命感和责任感,发挥专业的学术判断力和鉴赏力,全面考察团队——既考察申请人的宏观把握能力和领导凝聚能力,也考察每位参与者的科学素养和学术水平;”评审现场,工作人员向记者介绍,该科学部项目安排了近一小时的提问时间,目的就是充分考察申请人及团队前期的研究成果,以及拟开展研究工作的重要性、科学性、创新性和交叉性,确保优秀项目脱颖而出。“专家们的提问,既有对具体问题的探讨,也有对研究的思路启发和方向性指引,这正是青年科学家所需要的。
2025-06-25 15:00:43
2
转载 图解 Transformer 和 MoE 的差别
专家混合(MoE)是一种流行的架构,比如最近火爆天的 DeepSeek V3 和 R1 就是这类模型。MoE 使用 experts,它们是前馈网络,但与 Transformer 中的网络相比更小。MoE 具有更多的参数需要加载,但由于每次仅选择部分专家,因此只有一部分参数被激活。挑战 2)某些专家可能会比其他专家处理更多的 token,导致部分专家训练不足。如果某个专家达到上限,输入的 token 就会被传递给下一个最合适的专家。在路由器的前馈输出中添加噪声,使其他专家的 logits 更高。
2025-06-25 15:00:43
2
原创 TMI 2024 | 对比图池化:用于大脑网络可解释分类
功能性磁共振成像(fMRI)是一种常用于测量神经激活的技术。它在识别帕金森病、阿尔茨海默病和自闭症等潜在神经退行性疾病方面尤为重要。最近对fMRI数据的分析将大脑建模为图,并通过网络神经网络(GNNs)提取特征。然而,fMRI数据的独特特性要求GNN的特殊设计。定制GNN以生成有效和领域可解释的特征仍然是一个挑战。在本文中,我们提出了一个对比双注意力块和一种称为ContrastPool的可微分图池化方法,以更好地利用GNN进行大脑网络分析,满足fMRI的特定要求。
2025-06-25 09:30:00
81
原创 CVPR‘25 | 重新审视用于3D医学图像分割的MAE预训练
自监督学习(SSL)为挖掘大量未被充分利用的临床数据集的潜力提供了令人兴奋的机会,可应用于各种因标注数据稀缺而受限的下游任务。尽管SSL已经在自然语言处理和计算机视觉等领域引发了变革,但在3D医学图像计算领域,它的应用受到了三个关键问题的限制:预训练数据集规模小、用于3D医学图像分析的架构不足,以及评估实践不够充分。在本文中,作者通过以下方式解决这些问题:i)利用包含39000个3D脑磁共振成像(MRI)体积的大规模数据集;ii)在最先进的nnU - Net框架内使用残差编码器U - Net架构;
2025-06-25 09:30:00
386
原创 CVPR‘25 | DeNVeR:用于无监督视频血管分割的可变形神经血管表示
本文提出了可变形神经血管表示(DeNVeR),这是一种无监督方法,用于在没有标注真值的情况下对X光血管造影视频中的血管进行分割。DeNVeR利用光流和层分离技术,通过测试时训练提高了分割的准确性和适应性。关键贡献包括一种新颖的层分离自举技术、一种并行血管运动损失,以及整合欧拉运动场来对复杂的血管动力学进行建模。这项研究的一个重要部分是引入了XACV数据集,这是第一个具有高质量手动标注分割真值的X光冠状动脉造影视频数据集。
2025-06-25 09:30:00
7
原创 TCSVT 2025 | 基于目标感知泰勒展开近似的红外与可见光图像融合网络
在图像融合任务中,关键在于生成高质量图像,既能突出关键目标,又能增强场景以利于理解。为完成这一任务,并在生成适用于视觉任务(如目标检测与分割)的融合结果时,提供强大的可解释性与泛化能力,作者提出一种新的可解释分解方案,并开发了一种用于红外与可见光图像融合的目标感知泰勒展开近似(T2EA)网络。该T2EA网络包含以下关键步骤:首先,通过设计的泰勒展开近似(TEA)网络,将可见光和红外图像都分解为特征图。然后,利用双分支特征融合(DBFF)网络对泰勒特征图进行分层融合。
2025-06-25 09:30:00
172
原创 TCSVT 2024 | 基于提示引导的语义感知蒸馏用于弱监督增量语义分割
弱监督增量语义分割(WISS)旨在让深度神经网络仅使用图像级标签逐步学习新类别,同时避免灾难性遗忘。尽管WISS避免了使用代价高昂且耗时的逐像素标注,但图像级标签无法提供新类别位置的详细信息,导致性能不佳。为解决这些问题,作者从零样本学习中获得灵感,利用类别名称作为文本提示对类别间的语义关系进行建模,从而促进类别间的知识迁移。然而,分割数据集中的一些类别名称具有多义性。因此,作者设计了一种新的提示模板,通过添加相应类别的同义词和定义来更好地捕捉语义关系。
2025-06-25 09:30:00
6
转载 为什么我还是学不会 Attention?
今天我们就来一次「去魅化」,从反向传播、矩阵计算、参数更新的角度,聊聊 Attention 到底哪里容易卡住,以及如何搞懂它。但真正的“坑”在于:很多讲解告诉你“Q去和K计算相似度,再用这个相似度加权V”,就戛然而止了,完全没有解释——我建议你从训练一个简化版的 Attention 开始,跑一遍 + 打一遍断点,所有的黑盒就都变成白盒了。你在前向传播里写的“Attention”,会在反向传播时被“拆解成小操作”逐层求导!,阅读和转发量都挺高的,索性继续这个话题,聊聊 Attention。
2025-06-24 15:01:18
4
转载 多模态融合原来这么好发论文?看完我像被“点醒”,太赞啦!
各位如果想快速出成果,不妨从这些角度入手。论文提出FusionSight,通过融合雷达和图像数据,利用ViT提取图像特征,CNN处理雷达数据,并通过FFMT整合特征,实现多模态目标检测和分类,为视障人士提供实时导航辅助。论文提出OGP-Net,通过多视图对比学习和知识蒸馏,融合RGB和IR图像进行语义分割,同时保留模态共享和特定信息,提升多模态和缺失模态场景下的性能。比较火的可解释多模态融合,在原来模型里加个“说明书”,让模型融合文字、图像等数据时,能把决策过程说明白,既提升性能又不“黑箱”。
2025-06-24 15:01:18
17
转载 CVPR 2025 即插即用卷积-自适应矩形卷积!
本图通过四个子图(a、b、c 和 d)直观地展示了四种不同类型卷积核的工作原理,对比了标准卷积、可变形卷积、多尺度卷积以及本文提出的自适应矩形卷积(ARConv)之间的区别和优势。通过动态调整卷积核的高度、宽度和采样点数量,ARConv 能够更好地适应遥感图像中不同大小和形状的目标,从而实现更高效的特征提取和更优的图像融合效果。传统的卷积操作中,卷积核的形状是固定的(通常是正方形),而 ARConv 能够自适应地学习卷积核的高度和宽度,使其能够根据图像中不同物体的大小动态调整卷积核的形状。
2025-06-24 15:01:18
4
原创 TMI‘25 | 通过双重相似性检查提升上下文学习医学图像分割的上下文效果
近期,大型预训练模型中的上下文学习(In-Context Learning, ICL)能力在分割模型的泛化能力方面取得了显著进展。通过提供特定领域的图像-掩码对,ICL模型可以被有效地引导以产生最佳的分割结果,消除了模型微调或交互式提示的必要性。然而,现有的基于ICL的分割模型在应用于具有显著多样性的医学分割数据集时表现出显著的局限性。为了解决这一问题,我们提出了一种双重相似性检查方法,以确保所选上下文样本的有效性,从而在推理过程中最大程度地利用其指导作用。
2025-06-24 09:30:00
9
原创 AAAI 2024 | 从解耦特征查询中学习通用医学图像分割
领域泛化的医学图像分割要求模型从多个源领域学习,并能很好地泛化到任意未见过的目标领域。由于领域偏移问题(即图像是从不同医院和扫描仪采集的),这样的任务在技术上具有挑战性,同时在临床上也很实用。现有的方法要么专注于学习形状不变的表示,要么致力于在源领域之间达成共识。理想的泛化表示应该在跨领域图像的同一通道内显示出相似的模式响应。然而,为了应对显著的分布差异,网络倾向于通过多个通道捕捉相似的模式,同时也允许不同的跨领域模式存在于同一通道中。为了解决这个问题,作者提出利用逐通道解耦的深度特征作为查询。
2025-06-24 09:30:00
10
原创 TCSVT 2025 | 图像金字塔变换器结合信息损失正则化用于一体化图像恢复
一站式图像恢复最近已发展成为低级计算机视觉领域的一个新研究趋势,旨在在一个统一模型中同时处理多种图像退化类型。作为一种典型的多任务学习,现有方法要么侧重于对不同图像恢复任务之间的特异性进行建模,要么侧重于对其共性进行建模。为了充分发挥两者的独特优势,作者提出了一种结合图像金字塔变换器和信息损失正则化的方法(IPT-ILR),其中多尺度架构结构可以同时为多个恢复任务挖掘更多信息,而学习策略可以根据每个恢复任务中的信息损失程度来识别多个恢复任务之间的差异。
2025-06-24 09:30:00
8
原创 ICML 2024 | DiffAug:利用无领域知识的基于扩散的图像增强方法提升无监督对比学习
无监督对比学习在视觉和生物学等领域中日益突出,它借助预先定义的正/负样本进行表征学习。数据增强分为手工设计和基于模型的方法,被视为增强对比学习的关键要素。然而,手工设计的方法需要人类具备特定领域数据的专业知识,且有时会扭曲数据的含义。相比之下,基于生成模型的方法通常需要有监督数据或大规模外部数据,这已成为许多领域中限制模型训练的瓶颈。为解决上述问题,本文提出DiffAug,这是一种新颖的无监督对比学习技术,采用基于扩散模型的正样本数据生成方式。DiffAug由语义编码器和条件扩散模型组成;
2025-06-24 09:30:00
12
转载 CVPR 2025 | CNN:我又活过来了!港大 OverLoCK 重塑即插即用视觉Backbone网络,性能碾压传统模型!
同时,OverLoCK在速度与准确率的平衡上表现出色,如OverLoCK-XT的吞吐量为1672imgs/s ,比Swin-T快300imgs/s以上,Top-1准确率提高1.4%。与强大的基线模型相比,OverLoCK在性能上有显著提升,在速度和精度之间实现了出色的平衡,在多个视觉任务(如图像分类、目标检测和语义分割)中均展现出卓越的性能。OverLoCK-T的mIoU比MogaNet-S和UniRepLKNet-T分别高1.1%和1.7% ,比强调全局建模的VMamba-T高2.3%。
2025-06-23 19:01:34
7
原创 医图论文 Arxiv‘25 | H-Net:一种用于心内导管中同时进行3D力估计和立体语义分割的多任务架构
导管插入手术的成功率与提供给外科医生的感官数据密切相关。基于视觉的深度学习模型可以以无传感器的方式提供触觉和视觉信息,同时生产成本较低。鉴于这些模型在计算资源有限的设备上的复杂性,研究主要集中在分别进行力估计和导管分割。然而,目前缺乏一种能够同时从两个不同角度分割导管并估计3D施加力的综合架构。为了填补这一空白,作者提出了一种新颖的、轻量级的、多输入多输出的基于编码器-解码器的架构。该架构旨在从两个视角分割导管,并同时测量在xxxyyy和zzz方向上的施加力。
2025-06-23 09:30:00
10
原创 TMI 2024 | 面向多医院鼻咽癌肿瘤分割的双参考无源主动域适应方法
鼻咽癌(NPC)是一种主要影响头颈部的常见恶性肿瘤。精确勾画肿瘤的临床靶区(GTV)对于鼻咽癌的有效放疗至关重要。尽管现有的方法在GTV分割方面取得了有希望的结果,但它们在临床实践中仍受到缺乏精心标注的数据和难以获取多医院数据的限制。虽然一些无监督域适应(UDA)方法被提出以缓解这一问题,但无条件地映射分布会扭曲底层结构信息,导致性能不佳。
2025-06-23 09:30:00
14
原创 INFFUS 2025 | LFDT-Fusion: 基于潜在特征引导扩散Transformer的通用图像融合模型
对于图像融合任务,扩散模型在原始分辨率图像上多次迭代进行特征映射的效率较低。为解决这一问题,本文提出了一种用于通用图像融合的高效潜在特征引导扩散模型。该模型由像素空间自动编码器和基于Transformer的紧凑型扩散网络组成。具体而言,像素空间自动编码器是一种基于UNet的新型潜在扩散策略,它通过下采样将输入压缩到低分辨率的潜在空间。同时,跳跃连接将多尺度中间特征从编码器传输到解码器进行解码,从而保留原始输入的高分辨率信息。
2025-06-23 09:30:00
13
原创 ICML 2024 | 基于改进特征匹配Transformer的多尺度特征转移网络用于高光谱图像超分辨率重建
高光谱图像超分辨率重建(HISR)旨在将低分辨率高光谱图像(LR-HSI)与高分辨率多光谱图像(HR-MSI)进行融合,以获得高分辨率高光谱图像(HR-HSI)。由于现有的一些HISR方法忽略了LR-HSI和HR-MSI之间显著的特征差异,重建的HR-HSI通常会出现光谱失真和空间纹理模糊的问题。为了解决这个问题,作者提出了一种用于HISR的多尺度特征转移网络(MFTN)。首先,构建三个多尺度特征提取器,从输入图像中提取不同尺度的特征。
2025-06-23 09:30:00
121
转载 【arXiv 2025】最新!即插即用,加权卷积wConv2D,让传统CNN焕发新生!
给定输入图像尺寸为C×N×N(含C个通道和N×N分辨率)以及F个尺寸为K×K的滤波器,标准卷积的计算成本为O(N²×C×F×K²)。加权卷积通过在传统卷积操作中引入空间密度函数,使网络能够根据像素相对于参考像素的位置进行差异化加权,从而增强了空间特征的表征能力与提取效果。在传统卷积中,所有局部区域的像素对卷积结果的贡献是均等的,而本文提出的加权卷积需要设计一种机制,使得不同位置的像素能够根据其相对位置被赋予不同的权重。密度函数的作用是对每个像素的相对位置进行加权,从而改进传统卷积的空间特征提取能力。
2025-06-22 15:12:11
32
原创 TMM 2024 | 基于二次条件扩散模型的心脏核磁共振图像盲超分辨率重建(DBSR)
心脏磁共振成像(CMRI)可以帮助专家快速诊断心血管疾病。由于患者在磁共振成像扫描过程中的呼吸和轻微移动,所获得的CMRI可能会严重模糊,影响临床诊断的准确性。为了解决这个问题,作者提出了用于盲CMRI超分辨率的二次条件扩散模型(DBSR)。具体来说,作者提出了一种条件模糊核噪声预测器,它通过扩散模型从低分辨率图像中预测模糊核,将低分辨率CMRI中未知的模糊核转化为已知的模糊核。同时,作者设计了一种新颖的条件CMRI噪声预测器,它使用预测的模糊核作为先验知识来指导扩散模型重建高分辨率CMRI。
2025-06-22 09:30:00
13
原创 TMI 2025 | 凸Adam:基于自配置双优化的三维多任务医学图像配准
医学图像数据的配准需要能够精确对齐解剖结构,同时应用平滑且合理变换的方法。理想情况下,这些方法还应运行快速,并适用于各种任务。基于深度学习的图像配准方法通常需要精心设计的学习过程,且需要大量的训练数据。然而,当试图将相同方法应用于不同解剖区域和不同成像模态时,它们往往难以兼顾通用性。在这项工作中,作者提出了一种方法,该方法提取语义或手工制作的图像特征,并使用耦合凸优化,随后进行基于Adam的实例优化,以实现多任务医学图像配准。
2025-06-22 09:30:00
11
Python视觉实战项目31讲.pdf
2020-10-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人