- 博客(338)
- 收藏
- 关注
原创 [2025CVPR-图象超分辨方向]DORNet:面向退化的正则化网络,用于盲深度超分辨率
摘要: DORNet提出了一种新型盲深度超分辨率(DSR)框架,针对真实场景中深度图的未知降级(如传感器噪声、结构失真)进行自适应恢复。其核心创新包括自我监督降级学习策略(无需降级标签建模隐式退化表示)和降级导向融合模块(利用学到的先验选择性融合RGB与深度特征)。实验表明,在RGB-D-D等真实数据集上,DORNet以3.05M参数实现RMSE 3.42cm,优于SFG等现有方法;轻量版DORNet-T在合成数据(NYU-v2)上RMSE仅1.33cm,推理效率提升35%。该框架首次通过隐式降级建模解决了
2025-07-27 21:35:12
684
原创 【2025CVPR-扩散模型方向】TKG-DM:免训练的色度关键内容生成扩散模型
摘要:本文提出TKG-DM,一种无需训练的扩散模型优化方法,通过操控初始噪声实现前景与纯色背景分离。核心创新包括通道均值偏移技术(调整噪声通道均值控制背景色)和高斯掩码融合策略(精确控制前景位置)。实验表明,该方法在FID/m-FID指标上提升超33%,媲美需微调的模型,且支持多前景生成和ControlNet集成。与现有方案相比,TKG-DM无需数据集或微调,在广告设计、视频编辑等需前景分离的场景具有应用潜力。论文同时指出了在复杂背景生成方面的局限性,并提出了未来改进方向。
2025-07-27 09:00:00
689
原创 [2025CVPR:图象合成、生成方向]WF-VAE:通过小波驱动的能量流增强视频 VAE 的潜在视频扩散模型
《WF-VAE:基于小波能量流的视频变分自编码器》提出了一种新型视频压缩方法,通过小波变换分解视频信号并优化能量流路径,显著提升了潜在视频扩散模型(LVDM)的效率。该方法创新性地结合多级小波分析和CausalCache机制,在保持重建质量(PSNR 35.87)的同时,将吞吐量提高2倍、内存消耗降低4倍。实验表明,WF-VAE有效解决了现有方法的高计算成本和潜在空间不连续问题,为大规模视频生成提供了高效解决方案。
2025-07-26 20:09:41
159
原创 [2025CVPR-图象合成、生成方向]ODA-GAN:由弱监督学习辅助的正交解耦比对GAN 虚拟免疫组织化学染色
摘要:论文提出ODA-GAN框架,通过正交特征解耦和弱监督学习解决虚拟免疫组化染色中的关键问题。该方法包含三个核心组件:(1)基于UNI基础模型和Grad-CAM的弱监督分割管道,可在无专家标注下生成语义分割掩码(AUC达0.933);(2)双流对比学习策略(DPNCE),通过样本重划分解决病理一致性问题;(3)多层域对齐模块(MDA)提升染色真实性。在三个基准数据集上的实验表明,ODA-GAN在KID、FID等指标上均优于现有方法,视觉评估也证实其生成结果具有更高的真实性和病理准确性。该框架为虚拟染色提供
2025-07-26 19:55:31
51
原创 [2025CVPR-图象分类方向]CATANet:用于轻量级图像超分辨率的高效内容感知标记聚合
摘要:本文提出CATANet,一种基于内容感知令牌聚合的高效图像超分辨率网络。针对Transformer计算复杂度高的问题,该方法通过共享全局令牌中心并仅在训练阶段更新,结合子组划分策略和双注意力机制(组内自注意力IASA与组间交叉注意力IRCA),在降低计算量的同时有效捕获长距离依赖。实验表明,CATANet在轻量化设计(535K参数)下,PSNR显著提升(最高+0.33dB),推理速度达SPIN的5倍,且适用于移动设备。核心创新包括内容感知令牌聚合模块和双注意力机制,实现了性能与效率的平衡。 (149字
2025-07-25 21:55:59
827
原创 [2025CVPR-图象分类方向]SPARC:用于视觉语言模型中零样本多标签识别的分数提示和自适应融合
本文提出SPARC方法,针对视觉语言模型在零样本多标签识别中的性能瓶颈展开研究。通过分析发现,模型在复合提示下存在"OR-like"行为偏差,导致多标签识别准确率下降。SPARC创新性地提出双重解决方案:首先采用分数标准化技术消除图像级和提示级偏差,使mAP提升6-10%;其次设计复合提示生成与自适应融合策略,通过PCA分析选择第二高分数作为可靠指标,有效捕捉"AND-like"行为。实验表明,该方法在COCO等数据集上平均提升mAP 8-12%,且与现有方法具有良好
2025-07-25 21:37:36
613
原创 WaveToken:基于小波词元化的高效时序预测基础模型
本文提出WaveToken,一种基于小波变换的时间序列离散化方法,用于构建通用预测基础模型。通过多级小波分解、阈值处理和量化,将连续时间序列转化为1024个token的紧凑表示,在保持时频局部化特性的同时简化学习过程。在42个数据集上的实验表明,WaveToken在域内和零样本预测任务中均优于现有方法,尤其在处理非平稳数据和长时预测时表现出色。消融研究验证了小波族选择、词汇量等关键设计。该方法为开发高性能时间序列基础模型提供了新思路,但自回归解码效率有待提升。
2025-07-24 13:26:14
826
原创 [2025LCLR]AutoTCL:用于参数化增强用于时间序列对比学习模型
本文提出AutoTCL框架,通过参数化增强解决时间序列对比学习中的数据增强难题。传统基于预设规则的增强方法难以捕捉时间序列的复杂模式,AutoTCL利用因子化网络和变换网络自适应生成高质量视图,保留语义同时增加多样性。理论证明该方法能提升信息量并保持标签一致性,实验在6个预测和30个分类数据集上验证其优越性,平均MSE降低6.5%,分类准确率达0.742。框架兼容多种编码器,为时间序列表示学习提供了新思路。
2025-07-24 12:42:56
1072
原创 [2025CVPR-小目标检测方向]基于特征信息驱动位置高斯分布估计微小目标检测模型
本文提出了一种名为FIP-GDE的新型框架,用于解决微小目标检测中特征表示弱、区分度低的关键问题。该方法通过像素特征信息建模(PFIM)模块,基于信息熵理论无监督地识别信息量丰富的区域;并创新性地设计了位置高斯分布预测(PGDP)模块,通过动态调整协方差矩阵使微小目标获得更高权重。实验表明,该框架作为即插即用模块,在多个数据集上显著提升了微小目标的检测性能,尤其对2-32像素的目标效果突出,性能超越当前最优方法。核心创新在于直接从像素信息量角度增强特征表示,为微小目标检测提供了新思路。
2025-07-22 23:27:19
960
原创 [2025CVPR]ViKIENet:通过虚拟密钥实例增强网络实现高效的 3D 对象检测
ViKIENet论文摘要:ViKIENet提出一种高效的多模态3D物体检测框架,通过虚拟关键实例(VKIs)解决LiDAR点云稀疏性和传统虚拟点方法的高计算噪声问题。其核心创新包括:1)语义关键实例选择(SKIS),仅提取关键区域的虚拟点,减少90%计算量;2)多阶段融合模块(VIFF),结合BEV与RoI特征增强关键区域;3)深度校准模块(VIRA),抑制深度补全噪声。扩展版ViKIENet-R引入旋转等变特征,平衡精度与效率。实验显示,在KITTI、nuScenes等数据集上,ViKIENet以22.7
2025-07-22 23:05:26
1200
原创 [2024LCLR]MG-TSD:具有引导学习过程的多粒度时间序列扩散融合模型
本文提出MG-TSD模型,通过多粒度引导机制改进时间序列预测中的扩散模型。创新性地利用数据内在粒度层级(1小时→24小时)作为扩散过程约束,通过粗粒度数据正则化采样路径。模型采用共享降噪网络和基于KL散度的共享比率选择策略,在6个数据集上CRPSsum指标平均提升15%。实验证实多粒度引导能稳定预测、捕捉峰值特征,且适用于长期预测。研究揭示了扩散过程与数据平滑的数学关联,为无标签时间序列预测提供了新思路。
2025-07-21 13:00:33
706
原创 [2025CVPR-图象分类方向]基于DVHGNN的图像分类模型
DVHGNN是一种新型视觉架构,通过多尺度超图有效捕捉图像中的高阶相关性,同时降低计算开销。该架构采用多尺度超图构建和动态卷积机制,解决了传统方法(如ViG和ViHGNN)在计算效率和关系建模上的局限性。实验表明,DVHGNN在ImageNet-1K分类(83.1% Top-1准确率)、COCO目标检测(43.3% mAP)和ADE20K语义分割(46.8% mIoU)等任务中均优于现有方法,且计算效率更高(如DVHGNN-S的FLOPs比ViG-S低18%)。这一创新为视觉识别任务提供了更高效且强大的解决
2025-07-21 09:00:00
438
原创 [CVPR]DVFL-Net:用于时空动作识别的轻量级蒸馏视频调焦网络
摘要:本研究提出轻量化视频识别框架DVFL-Net,通过师生蒸馏机制将157M参数的Video-FocalNet压缩至22M。创新性采用时空解耦的焦点调制层替代自注意力,在UCF101等基准上达到88.4%准确率(仅比教师模型低0.5%),计算量降低87.7%(27 vs 220 GFLOPs)。实验表明,该框架在保持时空建模能力的同时显著提升效率,特别适合边缘设备部署,为视频理解任务提供新的轻量化解决方案。
2025-07-20 23:00:52
48
原创 基于卷积傅里叶分析网络 (CFAN)的心电图分类的统一时频方法
本研究提出CFAN架构,创新性地将傅里叶分析嵌入卷积层,通过CONV-FAN模块(含独立权重的正弦/余弦/GELU混合激活)实现端到端时频特征融合。在MIT-BIH(98.95%)、ECG-ID(96.83%)和Apnea-ECG(95.01%)三个ECG分类任务上均超越传统方法(SPECT/CNN1D/FFT1D),验证了周期性激活函数对生物医学信号的有效性。相比频谱图转换方法,CFAN避免了信息丢失,且参数量与1DCNN相当。该工作为时频敏感型信号处理提供了新范式,具有扩展至脑电、语音等领域的潜力。
2025-07-20 22:47:49
1014
原创 FAN-UNET:用于生物医学图像分割增强模型
本文提出FAN-UNet模型,通过结合傅里叶分析层(FANLayer2D)与自注意力机制,创新性地解决了医疗图像分割中的长程依赖和周期性建模问题。研究采用经典论文结构,详细阐述了Vision-FANBlock模块的设计原理,该模块能同时捕捉全局和周期性特征。在ISIC2017/2018数据集上的实验表明,FAN-UNet在mIoU(78.99%)、DSC(88.25%)等指标上优于主流模型,且通过消融实验验证了核心组件的有效性。该模型特别适用于皮肤病变、肿瘤分析等具有周期性纹理特征的医疗图像分割任务,展现了
2025-07-20 22:36:12
1093
原创 [故障诊断方向]基于二维时频图像和数据增强技术的轴承故障诊断模型
本文提出了一种基于连续小波变换(CWT)和生成对抗网络(GANs-QP)的轴承故障诊断方法。针对传统方法在特征提取和样本生成质量上的不足,创新性地将一维振动信号转换为二维时频图像,并采用QP-Div损失函数提升生成样本的真实性。实验表明,在CWRU标准数据集和实验室真实数据集上,该方法分别达到99.29%和99.35%的诊断准确率,显著优于传统数据增强方法。通过CWT-GANs-QP-CNN的端到端框架,有效解决了小样本条件下的过拟合问题,为旋转机械故障诊断提供了新思路。核心代码基于PyTorch实现,包含
2025-07-19 23:17:15
954
原创 [故障诊断方向]SNNs:针对小样本轴承故障诊断的孪生神经网络模型
本文提出一种基于孪生神经网络(SNN)与多源特征融合的电机轴承故障诊断方法,有效解决工业场景中的小样本和数据不平衡问题。方法创新包括:1)设计多阶段训练策略缓解SNN训练停滞问题;2)构建多尺度卷积模块增强特征提取能力;3)开发注意力机制实现多传感器特征融合。实验表明,在样本高度不平衡(10:1)时,该方法在公开和实验室数据集上的准确率分别达94%和93%,显著优于传统方法。核心贡献在于提供了一种鲁棒性强、可扩展的小样本故障诊断框架,并为多源数据融合提供了新思路。未来工作将探索更优化的参数调校方法和极端场景
2025-07-19 22:59:27
798
原创 [2025CVPR-目标检测方向] CorrBEV:多视图3D物体检测
本文提出CorrBEV框架,针对自动驾驶中多视图3D物体检测的遮挡问题,通过引入视觉和语言原型作为先验知识来补偿特征损失。该即插即用框架包含多模态原型生成器、相关引导查询学习器和遮挡感知训练器,采用深度相关操作实现高效知识融合。实验表明,CorrBEV在nuScenes数据集上显著提升基准模型性能(BEVFormer提升2.6%mAP),尤其对低可见性物体召回率提升8.7%,同时增强雪天等恶劣场景的鲁棒性。该方法为自动驾驶安全提供了有效的遮挡问题解决方案。
2025-07-18 22:57:18
1115
原创 [2025CVPR-目标检测方向]FSHNet:一种用于3D物体检测的全稀疏混合网络。
FSHNet是一种创新的全稀疏混合网络,用于解决3D物体检测中的长距离交互弱和中心特征缺失问题。该网络结合稀疏卷积的高效性和注意力机制的全局交互能力,通过SlotFormer块实现无限长距离交互,采用动态稀疏标签分配优化训练,并引入稀疏上采样模块增强细节。在Waymo、nuScenes和Argoverse2数据集上均达到SOTA性能,显著提升了大物体和小物体的检测精度。
2025-07-18 22:48:51
1123
原创 [2025CVPR-目标检测方向]SET:用于微小物体检测的光谱增强
本文提出SET框架解决微小目标检测难题。研究发现高频背景噪声是导致微小目标检测性能差的主要原因,通过频域分析发现抑制背景高频噪声可提升AP达15%。SET采用异构架构:分层背景平滑模块(HBS)通过自适应滤波抑制背景噪声,对抗扰动注入模块(API)增强目标特征显著性。实验表明,在AI-TOD等4个数据集上,SET将FCOS等检测器的微小目标AP最高提升3.2%,推理成本仅增加1%。该方法为自动驾驶等场景的微小目标检测提供了有效解决方案。
2025-07-17 10:00:00
2591
原创 [2025CVPR-图象检索方向]CCIN:用于合成图像检索的合成冲突识别和中和模型
本文提出了一种新的组合图像检索(CIR)框架CCIN,用于解决多模态查询中的组合冲突问题。该框架包含冲突识别(CCI)和冲突中和(CCN)两个核心模块:CCI利用大型语言模型显式识别参考图像与修改指令间的冲突属性;CCN通过双重指令机制分离并融合非冲突特征。实验表明,CCIN在FashionIQ、CIRR和Shoes数据集上的检索性能显著优于现有方法,平均Recall@K提升达2.44%。该工作首次系统化解决了CIR中的组合冲突问题,为多模态检索提供了新思路。
2025-07-16 22:08:10
972
1
原创 [2025CVPR-图像检索方向] COBRA:一种用于小样本自适应检索增强模型
本文提出COBRA(组合检索增强)方法,通过组合互信息优化框架解决少样本学习中的检索冗余问题。相比传统相似性检索,COBRA引入多样性指标,使用设施位置互信息(FLMI)和软类平衡约束,从大型辅助数据集中高效检索高质量样本。实验表明,在ImageNet等数据集上,COBRA在1-16样本设置下平均准确率提升0.4%-1.2%,且适配多种少样本学习技术。该方法为数据稀缺场景提供了有效的检索增强方案。
2025-07-16 21:55:06
954
原创 基于多源时序特征卷积网络(MSTFCN)的光伏功率预测模型
摘要: 针对光伏发电功率预测中气象波动导致的样本不足和时序建模难题,本研究提出复合数据增强(Composite Data Augmentation)与多源时序特征卷积网络(MSTFCN)的协同方法。通过XGBoost重构关键气象特征并筛选历史相似样本生成预测数据(FMD),增强时序关联性;MSTFCN结合并行卷积、通道注意力及时序分割模块,有效提取多源特征。实验表明,该方法在河北10个电站数据上显著优于基准模型(RMSE降低3.06%,日均准确率超93%),尤其缓解了峰值时段误差累积问题。未来需优化低发电时
2025-07-16 21:40:01
57
原创 基于渐进式迁移学习网络(PTLN)的小样本故障诊断模型
摘要:针对工业旋转机械故障诊断中标记数据稀缺、工况多变的问题,本文提出渐进式迁移学习网络(PTLN)。通过双路径特征提取器与三级域判别器实现跨域特征渐进对齐,结合多核聚类生成伪标签,解决了小样本无标签场景下的诊断难题。在轴承和齿轮数据集上平均精度达93.56%和90.28%,较最优对比模型提升4.12%和3%。实验验证了方法的鲁棒性和特征可解释性,为工业设备智能维护提供了有效解决方案。
2025-07-16 21:29:07
71
原创 DGNNet:基于双图神经网络的少样本故障诊断学习模型
本文提出了一种基于双图神经网络(DGNNet)的小样本故障诊断方法,针对工业场景中故障数据稀缺的问题。DGNNet通过整合实例级(样本间成对关系)和分布级(高阶统计关系)的双重图结构,采用交替更新策略进行协同优化。实验在CWRU、MFPT和工业OCB数据集上验证了其有效性,1-shot和5-shot任务中准确率最高提升12%(监督任务达99.81%,半监督任务达100%)。消融研究表明,4次生成交替更新和Ranger21优化器能实现最佳性能。该方法为数据稀缺的故障诊断提供了新思路,未来可扩展至预测性维护等应
2025-07-15 21:28:33
310
原创 零样本轴承故障诊断SC - GAN模型
本文提出了一种基于健康-故障关系模型的工业设备零样本故障诊断方法。针对传统方法在新工况下需大量标注故障数据的痛点,该方法仅需源工况完整数据和目标工况健康数据,通过双阶段创新实现诊断:1)SC-GAN生成目标工况故障数据(加入稀疏和相关性约束);2)MMD域适应实现特征对齐。实验表明,在PDU和CWRU数据集上平均准确率达93%,工况变化时精度仅下降1.25%。该方法已成功应用于风电、机床等场景,显著降低数据采集成本,为工业设备智能运维提供了新思路。
2025-07-15 21:10:58
30
原创 [2025CVPR]DenoiseCP-Net:恶劣天气下基于LiDAR的高效集体感知模型
《恶劣天气下自动驾驶集体感知的去噪协同网络研究》摘要:本文提出DenoiseCP-Net创新架构,通过多任务网络同步处理感知数据去噪与目标检测。采用物理级天气模拟引擎(涵盖雨雪雾模型)和动态带宽优化机制,在OPV2V扩展数据集上验证显示:浓雾场景保持96%噪声识别率,检测精度损失<3%,极端天气带宽降低最高达62.3%。核心突破包括共享主干网络减少60%计算负载、散射操作实现异构特征融合,以及兼容现有V2X标准的部署方案。研究成果为车路协同系统在恶劣天气下的可靠感知提供了有效解决方案。
2025-07-13 23:28:15
53
原创 [2025CVPR]GNN-ViTCap:用于病理图像分类与描述模型
本文提出GNN-ViTCap框架,通过三大创新点改进病理图像分析:1)注意力增强的深度嵌入聚类消除30%冗余图像;2)图神经网络聚合解决显微镜图像无坐标难题;3)视觉-语言联合建模融合专业LLMs。实验表明,该方法在BreakHis和PatchGastric数据集上取得突破性提升,分类AUC达0.963,描述生成BLEU-4达0.811,显著优于现有技术。研究为智能病理诊断、医学教育和药物研发提供了新思路,未来将优化算法以适应临床落地需求。
2025-07-13 23:22:38
153
原创 [2025CVPR最佳论文提名]Navigation World Model(NWM):用扩散Transformer构建视觉导航的“数字孪生”
本文提出导航世界模型(NWM),通过条件扩散Transformer(CDiT)解决传统视觉导航的行为固化和资源分配问题。CDiT采用多模态嵌入和跨帧注意力机制,将计算复杂度降低75%,支持动态约束注入和轨迹规划。实验表明,NWM在16秒长视频预测中PSNR提升2.1dB,导航任务绝对轨迹误差降低42%,未知环境探索成功率提高12%。应用场景包括灾难救援、自动驾驶仿真和VR导览,其中约束规划达标率达98%。该模型实现了物理世界建模的新范式,代码已开源。
2025-07-11 17:08:18
190
原创 [2025CVPR]STAtten:脉冲时空注意力Transformer
本文提出脉冲时空注意力Transformer(STAtten),解决脉冲神经网络中时空注意力计算效率低的问题。通过分块计算机制(降低1.6倍内存)和无Softmax设计,在CIFAR100-DVS上达到83.9%准确率(提升1.0%)。分析表明时空融合使注意力熵值降低19%,特征表征更高效。实验证明该方法在无人机视觉(延迟<8ms)和脑机接口(误报率降32%)中具有应用潜力,且不增加额外能耗(21.46mJ)。代码和预训练模型已开源。
2025-07-11 16:33:01
125
原创 [2025CVPR]CCFS:高IPC数据集蒸馏的课程式粗细筛选技术解析
【摘要】本研究针对数据集蒸馏在高IPC场景的性能衰减问题,提出课程式粗细筛选(CCFS)方法。创新点在于:1)动态课程框架渐进整合真实数据,解决传统固定选择导致的兼容性问题;2)两阶段筛选机制(先粗筛未掌握样本,再细选简单样本)提升特征补充效率。实验表明,在Tiny-ImageNet上实现20%压缩比仅损失0.3%精度,比现有方法提升3.4%。该方法在边缘设备部署、联邦学习等场景展现出显著优势,代码与模型已开源。局限包括难度分数依赖预计算等,未来将探索自适应课程机制。
2025-07-10 23:27:19
319
原创 [2025CVPR最佳学生论文提名]DVHGNN:多尺度扩张超图神经网络
摘要:本文提出扩张视觉超图神经网络(DVHGNN),以解决传统视觉模型在复杂物体关系建模中的局限性。通过多尺度扩张超图构建(DHGC)和动态超图卷积(DHConv),DVHGNN有效捕捉高阶关联,同时降低计算复杂度。实验表明,该模型在ImageNet-1K达到83.1%准确率(比ViG-S提升1.4%),FLOPs减少18%,并在目标检测和医学图像分析中展现出优越性能,为工业质检和自动驾驶等场景提供高效解决方案。
2025-07-10 00:02:15
325
原创 [2025CVPR]Mr. DETR:检测Transformer的多路由指导训练解析
本文提出了一种创新的多路由训练框架Mr.DETR,用于解决DETR系列模型训练收敛慢的问题。该方法包含主路由(一对一)和两个辅助路由(一对多),通过指导性自注意力机制引入可学习指令token来引导查询。实验表明,该方法在12轮训练内即可达到SOTA性能,COCO数据集上mAP提升2.5%,同时保持推理效率(辅助路由仅训练时使用)。该框架可扩展到实例分割等任务,在无人机跟踪、工业质检等场景展现出应用价值。核心优势在于显著加速训练收敛(提升2倍)且不增加推理开销,代码已开源供复现使用。
2025-07-09 23:55:30
87
原创 [2025CVPR]SGC-Net:开放词汇人机交互检测的分层粒度比较网络解析
本文提出首个分层粒度比较网络SGC-Net,用于开放词汇人机交互检测。针对CLIP特征粒度缺失和语义混淆问题,创新设计粒度感知对齐模块(GSA)进行多粒度特征融合,以及LLM驱动的层次化分组比较模块(HGC)优化语义边界。在SWIG-HOI和HICO-DET数据集上,Unseen类别检测性能提升39.3%,推理速度达32FPS。该方法可应用于智能监控、人机协作等场景,为开放世界交互理解提供新范式。论文代码已开源,包含400动作/1000物体的SWIG-HOI数据集。
2025-07-08 23:36:03
818
原创 [2025CVPR最佳学生论文]Neural Inverse Rendering from Propagating Light
本文提出首个多视角传播光的神经逆渲染系统,通过时间分辨辐射缓存、可微渲染方程和物理约束优化三大创新技术,解决了传统LiDAR忽略间接光的缺陷。系统采用哈希编码存储场景辐射分布,分离计算直接光和神经预测间接光,建模光脉冲传播过程。实验验证在仿真和真实数据中均优于现有方法(PSNR 30.99,法向误差8.45°)。应用包括瞬态重光照、材质分解和非视域成像,其中非视域重建精度达89%。该方法使强间接光场景的几何误差降低72%,计算效率提升23倍,但存在硬件依赖SPAD传感器和计算耗时(>24小时/A100
2025-07-08 23:29:27
1126
原创 [2025CVPR]LS-BiorUwU:双正交可调小波单元,提升CNN性能的革新架构
摘要:本文提出基于提升方案的双正交可调小波单元(LS-BiorUwU),突破传统小波的正交性与滤波器长度限制,有效解决CNN池化层的高频细节丢失问题。通过2阶提升步构建的双正交滤波器在CIFAR-10和DTD数据集分类任务中分别取得2.12%和9.73%的准确率提升,在MVTecAD异常检测任务中SegAUROC达97.21%。该单元兼容ResNet架构,计算复杂度与标准池化相当,为高频敏感任务提供了新的特征提取范式。
2025-07-06 17:48:12
891
原创 [2025CVPR]MobileIE:一种移动端实时图像增强的极致轻量化模型
摘要:MobileIE提出了一种创新的轻量化图像增强模型,通过多分支重参数化卷积(MBRConv)、特征自变换(FST)和分层双路径注意力(HDPA)三大核心模块,在仅4K参数量的条件下实现了1120FPS的推理速度。该模型采用训练-推理解耦设计,训练时保留多分支结构增强特征多样性,推理时自动融合为单卷积;结合增量权重优化和局部方差加权损失等技术,在低光增强(LOLv1)和水下增强(UIEB)任务上均达到SOTA性能。MobileIE的硬件友好设计支持INT8量化,内存占用减少30%,为移动端实时图像处理提
2025-07-06 17:36:16
1016
1
原创 [2025CVPR]基于双向域自适应(BiDA)的跨域高光谱图像分类模型
本文提出一种双向领域自适应(BiDA)框架,用于解决高光谱图像跨域分类中的光谱偏移问题。核心创新包括:1)三支路Transformer架构(源分支、目标分支和耦合分支),通过双向交叉注意力实现特征对齐;2)语义分词器生成紧凑语义令牌;3)双向蒸馏损失和自适应强化策略提升模型鲁棒性。实验表明,BiDA在跨时序/场景数据集上比现有方法提升3%-5%分类准确率。该框架为高光谱图像跨域分类提供了有效解决方案。
2025-07-06 17:16:21
605
原创 [2025CVPR]一种新颖的视觉与记忆双适配器(Visual and Memory Dual Adapter, VMDA)
本文提出了一种创新的视觉与记忆双适配器(VMDA)多模态目标跟踪方法,通过频率引导的多模态融合模块和多级记忆适配器,显著提升了跟踪性能。VMDA框架包含ViT骨干网络、视觉适配器、记忆适配器和预测头四个组件,其中视觉适配器首次联合建模频域、空间和通道特征,而记忆适配器借鉴人类记忆机制实现全局时间线索传播。在RGB-T、RGB-D和RGB-E三个主流数据集上的实验表明,该方法在精度和成功率等指标上均优于现有技术,验证了其有效性。
2025-07-06 17:11:26
621
原创 [2025CVPR]ESC-Net:一种开放词汇语义分割模型
摘要: ESC-Net提出了一种高效的开放词汇语义分割方法,通过结合CLIP的全局特征和SAM的局部建模能力,解决了传统两阶段方法效率低、域偏移等问题。其核心包括伪提示生成器(PPG)和视觉语言融合(VLF)模块,利用CLIP提取特征并生成类特定提示,通过SAM块进行空间聚合,实现精准分割。实验表明,ESC-Net在多个数据集上性能显著提升(如ADE20K mIoU达59.0),且能生成更密集的掩码。未来可优化提示生成策略或动态调整SAM块数量以进一步提升效果。
2025-07-05 11:00:00
898
基于Hive的大数据分析与智能分类推荐系统-多媒体作品集管理解决方案
2025-01-15
神经网络源码-GoogLeNet源码
2024-11-22
神经网络源码+AlexNet模型源码+人工智能
2024-11-22
人工智能KAN神经网络+python代码
2024-11-22
基于PyTorch的故障检测CNN模型训练与应用
2024-11-22
基于一维CNN和LSTM的融合网络用于时间序列数据的预测分类
2024-10-19
机器学习基于鸢尾花数据集的决策树与随机森林分类模型对比:特征工程、模型训练及性能评估
2025-04-28
医学领域基于CatBoost与贝叶斯优化的高原脑水肿风险预测模型研究:多模态数据挖掘与性能评估
2025-04-28
【软件工程、计算机专业】基于Java SSM的图书管理系统开发与实现:需求分析、架构设计及性能优化摘要
2025-04-28
【无人机识别技术】基于射频信号与改进视觉Transformer的无人机检测与识别系统设计
2025-04-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人