清风AI-CSDN博客

原创 [2025CVPR-图象超分辨方向]DORNet：面向退化的正则化网络，用于盲深度超分辨率

摘要： DORNet提出了一种新型盲深度超分辨率（DSR）框架，针对真实场景中深度图的未知降级（如传感器噪声、结构失真）进行自适应恢复。其核心创新包括自我监督降级学习策略（无需降级标签建模隐式退化表示）和降级导向融合模块（利用学到的先验选择性融合RGB与深度特征）。实验表明，在RGB-D-D等真实数据集上，DORNet以3.05M参数实现RMSE 3.42cm，优于SFG等现有方法；轻量版DORNet-T在合成数据（NYU-v2）上RMSE仅1.33cm，推理效率提升35%。该框架首次通过隐式降级建模解决了

2025-07-27 21:35:12 684

原创【2025CVPR-扩散模型方向】TKG-DM：免训练的色度关键内容生成扩散模型

摘要：本文提出TKG-DM，一种无需训练的扩散模型优化方法，通过操控初始噪声实现前景与纯色背景分离。核心创新包括通道均值偏移技术（调整噪声通道均值控制背景色）和高斯掩码融合策略（精确控制前景位置）。实验表明，该方法在FID/m-FID指标上提升超33%，媲美需微调的模型，且支持多前景生成和ControlNet集成。与现有方案相比，TKG-DM无需数据集或微调，在广告设计、视频编辑等需前景分离的场景具有应用潜力。论文同时指出了在复杂背景生成方面的局限性，并提出了未来改进方向。

2025-07-27 09:00:00 689

原创 [2025CVPR:图象合成、生成方向]WF-VAE：通过小波驱动的能量流增强视频 VAE 的潜在视频扩散模型

《WF-VAE：基于小波能量流的视频变分自编码器》提出了一种新型视频压缩方法，通过小波变换分解视频信号并优化能量流路径，显著提升了潜在视频扩散模型（LVDM）的效率。该方法创新性地结合多级小波分析和CausalCache机制，在保持重建质量（PSNR 35.87）的同时，将吞吐量提高2倍、内存消耗降低4倍。实验表明，WF-VAE有效解决了现有方法的高计算成本和潜在空间不连续问题，为大规模视频生成提供了高效解决方案。

2025-07-26 20:09:41 159

原创 [2025CVPR-图象合成、生成方向]ODA-GAN：由弱监督学习辅助的正交解耦比对GAN 虚拟免疫组织化学染色

摘要：论文提出ODA-GAN框架，通过正交特征解耦和弱监督学习解决虚拟免疫组化染色中的关键问题。该方法包含三个核心组件：(1)基于UNI基础模型和Grad-CAM的弱监督分割管道，可在无专家标注下生成语义分割掩码（AUC达0.933）；(2)双流对比学习策略（DPNCE），通过样本重划分解决病理一致性问题；(3)多层域对齐模块（MDA）提升染色真实性。在三个基准数据集上的实验表明，ODA-GAN在KID、FID等指标上均优于现有方法，视觉评估也证实其生成结果具有更高的真实性和病理准确性。该框架为虚拟染色提供

2025-07-26 19:55:31 51

原创 [2025CVPR-图象分类方向]CATANet：用于轻量级图像超分辨率的高效内容感知标记聚合

摘要：本文提出CATANet，一种基于内容感知令牌聚合的高效图像超分辨率网络。针对Transformer计算复杂度高的问题，该方法通过共享全局令牌中心并仅在训练阶段更新，结合子组划分策略和双注意力机制（组内自注意力IASA与组间交叉注意力IRCA），在降低计算量的同时有效捕获长距离依赖。实验表明，CATANet在轻量化设计（535K参数）下，PSNR显著提升（最高+0.33dB），推理速度达SPIN的5倍，且适用于移动设备。核心创新包括内容感知令牌聚合模块和双注意力机制，实现了性能与效率的平衡。（149字

2025-07-25 21:55:59 827

原创 [2025CVPR-图象分类方向]SPARC:用于视觉语言模型中零样本多标签识别的分数提示和自适应融合

本文提出SPARC方法，针对视觉语言模型在零样本多标签识别中的性能瓶颈展开研究。通过分析发现，模型在复合提示下存在"OR-like"行为偏差，导致多标签识别准确率下降。SPARC创新性地提出双重解决方案：首先采用分数标准化技术消除图像级和提示级偏差，使mAP提升6-10%；其次设计复合提示生成与自适应融合策略，通过PCA分析选择第二高分数作为可靠指标，有效捕捉"AND-like"行为。实验表明，该方法在COCO等数据集上平均提升mAP 8-12%，且与现有方法具有良好

2025-07-25 21:37:36 613

原创 WaveToken：基于小波词元化的高效时序预测基础模型

本文提出WaveToken，一种基于小波变换的时间序列离散化方法，用于构建通用预测基础模型。通过多级小波分解、阈值处理和量化，将连续时间序列转化为1024个token的紧凑表示，在保持时频局部化特性的同时简化学习过程。在42个数据集上的实验表明，WaveToken在域内和零样本预测任务中均优于现有方法，尤其在处理非平稳数据和长时预测时表现出色。消融研究验证了小波族选择、词汇量等关键设计。该方法为开发高性能时间序列基础模型提供了新思路，但自回归解码效率有待提升。

2025-07-24 13:26:14 826

原创 [2025LCLR]AutoTCL:用于参数化增强用于时间序列对比学习模型

本文提出AutoTCL框架，通过参数化增强解决时间序列对比学习中的数据增强难题。传统基于预设规则的增强方法难以捕捉时间序列的复杂模式，AutoTCL利用因子化网络和变换网络自适应生成高质量视图，保留语义同时增加多样性。理论证明该方法能提升信息量并保持标签一致性，实验在6个预测和30个分类数据集上验证其优越性，平均MSE降低6.5%，分类准确率达0.742。框架兼容多种编码器，为时间序列表示学习提供了新思路。

2025-07-24 12:42:56 1072

原创 [2025CVPR-小目标检测方向]基于特征信息驱动位置高斯分布估计微小目标检测模型

本文提出了一种名为FIP-GDE的新型框架，用于解决微小目标检测中特征表示弱、区分度低的关键问题。该方法通过像素特征信息建模（PFIM）模块，基于信息熵理论无监督地识别信息量丰富的区域；并创新性地设计了位置高斯分布预测（PGDP）模块，通过动态调整协方差矩阵使微小目标获得更高权重。实验表明，该框架作为即插即用模块，在多个数据集上显著提升了微小目标的检测性能，尤其对2-32像素的目标效果突出，性能超越当前最优方法。核心创新在于直接从像素信息量角度增强特征表示，为微小目标检测提供了新思路。

2025-07-22 23:27:19 960

原创 [2025CVPR]ViKIENet：通过虚拟密钥实例增强网络实现高效的 3D 对象检测

ViKIENet论文摘要：ViKIENet提出一种高效的多模态3D物体检测框架，通过虚拟关键实例（VKIs）解决LiDAR点云稀疏性和传统虚拟点方法的高计算噪声问题。其核心创新包括：1）语义关键实例选择（SKIS），仅提取关键区域的虚拟点，减少90%计算量；2）多阶段融合模块（VIFF），结合BEV与RoI特征增强关键区域；3）深度校准模块（VIRA），抑制深度补全噪声。扩展版ViKIENet-R引入旋转等变特征，平衡精度与效率。实验显示，在KITTI、nuScenes等数据集上，ViKIENet以22.7

2025-07-22 23:05:26 1200

原创 [2024LCLR]MG-TSD:具有引导学习过程的多粒度时间序列扩散融合模型

本文提出MG-TSD模型，通过多粒度引导机制改进时间序列预测中的扩散模型。创新性地利用数据内在粒度层级（1小时→24小时）作为扩散过程约束，通过粗粒度数据正则化采样路径。模型采用共享降噪网络和基于KL散度的共享比率选择策略，在6个数据集上CRPSsum指标平均提升15%。实验证实多粒度引导能稳定预测、捕捉峰值特征，且适用于长期预测。研究揭示了扩散过程与数据平滑的数学关联，为无标签时间序列预测提供了新思路。

2025-07-21 13:00:33 706

原创 [2025CVPR-图象分类方向]基于DVHGNN的图像分类模型

DVHGNN是一种新型视觉架构，通过多尺度超图有效捕捉图像中的高阶相关性，同时降低计算开销。该架构采用多尺度超图构建和动态卷积机制，解决了传统方法（如ViG和ViHGNN）在计算效率和关系建模上的局限性。实验表明，DVHGNN在ImageNet-1K分类（83.1% Top-1准确率）、COCO目标检测（43.3% mAP）和ADE20K语义分割（46.8% mIoU）等任务中均优于现有方法，且计算效率更高（如DVHGNN-S的FLOPs比ViG-S低18%）。这一创新为视觉识别任务提供了更高效且强大的解决

2025-07-21 09:00:00 438

原创 [CVPR]DVFL-Net：用于时空动作识别的轻量级蒸馏视频调焦网络

摘要：本研究提出轻量化视频识别框架DVFL-Net，通过师生蒸馏机制将157M参数的Video-FocalNet压缩至22M。创新性采用时空解耦的焦点调制层替代自注意力，在UCF101等基准上达到88.4%准确率（仅比教师模型低0.5%），计算量降低87.7%（27 vs 220 GFLOPs）。实验表明，该框架在保持时空建模能力的同时显著提升效率，特别适合边缘设备部署，为视频理解任务提供新的轻量化解决方案。

2025-07-20 23:00:52 48

原创基于卷积傅里叶分析网络（CFAN）的心电图分类的统一时频方法

本研究提出CFAN架构，创新性地将傅里叶分析嵌入卷积层，通过CONV-FAN模块（含独立权重的正弦/余弦/GELU混合激活）实现端到端时频特征融合。在MIT-BIH（98.95%）、ECG-ID（96.83%）和Apnea-ECG（95.01%）三个ECG分类任务上均超越传统方法（SPECT/CNN1D/FFT1D），验证了周期性激活函数对生物医学信号的有效性。相比频谱图转换方法，CFAN避免了信息丢失，且参数量与1DCNN相当。该工作为时频敏感型信号处理提供了新范式，具有扩展至脑电、语音等领域的潜力。

2025-07-20 22:47:49 1014

原创 FAN-UNET：用于生物医学图像分割增强模型

本文提出FAN-UNet模型，通过结合傅里叶分析层（FANLayer2D）与自注意力机制，创新性地解决了医疗图像分割中的长程依赖和周期性建模问题。研究采用经典论文结构，详细阐述了Vision-FANBlock模块的设计原理，该模块能同时捕捉全局和周期性特征。在ISIC2017/2018数据集上的实验表明，FAN-UNet在mIoU（78.99%）、DSC（88.25%）等指标上优于主流模型，且通过消融实验验证了核心组件的有效性。该模型特别适用于皮肤病变、肿瘤分析等具有周期性纹理特征的医疗图像分割任务，展现了

2025-07-20 22:36:12 1093

原创 [故障诊断方向]基于二维时频图像和数据增强技术的轴承故障诊断模型

本文提出了一种基于连续小波变换（CWT）和生成对抗网络（GANs-QP）的轴承故障诊断方法。针对传统方法在特征提取和样本生成质量上的不足，创新性地将一维振动信号转换为二维时频图像，并采用QP-Div损失函数提升生成样本的真实性。实验表明，在CWRU标准数据集和实验室真实数据集上，该方法分别达到99.29%和99.35%的诊断准确率，显著优于传统数据增强方法。通过CWT-GANs-QP-CNN的端到端框架，有效解决了小样本条件下的过拟合问题，为旋转机械故障诊断提供了新思路。核心代码基于PyTorch实现，包含

2025-07-19 23:17:15 954

原创 [故障诊断方向]SNNs：针对小样本轴承故障诊断的孪生神经网络模型

本文提出一种基于孪生神经网络（SNN）与多源特征融合的电机轴承故障诊断方法，有效解决工业场景中的小样本和数据不平衡问题。方法创新包括：1）设计多阶段训练策略缓解SNN训练停滞问题；2）构建多尺度卷积模块增强特征提取能力；3）开发注意力机制实现多传感器特征融合。实验表明，在样本高度不平衡（10:1）时，该方法在公开和实验室数据集上的准确率分别达94%和93%，显著优于传统方法。核心贡献在于提供了一种鲁棒性强、可扩展的小样本故障诊断框架，并为多源数据融合提供了新思路。未来工作将探索更优化的参数调校方法和极端场景

2025-07-19 22:59:27 798

原创 [2025CVPR-目标检测方向] CorrBEV：多视图3D物体检测

本文提出CorrBEV框架，针对自动驾驶中多视图3D物体检测的遮挡问题，通过引入视觉和语言原型作为先验知识来补偿特征损失。该即插即用框架包含多模态原型生成器、相关引导查询学习器和遮挡感知训练器，采用深度相关操作实现高效知识融合。实验表明，CorrBEV在nuScenes数据集上显著提升基准模型性能（BEVFormer提升2.6%mAP），尤其对低可见性物体召回率提升8.7%，同时增强雪天等恶劣场景的鲁棒性。该方法为自动驾驶安全提供了有效的遮挡问题解决方案。

2025-07-18 22:57:18 1115

原创 [2025CVPR-目标检测方向]FSHNet：一种用于3D物体检测的全稀疏混合网络。

FSHNet是一种创新的全稀疏混合网络，用于解决3D物体检测中的长距离交互弱和中心特征缺失问题。该网络结合稀疏卷积的高效性和注意力机制的全局交互能力，通过SlotFormer块实现无限长距离交互，采用动态稀疏标签分配优化训练，并引入稀疏上采样模块增强细节。在Waymo、nuScenes和Argoverse2数据集上均达到SOTA性能，显著提升了大物体和小物体的检测精度。

2025-07-18 22:48:51 1123

原创 [2025CVPR-目标检测方向]SET：用于微小物体检测的光谱增强

本文提出SET框架解决微小目标检测难题。研究发现高频背景噪声是导致微小目标检测性能差的主要原因，通过频域分析发现抑制背景高频噪声可提升AP达15%。SET采用异构架构：分层背景平滑模块(HBS)通过自适应滤波抑制背景噪声，对抗扰动注入模块(API)增强目标特征显著性。实验表明，在AI-TOD等4个数据集上，SET将FCOS等检测器的微小目标AP最高提升3.2%，推理成本仅增加1%。该方法为自动驾驶等场景的微小目标检测提供了有效解决方案。

2025-07-17 10:00:00 2591

原创 [2025CVPR-图象检索方向]CCIN：用于合成图像检索的合成冲突识别和中和模型

本文提出了一种新的组合图像检索（CIR）框架CCIN，用于解决多模态查询中的组合冲突问题。该框架包含冲突识别（CCI）和冲突中和（CCN）两个核心模块：CCI利用大型语言模型显式识别参考图像与修改指令间的冲突属性；CCN通过双重指令机制分离并融合非冲突特征。实验表明，CCIN在FashionIQ、CIRR和Shoes数据集上的检索性能显著优于现有方法，平均Recall@K提升达2.44%。该工作首次系统化解决了CIR中的组合冲突问题，为多模态检索提供了新思路。

2025-07-16 22:08:10 972 1

原创 [2025CVPR-图像检索方向] COBRA：一种用于小样本自适应检索增强模型

本文提出COBRA（组合检索增强）方法，通过组合互信息优化框架解决少样本学习中的检索冗余问题。相比传统相似性检索，COBRA引入多样性指标，使用设施位置互信息(FLMI)和软类平衡约束，从大型辅助数据集中高效检索高质量样本。实验表明，在ImageNet等数据集上，COBRA在1-16样本设置下平均准确率提升0.4%-1.2%，且适配多种少样本学习技术。该方法为数据稀缺场景提供了有效的检索增强方案。

2025-07-16 21:55:06 954

原创基于多源时序特征卷积网络（MSTFCN）的光伏功率预测模型

摘要：针对光伏发电功率预测中气象波动导致的样本不足和时序建模难题，本研究提出复合数据增强（Composite Data Augmentation）与多源时序特征卷积网络（MSTFCN）的协同方法。通过XGBoost重构关键气象特征并筛选历史相似样本生成预测数据（FMD），增强时序关联性；MSTFCN结合并行卷积、通道注意力及时序分割模块，有效提取多源特征。实验表明，该方法在河北10个电站数据上显著优于基准模型（RMSE降低3.06%，日均准确率超93%），尤其缓解了峰值时段误差累积问题。未来需优化低发电时

2025-07-16 21:40:01 57

原创基于渐进式迁移学习网络（PTLN）的小样本故障诊断模型

摘要：针对工业旋转机械故障诊断中标记数据稀缺、工况多变的问题，本文提出渐进式迁移学习网络（PTLN）。通过双路径特征提取器与三级域判别器实现跨域特征渐进对齐，结合多核聚类生成伪标签，解决了小样本无标签场景下的诊断难题。在轴承和齿轮数据集上平均精度达93.56%和90.28%，较最优对比模型提升4.12%和3%。实验验证了方法的鲁棒性和特征可解释性，为工业设备智能维护提供了有效解决方案。

2025-07-16 21:29:07 71

原创 DGNNet：基于双图神经网络的少样本故障诊断学习模型

本文提出了一种基于双图神经网络（DGNNet）的小样本故障诊断方法，针对工业场景中故障数据稀缺的问题。DGNNet通过整合实例级（样本间成对关系）和分布级（高阶统计关系）的双重图结构，采用交替更新策略进行协同优化。实验在CWRU、MFPT和工业OCB数据集上验证了其有效性，1-shot和5-shot任务中准确率最高提升12%（监督任务达99.81%，半监督任务达100%）。消融研究表明，4次生成交替更新和Ranger21优化器能实现最佳性能。该方法为数据稀缺的故障诊断提供了新思路，未来可扩展至预测性维护等应

2025-07-15 21:28:33 310

原创零样本轴承故障诊断SC - GAN模型

本文提出了一种基于健康-故障关系模型的工业设备零样本故障诊断方法。针对传统方法在新工况下需大量标注故障数据的痛点，该方法仅需源工况完整数据和目标工况健康数据，通过双阶段创新实现诊断：1）SC-GAN生成目标工况故障数据（加入稀疏和相关性约束）；2）MMD域适应实现特征对齐。实验表明，在PDU和CWRU数据集上平均准确率达93%，工况变化时精度仅下降1.25%。该方法已成功应用于风电、机床等场景，显著降低数据采集成本，为工业设备智能运维提供了新思路。

2025-07-15 21:10:58 30

原创 [2025CVPR]DenoiseCP-Net：恶劣天气下基于LiDAR的高效集体感知模型

《恶劣天气下自动驾驶集体感知的去噪协同网络研究》摘要：本文提出DenoiseCP-Net创新架构，通过多任务网络同步处理感知数据去噪与目标检测。采用物理级天气模拟引擎（涵盖雨雪雾模型）和动态带宽优化机制，在OPV2V扩展数据集上验证显示：浓雾场景保持96%噪声识别率，检测精度损失<3%，极端天气带宽降低最高达62.3%。核心突破包括共享主干网络减少60%计算负载、散射操作实现异构特征融合，以及兼容现有V2X标准的部署方案。研究成果为车路协同系统在恶劣天气下的可靠感知提供了有效解决方案。

2025-07-13 23:28:15 53

原创 [2025CVPR]GNN-ViTCap：用于病理图像分类与描述模型

本文提出GNN-ViTCap框架，通过三大创新点改进病理图像分析：1）注意力增强的深度嵌入聚类消除30%冗余图像；2）图神经网络聚合解决显微镜图像无坐标难题；3）视觉-语言联合建模融合专业LLMs。实验表明，该方法在BreakHis和PatchGastric数据集上取得突破性提升，分类AUC达0.963，描述生成BLEU-4达0.811，显著优于现有技术。研究为智能病理诊断、医学教育和药物研发提供了新思路，未来将优化算法以适应临床落地需求。

2025-07-13 23:22:38 153

原创 [2025CVPR最佳论文提名]Navigation World Model（NWM）：用扩散Transformer构建视觉导航的“数字孪生”

本文提出导航世界模型(NWM)，通过条件扩散Transformer(CDiT)解决传统视觉导航的行为固化和资源分配问题。CDiT采用多模态嵌入和跨帧注意力机制，将计算复杂度降低75%，支持动态约束注入和轨迹规划。实验表明，NWM在16秒长视频预测中PSNR提升2.1dB，导航任务绝对轨迹误差降低42%，未知环境探索成功率提高12%。应用场景包括灾难救援、自动驾驶仿真和VR导览，其中约束规划达标率达98%。该模型实现了物理世界建模的新范式，代码已开源。

2025-07-11 17:08:18 190

原创 [2025CVPR]STAtten：脉冲时空注意力Transformer

本文提出脉冲时空注意力Transformer（STAtten），解决脉冲神经网络中时空注意力计算效率低的问题。通过分块计算机制（降低1.6倍内存）和无Softmax设计，在CIFAR100-DVS上达到83.9%准确率（提升1.0%）。分析表明时空融合使注意力熵值降低19%，特征表征更高效。实验证明该方法在无人机视觉（延迟<8ms）和脑机接口（误报率降32%）中具有应用潜力，且不增加额外能耗（21.46mJ）。代码和预训练模型已开源。

2025-07-11 16:33:01 125

原创 [2025CVPR]CCFS：高IPC数据集蒸馏的课程式粗细筛选技术解析

【摘要】本研究针对数据集蒸馏在高IPC场景的性能衰减问题，提出课程式粗细筛选(CCFS)方法。创新点在于：1)动态课程框架渐进整合真实数据，解决传统固定选择导致的兼容性问题；2)两阶段筛选机制（先粗筛未掌握样本，再细选简单样本）提升特征补充效率。实验表明，在Tiny-ImageNet上实现20%压缩比仅损失0.3%精度，比现有方法提升3.4%。该方法在边缘设备部署、联邦学习等场景展现出显著优势，代码与模型已开源。局限包括难度分数依赖预计算等，未来将探索自适应课程机制。

2025-07-10 23:27:19 319

原创 [2025CVPR最佳学生论文提名]DVHGNN：多尺度扩张超图神经网络

摘要：本文提出扩张视觉超图神经网络（DVHGNN），以解决传统视觉模型在复杂物体关系建模中的局限性。通过多尺度扩张超图构建（DHGC）和动态超图卷积（DHConv），DVHGNN有效捕捉高阶关联，同时降低计算复杂度。实验表明，该模型在ImageNet-1K达到83.1%准确率（比ViG-S提升1.4%），FLOPs减少18%，并在目标检测和医学图像分析中展现出优越性能，为工业质检和自动驾驶等场景提供高效解决方案。

2025-07-10 00:02:15 325

原创 [2025CVPR]Mr. DETR：检测Transformer的多路由指导训练解析

本文提出了一种创新的多路由训练框架Mr.DETR，用于解决DETR系列模型训练收敛慢的问题。该方法包含主路由（一对一）和两个辅助路由（一对多），通过指导性自注意力机制引入可学习指令token来引导查询。实验表明，该方法在12轮训练内即可达到SOTA性能，COCO数据集上mAP提升2.5%，同时保持推理效率（辅助路由仅训练时使用）。该框架可扩展到实例分割等任务，在无人机跟踪、工业质检等场景展现出应用价值。核心优势在于显著加速训练收敛（提升2倍）且不增加推理开销，代码已开源供复现使用。

2025-07-09 23:55:30 87

原创 [2025CVPR]SGC-Net：开放词汇人机交互检测的分层粒度比较网络解析

本文提出首个分层粒度比较网络SGC-Net，用于开放词汇人机交互检测。针对CLIP特征粒度缺失和语义混淆问题，创新设计粒度感知对齐模块（GSA）进行多粒度特征融合，以及LLM驱动的层次化分组比较模块（HGC）优化语义边界。在SWIG-HOI和HICO-DET数据集上，Unseen类别检测性能提升39.3%，推理速度达32FPS。该方法可应用于智能监控、人机协作等场景，为开放世界交互理解提供新范式。论文代码已开源，包含400动作/1000物体的SWIG-HOI数据集。

2025-07-08 23:36:03 818

原创 [2025CVPR最佳学生论文]Neural Inverse Rendering from Propagating Light

本文提出首个多视角传播光的神经逆渲染系统，通过时间分辨辐射缓存、可微渲染方程和物理约束优化三大创新技术，解决了传统LiDAR忽略间接光的缺陷。系统采用哈希编码存储场景辐射分布，分离计算直接光和神经预测间接光，建模光脉冲传播过程。实验验证在仿真和真实数据中均优于现有方法（PSNR 30.99，法向误差8.45°）。应用包括瞬态重光照、材质分解和非视域成像，其中非视域重建精度达89%。该方法使强间接光场景的几何误差降低72%，计算效率提升23倍，但存在硬件依赖SPAD传感器和计算耗时（>24小时/A100

2025-07-08 23:29:27 1126

原创 [2025CVPR]LS-BiorUwU:双正交可调小波单元,提升CNN性能的革新架构

摘要：本文提出基于提升方案的双正交可调小波单元(LS-BiorUwU)，突破传统小波的正交性与滤波器长度限制，有效解决CNN池化层的高频细节丢失问题。通过2阶提升步构建的双正交滤波器在CIFAR-10和DTD数据集分类任务中分别取得2.12%和9.73%的准确率提升，在MVTecAD异常检测任务中SegAUROC达97.21%。该单元兼容ResNet架构，计算复杂度与标准池化相当，为高频敏感任务提供了新的特征提取范式。

2025-07-06 17:48:12 891

原创 [2025CVPR]MobileIE:一种移动端实时图像增强的极致轻量化模型

摘要：MobileIE提出了一种创新的轻量化图像增强模型，通过多分支重参数化卷积(MBRConv)、特征自变换(FST)和分层双路径注意力(HDPA)三大核心模块，在仅4K参数量的条件下实现了1120FPS的推理速度。该模型采用训练-推理解耦设计，训练时保留多分支结构增强特征多样性，推理时自动融合为单卷积；结合增量权重优化和局部方差加权损失等技术，在低光增强(LOLv1)和水下增强(UIEB)任务上均达到SOTA性能。MobileIE的硬件友好设计支持INT8量化，内存占用减少30%，为移动端实时图像处理提

2025-07-06 17:36:16 1016 1

原创 [2025CVPR]基于双向域自适应（BiDA)的跨域高光谱图像分类模型

本文提出一种双向领域自适应（BiDA）框架，用于解决高光谱图像跨域分类中的光谱偏移问题。核心创新包括：1）三支路Transformer架构（源分支、目标分支和耦合分支），通过双向交叉注意力实现特征对齐；2）语义分词器生成紧凑语义令牌；3）双向蒸馏损失和自适应强化策略提升模型鲁棒性。实验表明，BiDA在跨时序/场景数据集上比现有方法提升3%-5%分类准确率。该框架为高光谱图像跨域分类提供了有效解决方案。

2025-07-06 17:16:21 605

原创 [2025CVPR]一种新颖的视觉与记忆双适配器（Visual and Memory Dual Adapter, VMDA）

本文提出了一种创新的视觉与记忆双适配器（VMDA）多模态目标跟踪方法，通过频率引导的多模态融合模块和多级记忆适配器，显著提升了跟踪性能。VMDA框架包含ViT骨干网络、视觉适配器、记忆适配器和预测头四个组件，其中视觉适配器首次联合建模频域、空间和通道特征，而记忆适配器借鉴人类记忆机制实现全局时间线索传播。在RGB-T、RGB-D和RGB-E三个主流数据集上的实验表明，该方法在精度和成功率等指标上均优于现有技术，验证了其有效性。

2025-07-06 17:11:26 621

原创 [2025CVPR]ESC-Net:一种开放词汇语义分割模型

摘要： ESC-Net提出了一种高效的开放词汇语义分割方法，通过结合CLIP的全局特征和SAM的局部建模能力，解决了传统两阶段方法效率低、域偏移等问题。其核心包括伪提示生成器（PPG）和视觉语言融合（VLF）模块，利用CLIP提取特征并生成类特定提示，通过SAM块进行空间聚合，实现精准分割。实验表明，ESC-Net在多个数据集上性能显著提升（如ADE20K mIoU达59.0），且能生成更密集的掩码。未来可优化提示生成策略或动态调整SAM块数量以进一步提升效果。

2025-07-05 11:00:00 898

提供了一个详细的Kali 2023安装教程，并附带了镜像资源

kali linux安装教程

2025-03-06

基于深度学习的故障检测，包含CNN\RNN\LSTM等神经网络

2025-03-06

智慧病房系统（呼叫系统）

智慧病房系统

2025-03-06

行人跌倒检测，安全监控系统，老年人安全监控

专注于行人跌倒检测，可作为毕业设计，包含一整套源码。

2025-03-06

基于Python的图书馆大数据可视化分析系统（含源码和论文）

2025-01-15

基于Hive的大数据分析与智能分类推荐系统-多媒体作品集管理解决方案

内容概要：该研究针对多媒体作品内容管理和个性化推荐的问题，结合Hive大数据技术和深度学习模型设计了一个多功能、智能的管理系统。系统包括作品上传与分类、OCR识别以及个性化推荐三大模块。首先，解决了多格式文件的兼容性和上传处理，保证不同类型作品的质量不受损失；然后，通过对上传的作品使用卷积神经网络和OCR技术，实现了高效的分类和信息提取；最后，在推荐引擎上采用了基于用户的协同过滤和内容匹配方法，提高用户的参与度和互动体验。研究还涉及到了MYSQL与HDFS之间的稳定数据同步，确保跨数据库间的数据流通性。适合人群：适用于高校计算机专业学生特别是那些关注大数据技术发展及其实际应用的人群；同时也吸引希望从事多媒体作品集管理和展示工作的设计专业人士。使用场景及目标：该项目旨在建立一套面向设计师的作品管理系统，使他们可以方便地上传作品，同时也能让访问者更容易找到自己感兴趣的素材；长远目标是为了推动多媒体领域的技术创新和服务质量提升。其他说明：文中详细阐述了从系统框架构建到具体实施过程中面临的问题及解决方案，同时提出了未来发展方向。整个方案强调技术创新、用户体验和经济效益三个方面的平衡，并引用了大量的文献作为理论支持和实证依据。

2025-01-15

ToDESK安装包,用于远程写作的高效软件

2025-01-15

python爬虫实战：猫眼数据

2025-01-06

基于JAVA的智能货物追踪系统源码

2025-01-06

基于Unet的树种分别识别模型

2025-01-06

基于ZigBee+Wifi的婴儿床智能监控系统报告

2025-01-06

婴儿床只能监控系统软件

婴儿床只能监控系统软件，涵盖了整个系统的全流程，包含了硬件组成和软件组成，以及系统相关需求。

2024-12-14

神经网络源码-GoogLeNet源码

GoogLeNet 是 Google 团队在 2014 年提出的卷积神经网络，荣获 ILSVRC 2014 图像分类竞赛的冠军。该网络通过引入 Inception 模块提高了计算效率和分类性能。

2024-11-22

神经网络源码+AlexNet模型源码+人工智能

AlexNet 网络简介 AlexNet 是深度学习发展史上的一个里程碑，由 Alex Krizhevsky 等人在 2012 年提出，并在 ImageNet 大规模视觉识别挑战赛（ILSVRC）中取得了压倒性的胜利。该网络引入了一系列关键技术，大幅提高了深度学习模型的性能。

2024-11-22

人工智能KAN神经网络+python代码

KAN: Kolmogorov-Arnold神经网络，通过引入可学习的激活函数和无线性权重的设计，克服了传统神经网络在处理复杂数据时的局限性。其在准确性、参数效率和可解释性等方面的优势，使其成为对多层感知器（MLP）的有力替代方案，为深度学习模型的进一步发展提供了新的方向和机会。KAN 网络不仅在机器学习领域具有广泛的应用潜力，还能够为科学研究提供重要的支持，促进数学和物理等领域的发现与创新。适用于科研工作者，学生，论文创新点研究，数据拟合，分类领域研究。

2024-11-22

基于PyTorch的故障检测CNN模型训练与应用

内容概要：文章展示了一个用于故障检测的深度学习项目，采用PyTorch构建了一个一维卷积神经网络(CNN)，针对工业故障诊断问题。文中详细地解释了从数据加载、预处理、模型搭建、训练到性能评估的全过程。通过归一化原始数据集，设计多层一维卷积与全局最大池化的网络架构，并应用交叉熵作为损失函数，利用Adam算法进行梯度下降最优化，最终实现了高精度的分类任务。适用人群：对于机器学习尤其是深度学习领域感兴趣的科研人员或者工程师，特别是那些想要深入了解或实操如何使用深度学习技术解决实际问题如工业设备状态监测的研究者和技术开发者。使用场景及目标：本项目的目的是为了提高机械设备运行状态监控系统的效率与准确性，可以应用于制造业、电力等行业，帮助实时监控设备健康状况，及时发现潜在故障点，从而减少非计划停机时间和维修成本。其他说明：除了提供了一套完整的解决方案之外，本文还展示了如何计算模型的参数量，以便于控制模型复杂度。此外，文中也包含了模型训练过程中每轮迭代的耗时记录，这对于大规模数据集下优化算法选择具有重要参考价值。

2024-11-22

基于一维CNN和LSTM的融合网络用于时间序列数据的预测分类

它们各自具有独特的优势，并在不同的应用场景中发挥着重要作用。一维卷积神经网络（1D CNN）的优势：局部连接和参数共享：CNN通过局部连接和参数共享的方式减少了模型参数，这不仅降低了模型的复杂度，还减少了过拟合的风险。特征提取能力：CNN擅长自动学习输入数据的特征，尤其在图像处理领域，能够捕捉到图像中的局部特征，如边缘、纹理等，并用于分类和识别。空间信息保留：与全连接网络相比，CNN在处理图像时不会丢失空间信息，这对于图像识别等任务至关重要。降维和避免过拟合：通过池化层（Pooling），CNN可以有效地降低数据维度，减少计算量，同时避免过拟合。多维数据处理：CNN不仅可以处理二维图像数据，还可以通过一维卷积处理序列数据，如音频信号，使其能够捕捉序列数据中的局部模式和特征。长短期记忆网络（LSTM）的优势：解决梯度消失问题：LSTM通过引入门控机制（遗忘门、输入门、输出门）有效地解决了传统RNN在处理长序列时的梯度消失问题，能够捕获并利用长期依赖关系。记忆能力：LSTM的细胞状态（Cell State）允许信息在链上稳定传递，减少了梯度消失的问题，使其能够

2024-10-19

机器学习基于鸢尾花数据集的决策树与随机森林分类模型对比：特征工程、模型训练及性能评估

内容概要：本文介绍了鸢尾花数据集及其分类任务，详细描述了数据预处理、特征工程、模型建立与评估的完整流程。首先对鸢尾花数据集进行了简要介绍，该数据集包含150个样本，每个样本有4个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度），并分为三个类别（山鸢尾、变色鸢尾、维吉尼亚鸢尾）。接着进行了数据标准化和划分（70%训练集，30%测试集）。随后建立了决策树和随机森林两种分类模型，并对模型进行了训练和预测。最后通过混淆矩阵、准确率曲线、损失函数曲线以及精确率、召回率、F1-Score等指标对两个模型进行了全面的对比分析，结果显示随机森林模型性能优于决策树模型，特别是在迭代过程中表现更加稳定。适合人群：对机器学习感兴趣的研究人员或学生，尤其是希望深入了解分类算法及其应用的人群。使用场景及目标：①理解鸢尾花数据集的基本结构和特点；②掌握数据预处理方法如标准化、数据集划分；③学习如何构建和训练决策树与随机森林模型；④通过多种可视化手段对比分析模型性能，选择最优模型。其他说明：本文不仅提供了完整的代码实现，还详细解释了每一步骤的目的和意义，有助于读者更好地理解和实践机器学习分类任务。建议读者在学习过程中亲自运行代码，观察模型训练过程和结果变化，从而加深对模型的理解。

2025-04-28

医学领域基于CatBoost与贝叶斯优化的高原脑水肿风险预测模型研究：多模态数据挖掘与性能评估

内容概要：本文研究了高原脑水肿（HACE）风险预测模型，基于CatBoost与贝叶斯优化算法，提出了CatBoost_BayesOpt模型。该模型利用5000条多模态特征数据（MRI指标、生理监测参数及环境因素），经过缺失值填补与标准化预处理，采用高斯过程代理模型和Expected Improvement采集函数，迭代搜索超参数。实验结果表明，CatBoost_BayesOpt模型在AUC、Accuracy、F1等多项指标上优于随机森林、XGBoost、LightGBM等模型，能够准确挖掘出胼胝体水肿、血氧波动幅度、微出血灶数量等关键预测因子，为早期干预提供依据。适合人群：医学研究人员、数据科学家、从事高原健康监测的从业人员。使用场景及目标：①适用于高原地区的健康监测系统，提前预测个体发生高原脑水肿的风险；②帮助医生在临床诊断中提前识别高风险患者，制定个性化预防和治疗方案。其他说明：本文展示了机器学习在高原脑水肿预测中的应用潜力，未来可以结合更多临床影像、时序数据和多任务学习，进一步提升模型的泛化能力和预测精度。

2025-04-28

【软件工程、计算机专业】基于Java SSM的图书管理系统开发与实现：需求分析、架构设计及性能优化摘要

内容概要：本文探讨了基于Java SSM框架的图书管理系统的开发与实现，旨在解决传统人工图书管理方式繁琐、易混淆、记录困难的问题。文中详细介绍了Java SSM框架的概述、特点及其应用领域，为系统设计和开发提供了基础。系统需求分析包括用户需求、功能需求和非功能需求，涵盖了用户和管理员的各类操作。系统架构采用三层架构（表现层、业务逻辑层、数据访问层），并使用RESTful风格接口设计。数据库设计部分详细描述了实体关系、表结构、索引和约束的设置。开发过程中实现了用户管理、图书管理、借阅管理、归还管理和数据统计分析等模块。最后，通过单元测试、集成测试、系统测试和性能测试确保系统的稳定性和可靠性，并提出了优化策略，如数据库优化、代码优化和系统资源优化。研究结果表明，该系统具有较高的可行性和实用性。适合人群：具备一定编程基础，尤其是对Java SSM框架有一定了解的研发人员、计算机专业学生和图书馆管理人员。使用场景及目标：①适用于学校图书馆等需要高效管理图书的机构；②帮助管理员轻松进行图书的增删改查、借阅管理、归还管理等操作；③为用户提供便捷的借阅、查询和个性化服务；④通过性能评估与优化，提升系统的响应速度和稳定性。其他说明：本文不仅详细描述了系统的开发过程和技术实现，还对未来的研究方向进行了展望，如引入图书推荐机制、优化系统性能、提升安全性和可靠性，以及开展用户行为研究等。建议读者在学习过程中结合实际操作，深入理解各模块的功能和实现原理，并关注系统的优化策略。

2025-04-28

基于机器学习的高原脑水肿识别模型代码

2025-04-28

【无人机识别技术】基于射频信号与改进视觉Transformer的无人机检测与识别系统设计

内容概要：本文档为中国大学生计算机设计大赛人工智能挑战赛的作品报告，聚焦于基于射频传感器与改进视觉Transformer的无人机检测与识别方案。文档首先阐述了无人机广泛应用带来的公共安全和国防安全挑战，强调了无人机识别技术的重要性。随后介绍了现有无人机识别技术的分类及其局限性，包括光学、声学、雷达和射频检测技术。本文提出的方案通过IQ数据解析、时频分析、频谱图生成与保存和无人机识别四个核心环节实现精准识别。创新点包括采用改进的视觉Transformer模型、频段定位技术和FPGA加速，实现了96.2%的识别准确率、低附带损伤和低于50ms的推理延迟。适用人群：对无人机识别技术感兴趣的科研人员、高校学生及从事无人机防御技术研发的专业人士。使用场景及目标：①研究和开发无人机识别系统，提升无人机检测的准确性、鲁棒性和实时性；②应用于公共安全和国防安全领域，保障空域安全；③为后续的反制措施提供技术支持，实现精准反制。其他说明：文档详细描述了技术方案的各个环节，包括信号处理和深度学习目标检测两大部分。信号处理部分涵盖IQ解析、降噪与时频转换，深度学习部分则介绍了局部感知模块和多任务学习框架。文档还展示了系统实现的具体步骤，如STFT原理与应用、模型架构、训练样本及实时性优化。最后，文档总结了作品的特色与创新点，展望了未来发展方向，如多模态融合、飞行状态监测和分布式计算技术的应用。

2025-04-27

TA关注的人

提供了一个详细的Kali 2023安装教程，并附带了镜像资源

基于深度学习的故障检测，包含CNN\RNN\LSTM等神经网络

智慧病房系统（呼叫系统）

行人跌倒检测，安全监控系统，老年人安全监控

基于Python的图书馆大数据可视化分析系统（含源码和论文）

基于Hive的大数据分析与智能分类推荐系统-多媒体作品集管理解决方案

ToDESK安装包,用于远程写作的高效软件

python爬虫实战：猫眼数据

基于JAVA的智能货物追踪系统源码

基于Unet的树种分别识别模型

基于ZigBee+Wifi的婴儿床智能监控系统报告

婴儿床只能监控系统软件

神经网络源码-GoogLeNet源码

神经网络源码+AlexNet模型源码+人工智能

人工智能KAN神经网络+python代码

基于PyTorch的故障检测CNN模型训练与应用

基于一维CNN和LSTM的融合网络用于时间序列数据的预测分类

机器学习基于鸢尾花数据集的决策树与随机森林分类模型对比：特征工程、模型训练及性能评估

医学领域基于CatBoost与贝叶斯优化的高原脑水肿风险预测模型研究：多模态数据挖掘与性能评估

【软件工程、计算机专业】基于Java SSM的图书管理系统开发与实现：需求分析、架构设计及性能优化摘要

基于机器学习的高原脑水肿识别模型代码

【无人机识别技术】基于射频信号与改进视觉Transformer的无人机检测与识别系统设计

基于Python的手势识别

大模型使用指南、DEEPSEEK实战指南

基于zigbee和STM32的环境监测监控系统

毕设论文模板（LaTeX版本）

物联网工程、实验报告，智能家居

基于python的网络舆情分析系统

基于Nodemcu智能蔬菜滴灌系统

《Java 面试进阶指北 》 质量很高，专为面试打造

机器学习、数据结构与算法、计算机基础、前端开发

毕设源码+论文，计算机、软件工程、智慧物业系统

毕设源码+论文，计算机、软件工程专业

毕业设计源码+计算机、软件工程专业毕设（机票订购系统）

知识追踪模型用于学习行为预测（有偿）

知识追踪模型用于学习行为预测（有偿）

基于追踪模型预测学生成绩（有偿：400元）

《Java 面试进阶指北》质量很高，专为面试打造