听风吹等浪起-CSDN博客

原创改进系列（14）：基于Swin Transformer的SAM交互式图像分割方法研究：腹部13器官分割

本文提出了一种基于Swin Transformer架构的交互式图像分割方法，通过引入点提示机制实现用户引导的精确分割。该方法采用编码器-解码器结构，在编码阶段利用Swin Transformer的层次化特征提取能力，在解码阶段结合跳跃连接恢复空间细节。实验结果表明，该方法在标准数据集上取得了较高的分割精度，同时支持用户通过点击交互优化分割结果。本文详细介绍了网络架构设计、训练策略以及交互式推理系统的实现。关键词：交互式图像分割；深度学习；点提示；医学图像分析。

2025-06-19 16:54:34 992 2

原创改进系列（1）：TransUnet结合SAM box改进对MICCAI FLARE腹部13器官图像分割

本章尝试将TransUnet和SAM结合，以期望达到更换的模型TransUnet作为医学图像分割的基准，在许多数据集上均取得了很好的效果，然而最近SAM大模型的兴起，图像分割似乎有了新的方向关于图像分割项目、sam模型复现参考本人其他专栏，这里之作简单介绍TransUnet是一个专门为医学图像分割任务设计的深度学习模型。它是一种卷积神经网络（CNN），采用基于变压器的架构。TransUnet在具有相应分割掩模的大型医学图像数据集上进行训练，以学习如何从输入图像中准确分割器官、病变或其他结构。

2024-10-12 16:12:44 1612

原创 Unet 实战分割项目、多尺度训练、多类别分割

之前写了篇二值图像分割的项目，支持多尺度训练，网络采用backbone为vgg的unet网络。本章实现的unet网络的多类别分割，也就是分割可以是两个类别，也可以是多个类别。训练过程仍然采用多尺度训练，即网络会随机将图片缩放到设定尺寸的0.5-1.5倍之间。

2024-02-05 21:38:35 7978 21

原创 VGG 改进：融合CNN与Transformer的VGG模型

本文提出了一种结合VGG16 CNN和Vision Transformer的混合架构。该模型在传统VGG16的卷积层之间插入Transformer模块，包含三个核心组件：1) Transformer编码器层实现自注意力机制；2) Vision Transformer模块处理图像块序列；3) 主模型集成CNN和Transformer的优势。该架构既能提取局部特征，又能建模全局关系，通过可学习的位置编码和残差连接实现高效特征融合。实验表明，这种混合设计在保持CNN优势的同时，增强了模型的全局建模能力，为计算机视

2025-07-27 11:06:30 24

原创 SwinTransformer 改进：稀疏化注意力机制（Sparse Attention）

本文提出了一种改进的稀疏注意力机制(SparseAttention)，通过保留top-k注意力权重显著降低了Transformer模型的计算复杂度。该方法针对SwinTransformer架构实现，包含三个关键技术：1) 稀疏注意力层仅计算和保留top-k权重，减少计算量；2) 相对位置编码保持位置感知能力；3) 自动替换机制可将原始注意力层全部替换为稀疏版本。实验表明，该方法在保持模型性能的同时提升了计算效率，特别适用于高分辨率图像处理等场景。代码实现了完整的稀疏注意力模块和模型替换流程，为Transfo

2025-07-24 15:38:08 123

原创梯度下降法详解：优化算法的核心与实现

本文系统介绍了机器学习中的核心优化算法——梯度下降法。该方法通过沿目标函数梯度反方向迭代调整参数，寻找最优解。文章详细解析了其工作原理（如盲人下山类比）、数学推导（以二次函数为例）和实现步骤，并讨论了学习率等关键参数的影响。通过Python代码实例展示了该方法在3D数据拟合中的应用，直观呈现了损失函数动态变化和参数优化过程。梯度下降法因其通用性强、计算高效等特点，成为深度学习等领域的基石算法。

2025-07-24 12:55:17 598

原创甲状腺结节TI-RADS分类的多目标分类头任务深度学习模型评估报告

本研究开发了一个基于ResNet50的多任务深度学习模型，用于甲状腺结节的TI-RADS分类。模型同时预测成分、回声、形状、边缘和强回声灶五个关键特征，并计算最终TI-RADS等级。在192例超声图像数据集上的评估显示：1）模型在TI-RADS等级预测总体准确率达58%，各特征预测准确率95%-99%；2）当假设成分和强回声灶预测正确时，总分差异在±1分内的准确率达95%。该研究为甲状腺结节的标准化评估提供了有效工具，具有临床应用价值。完整代码可通过CSDN下载获取。

2025-07-18 12:13:58 150

原创具身智能与人形机器人：技术革命重塑未来

2025年，具身智能（Embodied AI）首次被写入，标志着这一技术正式成为国家战略级未来产业的核心方向。具身智能的核心在于赋予人工智能“物理身体”，使其通过多模态感知、实时决策和环境交互，实现从虚拟智能向实体智能的跨越。作为具身智能的理想载体，人形机器人正在全球范围内迎来爆发式落地——从工厂车间到救援现场，从马拉松赛道到家庭客厅，一场“碳硅共生”的文明图景正加速展开。

2025-07-06 14:33:17 2123

原创 SwinTransformer 改进：小波+注意力模块（Wavelet-Guided Attention）

本文提出了一种结合Swin Transformer和小波引导注意力模块(WGAM)的创新模型架构。WGAM通过Haar小波分解将特征图分为四个子带(LL,LH,HL,HH)，并分别应用通道注意力和空间注意力机制，同时为各子带分配可学习权重。该模块被集成到Swin Transformer的patch embedding层之后，在不显著增加计算复杂度的情况下，实现了多尺度特征提取和自适应特征增强。实验表明，这种混合架构特别适合高分辨率图像分类、医学图像分析和遥感图像处理等任务。模型采用模块化设计，可灵活集成到其

2025-06-21 10:24:37 288

原创基于EfficientNet的手势识别计算器系统设计与实现

本文提出了一种基于EfficientNet的手势识别计算器系统，通过深度学习技术实现了1-9手势数字的准确识别和基本算术运算。系统采用EfficientNet-B0网络架构，经过迁移学习和微调训练，在测试集上达到99%的识别准确率。PyQt5构建的图形界面支持用户上传手势图片并执行加减乘除运算，结果实时显示。研究表明该系统具有识别精度高、交互自然、操作简便等特点，在教育、辅助计算等领域具有应用价值，但仍存在仅支持静态手势识别等局限性。

2025-06-21 08:26:34 71

原创 UNet 改进：结合CAM注意力与DLKA注意力的改进UNet

本文提出一种改进的UNet网络架构，通过引入通道注意力模块(CAM)和动态大核注意力模块(DLKA)显著提升特征提取能力。该网络采用经典的编码器-解码器结构，核心创新点包括：1）Triplet_DoubleConv模块整合常规卷积、CAM和DLKA；2）CAM模块通过双路径池化学习通道重要性；3）DLKA模块使用7×7深度可分离卷积捕获大范围空间关系。网络特别适用于医学图像分割等精细任务，在保持UNet优势的同时增强了对长距离依赖和重要特征的捕捉能力。完整PyTorch实现展示了模块化设计，便于迁移应用。

2025-06-19 16:43:15 173

原创 EfficientNet 改进：StripCGLU模块的创新与应用

本文提出了一种改进的EfficientNet-b0模型，核心创新是通过引入StripCGLU模块来提升网络性能。StripCGLU结合了水平/垂直条带卷积和GLU激活机制，具有参数效率高、计算量少的优点。改进策略包括选择性替换部分MBConv为StripCGLU模块（每隔3个块插入），同时保留早期层结构。测试表明该模型适用于移动端视觉任务，在保持效率的同时提升性能。代码实现包含模块定义、模型构建及测试部分，展示了如何通过精心设计的模块改进现有网络架构。

2025-06-17 17:42:50 44

原创 SwinTransformer 改进：结合DLKA与SSPP的模型架构

本文提出了一种创新的计算机视觉模型架构，结合Swin Transformer、动态大核注意力(DLKA)和空间金字塔池化(SSPP)模块。该设计融合了Transformer的全局建模能力与CNN的局部特征提取优势，其中DLKA模块通过通道和空间注意力增强局部特征提取，SSPP模块实现多尺度特征融合。模型在Swin Transformer基础上插入这两个模块，形成兼顾全局-局部特征表达和多尺度处理的混合架构。实验验证表明，该模型适用于需要同时关注细粒度细节和全局上下文的视觉任务，为计算机视觉模型设计提供了新的

2025-06-17 13:27:09 176

原创 ShuffleNet 改进：与通道注意力机制（CAM）的结合实现

本文提出了一种改进的ShuffleNetV2模型，通过集成通道注意力机制(CAM)增强特征表示能力。CAM模块采用双分支结构（平均池化+最大池化）学习通道权重，并使用带压缩比的MLP减少参数量。模型保留了ShuffleNetV2的轻量特性，支持预训练权重加载，通过维度转换技巧将CAM无缝集成到网络中。实验验证表明，该方法在保持高效性的同时提升了模型性能，为轻量级网络设计提供了有效参考。代码开源，可直接应用于图像分类等任务。

2025-06-09 16:20:40 104

原创改进系列（13）：基于改进U-ResNet的脊椎医学图像分割系统设计与实现

本文提出一种改进的U-ResNet医学图像分割系统，通过融合残差连接、通道注意力机制和空间金字塔池化模块，显著提升分割精度。系统采用端到端深度学习框架，实现数据预处理、模型训练到可视化分析全流程自动化。实验表明，该方法平均DSC达0.92以上，优于传统分割网络，并提供友好GUI界面支持交互式操作。改进的网络架构包含多级残差块编码器、多尺度瓶颈层和带注意力机制的解码器，配合联合损失函数优化，有效解决医学图像分割中的特征提取不足和小目标分割难题。系统还实现了六种评估指标计算和多种可视化分析功能。

2025-06-09 13:42:51 790

原创 MobileNet 改进：基于MobileNetV2和SSPP的图像分类

本文介绍了一种结合MobileNetV2和空间金字塔池化(SSPP)的轻量级图像分类模型。该模型采用MobileNetV2作为特征提取器，并集成了自定义SSPP模块，通过多尺度池化增强特征表达能力。模型结构包含特征提取、SSPP处理和线性分类三个部分，其中SSPP支持可配置的池化层级(默认1×1,2×2,4×4)。这种设计既保持了MobileNetV2的高效特性，又提升了模型对不同尺寸特征的适应能力。测试代码验证了模型可处理224×224输入并输出正确维度的分类结果。该实现为计算机视觉任务提供了一种平衡性能

2025-06-06 09:10:32 89

原创 ResUNet 改进：融合DLKA注意力机制

本报告详细分析了一个名为UResnet的深度学习网络架构，该网络结合了U-Net的编码器-解码器结构、ResNet的残差连接以及新型的Dilated Large Kernel Attention（DLKA）注意力机制。该网络设计用于图像分割任务，通过多尺度特征提取和融合实现精确的像素级预测。

2025-06-05 14:29:39 77

原创 CentOS在vmware局域网内搭建DHCP服务器【踩坑记录】

本文记录了在CentOS系统上配置DHCP服务的完整流程：首先确保NAT模式联网，修改yum镜像源后安装DHCP服务；然后配置虚拟机网络为vmnet10（虚拟交换机模式），设置CentOS静态IP时需特别注意格式规范；接着编辑dhcpd.conf文件定义IP地址池（192.168.10.200-210）、网关和DNS；最后启动DHCP服务并设置防火墙规则。成功搭建后，Windows客户端切换为自动获取IP即可完成网络配置，通过/var/lib/dhcpd/dhcpd.leases文件可查看租约信息。全程重点

2025-06-04 18:19:32 1213 1

原创基于深度学习（Unet和SwinUnet）的医学图像分割系统设计与实现：超声心脏分割

本文提出了一种基于深度学习的医学图像分割系统，采用U-Net和Swin-Unet两种网络架构，实现了高效的医学图像分割。系统包含完整的数据预处理、模型训练评估流程，并提供用户友好的图形界面。实验结果表明，该系统在CT等医学图像分割任务中表现优异，Swin-Unet架构性能优于传统U-Net，窗宽窗位调整显著改善CT图像分割效果。系统具有模块化设计、易扩展等特点，为临床诊断提供了有效的计算机辅助工具。

2025-06-04 09:56:29 329

原创基于人工智能算法实现的AI五子棋博弈

本项目开发了一个基于Python和Pygame的五子棋游戏系统，包含三种对战模式：人人对战、人机对战和AI对战。系统采用模块化设计，包括棋盘管理、AI决策和主程序三大模块。AI算法基于博弈树搜索和评估函数，实现了棋型识别、Alpha-Beta剪枝、迭代加深搜索等优化技术，能够提供较强对战能力。系统支持自定义游戏模式和AI参数，具有清晰的用户界面和交互设计。未来可进一步优化算法性能并扩展功能，如增加难度选择、网络对战等。项目代码结构合理，便于后续开发和改进。

2025-06-03 15:26:16 1219

原创 NLP实战(5)：基于LSTM的电影评论情感分析模型研究

本研究提出了一种基于双向LSTM的深度学习模型，用于电影评论的细粒度情感分类（5分类）。模型采用词嵌入层（100维）、双向LSTM层（2层256维）和全连接层结构，在标准数据集上通过5折交叉验证评估，平均准确率达到55.52%。实验结果显示模型能够有效区分负面、中性到正面的情感表达，其中中性情感与"有点积极/负面"的区分存在改进空间。研究提供了完整的数据预处理流程、模型架构和训练策略，代码已实现模块化，便于复现。未来可结合预训练词向量和注意力机制进一步提升性能。

2025-06-03 13:27:38 1217

原创 U-ResNet 改进：集成CoordinateAttention（坐标注意力）

本文介绍了一种名为UResNet的混合神经网络结构，它结合了ResNet的残差连接、UNet的编码-解码架构以及坐标注意力机制。该网络通过BasicBlock/BottleNeck构建块实现特征提取，采用VGGBlock进行卷积处理，并引入CoordinateAttention模块增强位置感知。在编码阶段逐层下采样，解码阶段通过上采样和跳跃连接恢复分辨率，最终输出分割结果。代码实现展示了完整的网络架构和数据处理流程，测试结果表明该模型能有效处理224×224的输入图像。这种创新组合利用了不同网络的优点，为图

2025-06-02 11:12:45 81

原创 U-ResNet 改进：集成特征金字塔网络(FPN)

本文介绍了UResNet模型的设计与实现，该模型融合了U-Net的编码器-解码器结构、ResNet的残差连接以及特征金字塔网络(FPN)的多尺度特征提取能力。模型包含Up模块、BasicBlock、BottleNeck、VGGBlock和FPN等核心组件，通过编码器下采样、解码器上采样与特征融合，最终输出分割结果。测试表明模型能正确处理256×256输入并输出对应尺寸的分割图。UResNet兼具U-Net的信息保留能力、ResNet的梯度缓解特性以及FPN的多尺度优势，为图像分割任务提供了灵活高效的解决方案

2025-06-02 10:18:00 361

原创 DeepSeek：不同模式（v3、R1）如何选择？

三种模型对比：基础版为默认选项；V3在开放性和规范性文本生成任务中表现优于R1，但使用R1时不宜提供示例（其自主性强）。官方提供PromptLibrary提示语库，V3和R1各有专用提示语模板，例如可将DeepSeek转化为智能体的定制提示方案（150字）

2025-05-29 15:29:02 473

原创改进系列（12）：基于SAM交互式点提示的UNet腹部多脏器分割方法研究

本文提出了一种基于点提示机制的交互式UNet网络用于腹部多脏器医学图像分割。该方法在传统UNet基础上扩展输入通道，加入点提示信息，允许用户在推理阶段通过点击前景和背景区域提供交互指导。实验采用394例腹部CT图像训练，98例验证，最终在验证集上达到Dice系数0.9358和IoU 0.8805的优异性能。与全自动方法相比，该交互式分割方案更具灵活性，能有效修正边界模糊区域的分割错误，为临床医学图像分析提供了实用解决方案。

2025-05-27 10:02:06 750

原创传输层：TCP协议详解

TCP协议摘要：TCP是一种面向字节流的可靠传输协议，其报文首部包含端口号、序号、确认号等关键字段。通过标记位(URG/ACK/SYN等)控制连接状态，利用窗口机制和校验和确保数据传输可靠性。支持紧急指针处理优先数据，采用自动重传(ARQ)和滑动窗口协议实现高效传输。接收窗口大小动态调整流量，选择确认选项优化重传机制。

2025-05-26 15:05:49 329

原创 ViT模型改进：基于双路径的多尺度特征融合

本文介绍了一种结合Vision Transformer (ViT) 和 ConvNeXt 的双路径深度学习模型，该模型通过多尺度处理和特征融合机制，在图像分类任务中表现出色。模型的核心组件包括多尺度模块和特征融合模块，分别用于捕获不同尺度的空间信息和自适应融合两种架构的特征。多尺度模块利用不同空洞率的卷积并行处理输入特征，而特征融合模块则通过注意力机制动态调整ViT和ConvNeXt特征的权重。双路径模型的设计充分发挥了ViT在全局特征捕获和ConvNeXt在局部特征提取上的优势，并通过预训练权重加速收敛。

2025-05-23 08:26:57 169

原创插值算法 - 图像缩放插值QT

本文介绍了一个基于PyQt5和OpenCV的图像缩放插值演示工具的实现。该工具允许用户上传本地图片（PNG/JPG/JPEG格式），选择四种常见的插值方法（最近邻插值、双线性插值、双三次插值、区域像素关系插值），并通过滑块实时调整缩放比例（0.1倍到4.0倍），同时并排显示原始图像和缩放后的图像。工具的核心功能包括图像加载与显示、插值方法处理和缩放应用。代码结构清晰，主类ImageScalingGUI负责构建GUI界面和处理用户交互，核心函数apply_scaling根据用户选择的插值方法应用不同的Open

2025-05-22 18:04:18 316

原创改进系列（11）：基于TransUNet改进SA和特征金字塔注意力模块：心脏超声分割

TransUNet是一种结合了Transformer和U-Net架构的医学图像分割模型，它通过将Transformer的强大全局建模能力与U-Net的局部特征提取能力相结合，在医学图像分割任务中表现出色。

2025-05-14 15:43:37 1056

原创 DenseUnet 改进：结合RepHMS动态调整尺度模块

DenseUNet是一种创新的图像分割网络架构，结合了DenseNet的特征提取能力和U-Net的多尺度特征融合机制。其核心创新在于引入了RepHMS模块，该模块支持动态多尺度特征调整，能够根据目标尺寸灵活处理特征图。DenseUNet基于DenseNet-161构建，包含编码路径和解码路径，通过RepHMS模块在解码路径的每个阶段进行多尺度特征调整，并与编码路径的特征进行融合。网络还采用了密集跳跃连接，确保特征的有效传递和重用。DenseUNet支持任意输入通道数和可配置的输出类别数，适用于需要精确像素级

2025-05-14 07:30:00 85

原创传输层：UDP协议

UDP（User Datagram Protocol，用户数据报协议）是一种无连接的传输层协议，适用于对实时性要求高但允许少量丢包的应用，如视频流和DNS查询。UDP报文由8字节的头部和可变长度的数据部分组成。头部包括源端口号、目的端口号、报文长度和校验和。校验和用于检测传输错误，计算时包括伪头部、UDP头部和数据部分。UDP的特点是无连接、不可靠和轻量级，适用于低延迟场景。示例报文展示了如何构造一个简单的UDP报文。

2025-05-13 19:40:35 462

原创网络层：ARP协议（原理、攻击和防御）

声明：本文只做原理讲解，分享技术。一切实验均在虚拟机中实现

2025-05-13 10:33:03 244

原创 FCN改进：CBAM注意力机制增强FCN-ResNet50分割模型

本文介绍了一个结合CBAM（Convolutional Block Attention Module）注意力机制的FCN-ResNet50语义分割模型的实现。CBAM模块通过通道注意力和空间注意力机制，帮助模型聚焦于图像中的重要特征和区域，从而提高分割精度。代码首先实现了CBAM模块，接着在FCN-ResNet50模型的ResNet50骨干网络的四个层级后分别添加了CBAM模块，最后进行了前向传播测试。测试结果显示，模型能够输出5个类别的分割概率图。这种设计通过在不同层级添加注意力模块，捕捉不同尺度的特征，

2025-05-13 09:24:40 656

原创网络层：ICMP协议

ICMP（Internet Control Message Protocol）是IP协议的一部分，用于发送差错报告和网络诊断信息。其报文格式包括类型和代码字段，用于标识不同的差错类型。常见的差错报告报文包括TTL过期、目标主机不可达和路由重定向。TTL过期表示数据包在传输过程中超过了生存时间；目标主机不可达表示无法找到目标网络的路由；路由重定向则指示更优的路由路径。此外，ping命令用于测试网络连通性，tracert命令用于追踪数据包路径，pathping命令结合了ping和tracert的功能，提供更详细

2025-05-12 18:14:53 230

原创 DeepSeek+Kimi实战：PPT制作教程

如下：生成完了，进行复制：如下：Kimi - 会推理解析，能深度思考的AI助手选择这里进行将deepseek生成的复制进去生成ppt可以选择模板，点生成即可如下：可以自行编辑或者直接下载下载即可：会自动在网页弹窗参考制作的ppt：【免费】人工智能授课ppt参考资源-CSDN文库

2025-05-08 17:49:25 462

原创 DeepSeek+即梦AI实战：图片制作教程

复制这里：如下：即梦AI - 一站式AI创作平台点进这里复制即可：如下：效果不能说差吧，相比之前自己的提示词，确实好了不少

2025-05-08 15:29:32 258

原创第20章：深度学习图像分割实战之UNet与DeepLabV3的对比分析【脊椎分割实验】

本文实现了一个完整的图像分割项目框架，通过对比UNet和DeepLabV3两种经典网络，展示了不同架构在分割任务上的表现差异。项目提供了从数据预处理到结果可视化的完整流程，可以作为图像分割任务的开发模板。实验结果表明，没有绝对优越的模型，实际应用中需要根据具体任务需求和数据特点选择合适的架构。本文通过对比两种经典分割网络——UNet和DeepLabV3，分享一个完整的图像分割项目实现，包括数据预处理、模型训练、评估指标可视化和模型对比分析。可以自己将模型扩充多个，然后，这里填对应的json结果即可。

2025-05-07 10:20:14 1396

原创 opencv实战：银行卡卡号识别

在当今数字化时代，光学字符识别(OCR)技术变得越来越重要。本文将详细介绍如何使用来识别银行卡的卡号，并在原图上标注识别结果。

2025-05-06 18:46:33 899

原创【C语言】推箱子小游戏

这是一个基于C语言实现的经典推箱子游戏，采用控制台字符界面进行交互。玩家通过WASD键控制角色推动箱子，目标是将所有箱子移动到指定点位。程序包含地图绘制、碰撞检测、胜利判断等完整游戏机制。

2025-05-06 16:14:31 290

原创 EfficientNet 改进：与Transformer结合的图像分类模型

这个实现将EfficientNet的高效特征提取能力与Transformer的强大序列建模能力相结合，主要包含以下几个核心组件：基础卷积模块：包括Swish激活函数和ConvBnAct组合模块MBConv模块：EfficientNet的核心构建块Squeeze-Excitation注意力机制：通道注意力模块Transformer分类头：替代传统全连接层的创新设计。

2025-05-04 12:38:12 132

DenseNet121,161,169,201等模型实现的迁移学习、自适应图像识别项目实战：天气状况图像分类

【项目简介】代码主干网络采用DenseNet家族系列，包括densenet121,161,169,201模型。训练的时候是否需要载入官方在imageNet数据集上的预训练权重或者仅仅训练分类输出层，只需要更改pretrained和freeze_layers参数即可。为了做对比消融试验，优化器采用了Adam和SGD两种，如果需要增加其他的，可以自行在if语句中添加。损失函数采用多类别的交叉熵、学习率优化策略采用cos余弦退火算法【评估网络】评估的指标采用loss和准确率（accuracy），分别会在训练集和验证集上进行评估、输出、绘制曲线图像。同时会在训练集、验证集进行评估，包含混淆矩阵、recall、precision、F1 score等等曲线图像，以及recall、precision、F1 score、特异度的输出信息等等。【如果想要更换数据集训练，参考readme文件】【本项目为天气状况图像分类（约1.5k张数据），包含数据集和标签，可以一键运行】

2025-06-25

深度学习数据集：自然天气状况图像分类【已划分训练集、测试集、字典文件、python数据可视化脚本】

【数据集详情】data目录下分为2个目录，train为训练集、val为验证集，存放各自的同一类数据图片。train数据总数1000，val数据总数400。可以用作yolov5的分类数据集。为了方便查看数据，提供了可视化py文件，随机传入4张图片即可展示，并且保存在当前目录。关于神经网络改进：https://blog.csdn.net/qq_44886601/category_12858320.html 类别5： { "0": "cloudy", "1": "foggy", "2": "rainy", "3": "shine", "4": "sunrise" }

2025-06-25

基于深度学习 Resnet 网络图像分类实战：驾驶员眼球状态图像分类

【分类介绍】网络采用resnet家族 1.训练的时候根据需要进行迁移学习或者只训练分类层；为了做对比消融试验，优化器采用了Adam和SGD，也可以自行添加；损失函数采用多类别的交叉熵、学习率优化策略采用cos余弦退火算法 2. 验证集的评估会在训练同时完成，训练脚本会对训练集和验证集同时评估，指标有loss、准确率、混淆矩阵、recall、precision、F1 score、特异度等，并返回对应的曲线图像。也可以根据个人需要绘制不同曲线，请参考训练日志json文件 3. 推理的时候将图片放在指定目录即可 4. 想要更换数据集，参考readme文件，按照要求摆放好数据即可本项目数据集为7种驾驶员眼球状态图像分类，可以一键运行更多分类、分割改进：https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-25

深度学习数据集：驾驶员眼球状态检测图像分类【已划分训练集、测试集、字典文件、python数据可视化脚本】

【数据集详情】data目录下分为2个目录，train为训练集、val为验证集，存放各自的同一类数据图片。train数据总数3400，val数据总数1400。可以用作yolov5的分类数据集。为了方便查看数据，提供了可视化py文件，随机传入4张图片即可展示，并且保存在当前目录。关于神经网络改进：https://blog.csdn.net/qq_44886601/category_12858320.html 类别7： { "0": "angry", "1": "brake", "2": "distracted", "3": "excited", "4": "focus", "5": "mistake", "6": "tired" }

2025-06-25

深度学习数据集：服装图像分类【已划分训练集、测试集、字典文件、python数据可视化脚本】

【数据集详情】data目录下分为2个目录，train为训练集、val为验证集，存放各自的同一类数据图片。train数据总数5200，val数据总数2200。可以用作yolov5的分类数据集。为了方便查看数据，提供了可视化py文件，随机传入4张图片即可展示，并且保存在当前目录。关于神经网络改进：https://blog.csdn.net/qq_44886601/category_12858320.html 类别15： Blazer 夹克 Celana_Panjang (Long Pants) Celana_Panjang （长裤） Celana_Pendek (Shorts) Celana_Pendek （短裤） Gaun (Dresses) Gaun （连衣裙） Hoodie 帽衫 Jaket (Jacket) Jaket （夹克） Jaket_Denim (Denim Jacket) Jaket_Denim （牛仔夹克） Jaket_Olahraga (Sports Jacket) Jaket_Olahraga （运动夹克） Jeans 牛仔裤 Kaos (T-shirt) Kaos （T 恤） Kemeja (Shirt) Kemeja （衬衫） Mantel (Coat) 壁炉架（外套） Polo 马球 Rok (Skirt) Rok （裙子） Sweter (Sweater) Sweter （毛衣）

2025-06-25

Resnet 网络改进实战（在每个layer后加入CBAM模块实战）：服装衣服图像分类

【分类介绍】网络采用resnet家族系列，包括resnet18、34、50、101、152系列 1.训练的时候根据需要进行迁移学习或者只训练分类层；为了做对比消融试验，优化器采用了Adam和SGD，也可以自行添加；损失函数采用多类别的交叉熵、学习率优化策略采用cos余弦退火算法 2. 验证集的评估会在训练同时完成，训练脚本会对训练集和验证集同时评估，指标有loss、准确率、混淆矩阵、recall、precision、F1 score、特异度等，并返回对应的曲线图像。也可以根据个人需要绘制不同曲线，请参考训练日志json文件 3. 推理的时候将图片放在指定目录即可 4. 想要更换数据集，参考readme文件，按照要求摆放好数据即可【改进】代码在resnet每个layer后加入了CBAM模块，可以根据需要只在某个layer后添加，注释掉其他的即可。为了方便，想要更好别的模块，只需要将CBAM替换即可本项目数据集为15种服饰图像分类更多分类、分割改进：https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-25

基于VGG模型(vgg11、vgg13、vgg16等)实现的自适应迁移学习图像识别：服装图像分类

【项目简介】代码主干网络采用VGG家族系列，包括vgg11、vgg13、vgg16、vgg19等模型。训练的时候是否需要载入官方在imageNet数据集上的预训练权重或者仅仅训练分类输出层，只需要更改pretrained和freeze_layers参数即可。为了做对比消融试验，优化器采用了Adam和SGD两种，如果需要增加其他的，可以自行在if语句中添加。损失函数采用多类别的交叉熵、学习率优化策略采用cos余弦退火算法【评估网络】评估的指标采用loss和准确率（accuracy），分别会在训练集和验证集上进行评估、输出、绘制曲线图像。同时会在训练集、验证集进行一系列评估，包含混淆矩阵、recall、precision、F1 score等等曲线图像，以及recall、precision、F1 score、特异度的输出信息等等。【具体各类别的指标在json文件中查看】【how to train】仅仅将数据集按照本项目的参考猫狗数据集摆放即可，参考readme文件，不需要更改参数！！【本项目为15种常见服装图像分类（约7k数据），包含数据集和标签，可以一键运行】关于vgg网络模型的改进：https://blog.csdn.net/qq_44886601/category_12858320.html

2025-06-25

闭路电视视频中的枪支和刀具检测图像目标检测数据【已标注，约7200张数据和标签，YOLO 标注格式】

类别个数【2】：pistol knife【具体参考classes文件】数据集做了7：3训练集、验证集划分。 yolov5的改进实战：https://blog.csdn.net/qq_44886601/category_12605353.html 【更多图像分类、图像分割（医学）、目标检测（yolo）的项目以及相应网络的改进，可以参考本人主页：https://blog.csdn.net/qq_44886601/category_12803200.html】

2025-06-25

洪水区域图像语义分割数据集（约280张数据和标签，已处理完可以直接训练，2类别图像分割）

【洪水区域的分割，，标签信息，查看classes文件】数据集介绍：【已经划分好】训练集：images图片目录+masks模板目录，200张左右图片和对应的mask图片验证集：images图片目录+masks模板目录，80张左右图片和对应的mask图片除此之外，包含一个图像分割的可视化脚本，随机提取一张图片，将其原始图片、GT图像、GT在原图蒙板的图像展示，并保存在当前目录下 AI改进网络介绍：https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进，参考改进专栏：https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-23

ResUNet+SSPP+CAM+联合损失改进：洪水灾害图像分割数据集（2类图像分割任务）

代码实现了一个基于UNet架构的医学图像分割系统，支持标准UNet模型，能够自动处理CT等医学影像数据的分割任务。系统采用PyTorch框架构建，包含完整的数据加载、模型训练、评估和可视化功能，使用交叉熵损失函数和AdamW优化器进行训练，并通过余弦退火策略调整学习率。训练过程中会计算Dice系数、IoU、精确率、召回率等指标，并将结果以JSON格式保存，同时提供损失曲线、学习率衰减曲线等多维度可视化功能。代码通过命令行参数灵活配置，支持自定义输入尺寸、批次大小等超参数，能够自动分析掩码图像确定分割类别数，并保存最佳模型权重，为医学图像分割任务提供了完整的解决方案。同事提供了美观的可视化推理界面，可以一键推理。【改进策略】1.加入SSPP模块 2.加入CAM注意力模块 3.采用多类别的交叉熵和dice 损失更多unet、swinUnet改进：https://blog.csdn.net/qq_44886601/category_12858320.html

2025-06-23

基于UNet与DeepLabV3的图像分割系统【训练、评估与可视化分析】自然灾害洪水区域分割、包含完整数据集和代码

系统基于PyTorch框架，支持UNet和DeepLabV3两种主流分割网络，实现了端到端的训练流程和性能评估。 train.py是系统的核心执行文件，负责整个训练流程的协调。它首先通过参数解析器接收用户配置，包括模型类型、训练参数（批次大小、学习率、epoch数等）、数据路径等。系统会自动创建输出目录，初始化模型，并采用Adam优化器配合余弦退火学习率衰减策略。训练过程中，系统使用自定义的MyDataset类加载数据，支持数据增强和CT图像的特殊预处理。每个epoch会计算并记录训练集和验证集的损失值、mIoU、Dice系数等指标，通过ConfusionMatrix类综合评估模型性能，自动保存最佳模型权重。训练结束后会生成学习率衰减曲线、损失-指标曲线等多种可视化结果。 utils.py提供了丰富的工具函数，包括：1）模型构建函数get_model，根据参数实例化对应网络；2）混淆矩阵类ConfusionMatrix，用于计算精度、召回率、F1、IoU等关键指标；3）数据加载类MyDataset，实现图像预处理、数据增强和标签映射；4）多种可视化函数，如plot_lr_decay绘制学习率变化，plt_loss_iou_dice展示训练曲线；5）训练和评估的核心函数train_one_epoch/evaluate，包含前向传播、损失计算和指标统计逻辑。 compare.py专注于训练结果的可视化分析，通过加载训练生成的JSON日志文件，提供跨模型的性能对比功能。其extract_metrics函数能解析不同模型的训练指标，plot_comparison函数则生成包含训练集和验证集对比的子图，支持F1、IoU、Loss等指标的并行展示，便于研究者直观比较不同模型的优劣。

2025-06-23

基于Swin Transformer的SAM点提示交互式图像分割系统源码

在这个人工智能技术飞速发展的时代，图像分割作为计算机视觉领域的重要研究方向，正在医疗诊断、自动驾驶、遥感监测等诸多领域发挥着关键作用。本文将介绍一个基于Swin Transformer架构的交互式图像分割系统，它通过创新的点提示机制，实现了高效精准的图像分割效果。这一系统的核心在于其独特的网络架构设计。模型采用了Swin Transformer作为基础结构，这是一种具有层次化设计的视觉Transformer，通过局部窗口内的自注意力计算和窗口间的移位操作，既保持了Transformer强大的特征提取能力，又显著降低了计算复杂度。特别值得注意的是，该系统创造性地将传统的4通道输入（RGB图像加单通道点提示图）与Swin Transformer相结合，使得模型能够同时理解图像内容和用户交互意图。系统的训练过程体现了严谨的科学方法。训练数据集采用了标准的图像-掩膜对结构，通过自定义的MyDataset类实现了数据的高效加载与增强。在训练策略上，系统采用了AdamW优化器和余弦退火学习率调度，配合交叉熵损失函数，确保了模型稳定收敛。评估指标方面，除了常规的准确率和IoU外，还引入了Dice系数和F1分数等医学图像分割中常用的评价标准，全面衡量模型性能。在交互设计上，该系统展现了人性化的特点。基于Tkinter构建的图形界面简洁直观，用户可以通过简单的鼠标点击添加前景点和背景点提示。系统实时响应这些交互信息，将其编码为点提示图并与原始图像拼接，形成4通道输入。这种设计不仅降低了用户交互门槛，还通过可视化掩膜叠加和点标记反馈，形成了良好的用户体验闭环。技术实现细节上，系统展现了多项创新。在数据预处理阶段，采用了动态点采样策略，根据掩膜内容自动选择最具代表性的前景点；在结果可视化环节，通过透明叠加和热力图等技术，使分割结果一目了然。

2025-06-23

甲状腺结节分析系统，基于超声图像和结节掩膜自动评估结节的临床特征，并按照ACR TI-RADS标准进行分类

这段代码实现了一个甲状腺结节分析系统，基于超声图像和结节掩膜自动评估结节的临床特征，并按照ACR TI-RADS标准进行分类。系统采用Python编写，主要依赖OpenCV和NumPy库进行图像处理与数值计算。代码核心是`ThyroidNoduleAnalyzer`类，包含多个量化方法：`quantify_composition()`通过灰度直方图分析结节成分（囊性/实性/混合型），严格遵循Zhuang等人的论文方法；`quantify_echogenicity()`比较结节与正常甲状腺组织的灰度差异，确定回声强度（高回声/等回声/低回声）；`quantify_shape()`计算纵横比和紧凑度评估形态特征；`quantify_margin()`通过边界带灰度差异分析边缘规则性；`quantify_echogenic_foci()`检测钙化灶类型（点状/粗钙化/彗星尾征）。此外，`create_thyroid_mask()`方法从结节位置推断甲状腺区域，`calculate_tirads()`整合各特征得分生成TI-RADS分级（TR1-TR5）和临床建议。系统最终输出结构化分析结果和可读报告，包含五项特征的具体评分、总分、TI-RADS分级及临床处理建议。该实现紧密结合临床指南，通过量化指标减少主观判断差异，适用于辅助医生进行甲状腺结节风险评估。示例代码展示了从图像加载到报告生成的全流程，实际应用中需确保输入图像和掩膜的质量。

2025-06-26

深度学习基于WGAM模块的Swin Transformer改进：多尺度特征融合与注意力机制在图像分类中的应用

内容概要：本文介绍了一个名为WGAM（Wavelet-based Global Attention Module）的深度学习模块，它结合了小波变换、通道注意力机制和空间注意力机制来增强特征表示。该模块首先对输入图像进行小波分解，得到四个子带系数（LL、LH、HL、HH），然后分别应用可学习权重，并对LL子带应用通道注意力机制。接着，所有子带经过上采样后合并，并施加空间注意力机制。最后，减少通道数量以匹配输入通道数。此外，还展示了如何将WGAM集成到Swin Transformer模型中，通过修改其部分结构以适应新的模块。; 适合人群：具有深度学习基础知识，特别是熟悉卷积神经网络和注意力机制的研究人员或工程师。; 使用场景及目标：①研究和开发基于小波变换的深度学习模型；②改进现有视觉模型的特征提取能力；③探索多尺度特征融合的新方法。; 阅读建议：读者应具备一定的PyTorch编程经验，以及对小波变换和注意力机制的理解。在阅读时，建议重点关注WGAM的设计思路及其与Swin Transformer的集成方式，并尝试复现代码以加深理解。

2025-06-21

基于EfficientNet的手势识别计算器系统设计与实现

摘要本文提出了一种基于深度学习的手势识别计算器系统，该系统能够识别1-9的手势数字图像，并执行基本的算术运算。系统采用EfficientNet-B0作为基础网络架构，通过迁移学习和微调技术实现高精度手势识别。实验结果表明，该系统在测试集上达到了较高的识别准确率，并能准确执行加减乘除等基本运算。本研究为人机交互领域提供了一种直观、自然的交互方式，在教育、辅助计算等领域具有潜在应用价值。关键词：手势识别；EfficientNet；深度学习；人机交互；计算器系统随着计算机视觉和深度学习技术的快速发展，基于视觉的手势识别技术已成为人机交互领域的研究热点之一。传统计算器需要用户通过物理或虚拟按键输入数字，而基于手势识别的计算器系统则提供了一种更为自然直观的交互方式，特别适用于教育、虚拟现实和辅助技术等应用场景。本文设计并实现了一个基于PyQt5图形界面和PyTorch深度学习框架的手势识别计算器系统。系统核心采用EfficientNet-B0网络结构，通过迁移学习技术在手势数据集上进行微调训练，实现了1-9手势数字的高精度识别。系统界面友好，支持用户上传手势图片并选择加减乘除等运算操作，计算结果实时显示。相比传统手势识别方法，本系统具有以下优势：(1)采用轻量级EfficientNet网络，在保证识别精度的同时降低了计算资源需求；(2)提供直观的图形用户界面，操作简便；(3)系统模块化设计，便于功能扩展和性能优化。

2025-06-19

医学图像数据集：腹部13类别器官图像语义分割数据集（约1100张数据和标签，已处理，多类别图像分割）

【14类别的分割，查看classes文件】 { "0": "background", "1": "spleen", "2": "right kidney", "3": "left kidney", "4": "gallbladder", "5": "esophagus", "6": "liver", "7": "stomach", "8": "aorta", "9": "IVC", "10": "veins", "11": "pancreas", "12": "rad", "13": "lad" } 数据集介绍：【已经划分好】训练集：images图片目录+masks模板目录，900张左右图片和对应的mask图片验证集：images图片目录+masks模板目录，200张左右图片和对应的mask图片除此之外，包含一个图像分割的可视化脚本，随机提取一张图片，将其原始图片、GT图像、GT在原图蒙板的图像展示，并保存在当前目录下 AI改进网络介绍：https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进，参考改进专栏：https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-19

深度学习基于PyTorch的UNet图像分割模型实现：双卷积与注意力机制结合的医学影像分析系统设计

内容概要：本文档详细介绍了基于PyTorch实现的UNet神经网络架构及其组件。UNet是一种常用于图像分割任务的卷积神经网络。文中定义了多个模块，包括DoubleConv（双卷积层）、CAM（通道注意力模块）、DLKA（动态大核注意力机制）、Triplet_DoubleConv（结合了双卷积与两种注意力机制）、Down（下采样模块）、Up（上采样模块）以及OutConv（输出层）。这些模块共同构成了完整的UNet模型。每个模块都精心设计了前向传播方法，确保了特征提取的有效性和准确性。此外，还展示了如何创建UNet实例并进行简单的测试。适合人群：对深度学习尤其是计算机视觉领域感兴趣的开发者或研究人员，特别是那些希望深入了解UNet架构及其应用的人士。使用场景及目标：①理解UNet的工作原理，包括各个组成部分的功能；②掌握如何使用PyTorch构建复杂的神经网络模型；③为解决实际问题如医学影像分析、遥感图像处理等提供理论和技术支持。阅读建议：由于本文档主要涉及技术细节，建议读者具备一定的Python编程能力和PyTorch框架基础知识，在阅读时可以结合相关文献资料加深理解，同时尝试运行示例代码以增强实践能力。

2025-06-19

基于Swin Transformer的SAM交互式图像分割方法研究：腹部多器官医学图像分割

摘要：本文提出了一种基于Swin Transformer架构的交互式图像分割方法，通过引入点提示机制实现用户引导的精确分割。该方法采用编码器-解码器结构，在编码阶段利用Swin Transformer的层次化特征提取能力，在解码阶段结合跳跃连接恢复空间细节。实验结果表明，该方法在标准数据集上取得了较高的分割精度（mIoU达到0.85），同时支持用户通过点击交互优化分割结果。本文详细介绍了网络架构设计、训练策略以及交互式推理系统的实现。交互式图像分割是计算机视觉领域的重要研究方向，它允许用户通过简单的交互（如点击、画线）指导算法完成精确分割。传统方法如GrabCut依赖人工设计的能量函数，而深度学习方法通过学习复杂特征表示显著提升了性能。本文基于Swin Transformer架构，设计了一种端到端的交互式分割系统，主要贡献包括：提出了四通道输入机制，将RGB图像与点提示通道融合设计了基于Swin UNet的轻量级网络结构实现了完整的训练-推理流程和可视化交互界面

2025-06-19

深度学习数据集：芒果水果病害图像分类【已划分训练集、测试集、字典文件、python数据可视化脚本】

【数据集详情】data目录下分为2个目录，train为训练集、val为验证集，存放各自的同一类数据图片。train数据总数2900，val数据总数1200。可以用作yolov5的分类数据集。为了方便查看数据，提供了可视化py文件，随机传入4张图片即可展示，并且保存在当前目录。关于神经网络改进：https://blog.csdn.net/qq_44886601/category_12858320.html 类别5： { "0": "Alternariose", "1": "Anthracnose", "2": "Aspergillus Rot", "3": "Healthy", "4": "Stem and Rot" }

2025-06-17

无人机图像语义分割数据集（约1000张数据和标签，已处理完可以直接训练，2类别图像分割）

【无人机类别的分割，查看classes文件】数据集介绍：【已经划分好】训练集：images图片目录+masks模板目录，700张左右图片和对应的mask图片验证集：images图片目录+masks模板目录，300张左右图片和对应的mask图片除此之外，包含一个图像分割的可视化脚本，随机提取一张图片，将其原始图片、GT图像、GT在原图蒙板的图像展示，并保存在当前目录下 AI改进网络介绍：https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进，参考改进专栏：https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-17

基于Swin Transformer的SAM交互式图像分割方法研究：卫星视角下的城镇地面目标图像分割

摘要：本文提出了一种基于Swin Transformer架构的交互式图像分割方法，通过引入点提示机制实现用户引导的精确分割。该方法采用编码器-解码器结构，在编码阶段利用Swin Transformer的层次化特征提取能力，在解码阶段结合跳跃连接恢复空间细节。实验结果表明，该方法在标准数据集上取得了较高的分割精度（mIoU达到0.8），同时支持用户通过点击交互优化分割结果。本文详细介绍了网络架构设计、训练策略以及交互式推理系统的实现。交互式图像分割是计算机视觉领域的重要研究方向，它允许用户通过简单的交互（如点击、画线）指导算法完成精确分割。传统方法如GrabCut依赖人工设计的能量函数，而深度学习方法通过学习复杂特征表示显著提升了性能。本文基于Swin Transformer架构，设计了一种端到端的交互式分割系统，主要贡献包括：提出了四通道输入机制，将RGB图像与点提示通道融合设计了基于Swin UNet的轻量级网络结构实现了完整的训练-推理流程和可视化交互界面

2025-07-27

基于Unet实现的图像分割完整项目：遥感城镇地面信息图像分割（送denseUnet分割代码）

数据集采用【遥感城镇地面信息图像分割】，数据在data目录下，划分了训练集和验证集。【代码可一键运行】【介绍】分割网络为DenseUnet和Unet（可以自行选择），学习率采用cos余弦退火算法。如果想在大尺度进行训练，修改base-size参数即可，优化器采用了AdamW。评估的指标为dice、iou、recall、precision、f1、pixel accuracy等等，代码会对训练和验证集进行评估，结果保存runs下的json文件中。网络推理的时候，会自动将inference/img下所有图像进行推理，并且保存在infer_get、show下，前者是推理gt阈值图像，后者是img+推理gt的掩膜效果更多医学图像语义分割实战：https://blog.csdn.net/qq_44886601/category_12816068.html

2025-07-27

基于UNet、UNet++、UNet3+实现的遥感城市地面目标图像的分割项目，包含可视化QT推理界面【pytorch实现】

基于UNet、UNet++、UNet3+实现的航拍下的海路区域分割项目，包含可视化QT推理界面【pytorch实现】数据集采用【遥感城市地面目标图像分割】，数据在data目录下，划分了训练集和验证集。【代码可一键运行】【介绍】分割网络为UNet、UNet++、UNet3+（可以自行选择），学习率采用cos余弦退火算法。如果想在大尺度进行训练，修改base-size参数即可，优化器采用了AdamW。评估的指标为dice、iou、recall、precision、f1、pixel accuracy等代码会对训练和验证集进行评估。如果有测试集的话，也会自动进行评估网络推理的时候，会生成QT窗口，直接上传图片即可更多医学图像语义分割实战：https://blog.csdn.net/qq_44886601/category_12816068.html 医学图像改进：https://blog.csdn.net/qq_44886601/category_12858320.html

2025-07-27

基于ResUNet+SSPP+CAM+联合损失改进的完整图像分割项目、有效涨点！

2025-07-27

遥感城市图像语义分割数据集（约1000张数据和标签，已处理完可以直接训练，8类别图像分割）

【海陆区域的分割，标签信息，0 背景 1 建筑等查看classes文件】数据集介绍：【已经划分好】训练集：images图片目录+masks模板目录，800张左右图片和对应的mask图片验证集：images图片目录+masks模板目录，300张左右图片和对应的mask图片除此之外，包含一个图像分割的可视化脚本，随机提取一张图片，将其原始图片、GT图像、GT在原图蒙板的图像展示，并保存在当前目录下 AI改进网络介绍：https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进，参考改进专栏：https://blog.csdn.net/qq_44886601/category_12803200.html

2025-07-27

深度学习基于Transformer增强的VGG16卷积神经网络模型设计：图像分类任务中的特征提取与性能提升

内容概要：本文介绍了一个结合了卷积神经网络（CNN）和Transformer架构的混合模型——VGGWithTransformer。该模型在经典的VGG网络基础上，在特定阶段插入了VisionTransformer模块，以增强模型对全局信息的理解能力。VisionTransformer模块包含多个Transformer编码层，每个编码层实现了自注意力机制和前馈神经网络。通过将图像划分为多个补丁，并为每个补丁添加位置嵌入，然后送入Transformer进行处理，最后再投影回原始维度。VGGWithTransformer模型在特定的卷积层之后可以选择性地插入Transformer模块，以提升模型性能。此外，还提供了模型初始化权重的方法，确保模型训练初期具有较好的收敛性。; 适合人群：具备一定深度学习基础，特别是熟悉CNN和Transformer架构的研究人员和工程师。; 使用场景及目标：①用于图像分类任务，特别是在需要结合局部特征提取和全局信息理解的场景下；②探索Transformer与传统CNN结合的效果，评估其在不同数据集上的表现；③为研究人员提供一个可扩展的框架，便于进一步优化和改进。; 阅读建议：本文涉及复杂的深度学习概念和技术细节，建议读者先掌握CNN和Transformer的基本原理。同时，可以通过调整不同配置参数（如插入Transformer的位置、层数等）来实验和理解模型的工作机制。

2025-07-27

钢铁表面缺陷分割数据集

钢铁表面缺陷分割数据集，共100张图片和mask

2025-07-27

夜间交通车辆、行人图像目标检测数据【已标注，约9000张数据和标签，YOLO 标注格式】

类别个数【4】：bicycle car dog person【具体参考classes文件】数据集做了7：3训练集、验证集划分。 yolov5的改进实战：https://blog.csdn.net/qq_44886601/category_12605353.html 【更多图像分类、图像分割（医学）、目标检测（yolo）的项目以及相应网络的改进，可以参考本人主页：https://blog.csdn.net/qq_44886601/category_12803200.html】

2025-07-24

稀疏注意力机制改进的Swin Transformer模型

这段代码实现了一个基于稀疏注意力机制的改进版Swin Transformer模型。代码主要包含三个关键部分：SparseAttention类、replace_attention_layers函数和create_model函数。SparseAttention类是对标准Transformer注意力机制的改进，它通过引入稀疏性来减少计算复杂度。在forward方法中，该实现只保留top-k的注意力权重（k由sparsity_factor参数控制），其余权重置零，这种稀疏化处理可以显著降低计算量同时保持模型性能。此外，该类还包含了相对位置偏置机制，通过relative_position_bias_table和relative_position_index来捕捉位置信息。replace_attention_layers函数递归遍历模型的所有模块，将原始Swin Transformer中的标准注意力层替换为上述稀疏注意力层，同时保留原始参数配置。create_model函数则负责构建完整的模型架构，它基于torchvision中的预训练Swin-T模型，替换注意力层后修改了分类头部分。这种稀疏注意力机制特别适合处理高分辨率图像任务，因为随着输入尺寸增大，标准注意力层的计算复杂度会呈平方级增长，而稀疏注意力通过控制sparsity_factor可以在计算效率和模型性能之间取得平衡。代码最后还提供了简单的测试用例，展示了模型的基本使用方法。整体而言，这段代码展示了如何通过修改注意力机制来优化Transformer架构的计算效率，为资源受限的应用场景提供了可行的解决方案。

2025-07-24

轻量级网络MobileUnet实现的医学图像语义分割项目：TBI 病损区域分割

数据集采用【TBI 病损区域】，数据在data目录下，划分了训练集和验证集。【代码可一键运行】本项目训练了50个epoch，dice指标约为0.8左右，数据集约有1w张图片和标签。【介绍】分割网络为MobileUnet和EfficientUnet（可以自行选择），学习率采用cos余弦退火算法。如果想在大尺度进行训练，修改base-size参数即可，优化器采用了AdamW。评估的指标为dice、iou、recall、precision、f1、pixel accuracy等等，代码会对训练和验证集进行评估，结果保存runs下的json文件中。网络推理的时候，会自动将inference/img下所有图像进行推理，并且保存在infer_get、show下，前者是推理gt阈值图像，后者是img+推理gt的掩膜效果更多医学图像语义分割实战：https://blog.csdn.net/qq_44886601/category_12816068.html

2025-07-19

基于深度学习的甲状腺结节多目标分类系统、已经训练完成、包含数据和代码

项目概述本项目是一个基于深度学习的甲状腺结节多任务分类系统，旨在通过分析甲状腺超声图像，同时预测结节的多个临床相关特征。系统采用ResNet50作为基础模型，构建了一个多任务学习框架，能够同时评估结节的5个关键TI-RADS分类指标。 --- 各 TI-RADS 特征准确率 --- 总比较样本数: 192 Composition 准确率: 97.40% (187/192 匹配) Echogenicity 准确率: 96.35% (185/192 匹配) Shape 准确率: 99.48% (191/192 匹配) Margin 准确率: 96.35% (185/192 匹配) Echogenic Foci 准确率: 95.31% (183/192 匹配)

2025-07-15

医学图像分割数据：TBI（伤性脑损伤）MR图像切片分割【包含3个切面的切片数据、可视化代码、二值分割】

医学图像分割数据：TBI（伤性脑损伤）MR图像切片分割【包含3个切面的切片数据、可视化代码、二值分割】【其中mask中、0为背景，1为TBI区域等2类别】数据集：分别从轴位面（横端面）、冠状面、矢状面切分出2D图像。为了方便分割，这里切片的时候去除了ROI区域不足3%的数据，并且做了Windowing增强，全部缩放为256*256大小，并且标签做了二值化处理，前景区域全部处理为1灰度值。为了方便观察mask，提供了可视化代码（show.py）数据集介绍：分为x、y、z轴的切面图像 x轴：images图片目录+masks模板目录，1400张图片和对应的mask图片 y轴：images图片目录+masks模板目录，1300张图片和对应的mask图片 z轴：images图片目录+masks模板目录，1400张图片和对应的mask图片【更多医学图像分割代码及改进，参考本人专栏：https://blog.csdn.net/qq_44886601/category_12858320.html】

2025-07-15

伤性脑损伤（TBI）MR图像语义分割数据集（约11000张数据和标签，已处理完可以直接训练，2类别图像分割）

【标签信息，0 background，1 TBI查看classes文件】数据集介绍：【已经划分好】训练集：images图片目录+masks模板目录，8800张左右图片和对应的mask图片验证集：images图片目录+masks模板目录，3700张左右图片和对应的mask图片除此之外，包含一个图像分割的可视化脚本，随机提取一张图片，将其原始图片、GT图像、GT在原图蒙板的图像展示，并保存在当前目录下 AI改进网络介绍：https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进，参考改进专栏：https://blog.csdn.net/qq_44886601/category_12803200.html

2025-07-15

47张创伤性脑损伤（TBI）的3D数据和标签，nii.gz格式，已经标注

47张创伤性脑损伤（TBI）的3D数据和标签，nii.gz格式，已经标注，自动检测与分割 3D TBI 病损区域（基于 T1‑加权 MRI）

2025-07-15

基于transunet和transunet改进【空间注意力模块SA+特征金字塔+损失改进】分割系统：海岸线分割

代码实现了一个基于transunet和transunet改进架构的医学图像分割系统，支持标准UNet模型，能够自动处理CT等医学影像数据的分割任务。系统采用PyTorch框架构建，包含完整的数据加载、模型训练、评估和可视化功能，使用交叉熵损失函数和AdamW优化器进行训练，并通过余弦退火策略调整学习率。训练过程中会计算Dice系数、IoU、精确率、召回率等指标，并将结果以JSON格式保存，同时提供损失曲线、学习率衰减曲线等多维度可视化功能。代码通过命令行参数灵活配置，支持自定义输入尺寸、批次大小等超参数，能够自动分析掩码图像确定分割类别数，并保存最佳模型权重，为医学图像分割任务提供了完整的解决方案。推理采用QT可视化推理，可保存结果。【改进策略】1.空间注意力模块 2.特征金字塔模块 3.采用多类别的交叉熵和dice 损失更多unet、swinUnet改进：https://blog.csdn.net/qq_44886601/category_12858320.html

2025-06-30

基于网页版推理实现的ResUNet和UNet医学图像分割项目：海岸线图像分割

数据集采用【海岸线图像分割】，数据在data目录下，划分了训练集和验证集。【代码可一键运行】【介绍】分割网络为ResUNet和UNet（可以自行选择），学习率采用cos余弦退火算法。如果想在大尺度进行训练，修改base-size参数即可，优化器采用了AdamW。评估的指标为dice、iou、recall、precision、f1、pixel accuracy等等，代码会对训练和验证集进行评估，结果保存runs下的json文件中。网络推理的时候采用可视化推理，运行infer脚本会打开本地网页，上传图片即可进行推理更多医学图像语义分割实战：https://blog.csdn.net/qq_44886601/category_12816068.html 图像分类、语义分割网络改进：https://blog.csdn.net/qq_44886601/category_12858320.html

2025-06-30

基于UNet、UNet++、UNet3+实现的航拍下的海路区域分割项目，包含可视化QT推理界面【pytorch实现】

基于UNet、UNet++、UNet3+实现的航拍下的海路区域分割项目，包含可视化QT推理界面【pytorch实现】数据集采用【海洋、陆地图像分割】，数据在data目录下，划分了训练集和验证集。【代码可一键运行】【介绍】分割网络为UNet、UNet++、UNet3+（可以自行选择），学习率采用cos余弦退火算法。如果想在大尺度进行训练，修改base-size参数即可，优化器采用了AdamW。评估的指标为dice、iou、recall、precision、f1、pixel accuracy等代码会对训练和验证集进行评估。如果有测试集的话，也会自动进行评估网络推理的时候，会生成QT窗口，直接上传图片即可更多医学图像语义分割实战：https://blog.csdn.net/qq_44886601/category_12816068.html 医学图像改进：https://blog.csdn.net/qq_44886601/category_12858320.html

2025-06-30

200多张高质量的裂缝分割数据集、已经标注

2025-07-06

海岸线区域图像语义分割数据集（约2000张数据和标签，已处理完可以直接训练，2类别图像分割）

【海陆区域的分割，标签信息，0 背景 255 海岸线查看classes文件】数据集介绍：【已经划分好】训练集：images图片目录+masks模板目录，1400张左右图片和对应的mask图片验证集：images图片目录+masks模板目录，600张左右图片和对应的mask图片除此之外，包含一个图像分割的可视化脚本，随机提取一张图片，将其原始图片、GT图像、GT在原图蒙板的图像展示，并保存在当前目录下 AI改进网络介绍：https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进，参考改进专栏：https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-30

航拍下的海陆区域图像语义分割数据集（约2000张数据和标签，已处理完可以直接训练，2类别图像分割）

【海陆区域的分割，标签信息，0 陆地 255 海水查看classes文件】数据集介绍：【已经划分好】训练集：images图片目录+masks模板目录，1400张左右图片和对应的mask图片验证集：images图片目录+masks模板目录，600张左右图片和对应的mask图片除此之外，包含一个图像分割的可视化脚本，随机提取一张图片，将其原始图片、GT图像、GT在原图蒙板的图像展示，并保存在当前目录下 AI改进网络介绍：https://blog.csdn.net/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进，参考改进专栏：https://blog.csdn.net/qq_44886601/category_12803200.html

2025-06-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

DenseNet121,161,169,201等模型实现的迁移学习、自适应图像识别项目实战：天气状况图像分类

深度学习数据集：自然天气状况图像分类【已划分训练集、测试集、字典文件、python数据可视化脚本】

基于深度学习 Resnet 网络图像分类实战：驾驶员眼球状态图像分类

深度学习数据集：驾驶员眼球状态检测图像分类【已划分训练集、测试集、字典文件、python数据可视化脚本】

深度学习数据集：服装图像分类【已划分训练集、测试集、字典文件、python数据可视化脚本】

Resnet 网络改进实战（在每个layer后加入CBAM模块实战）：服装衣服图像分类

基于VGG模型(vgg11、vgg13、vgg16等)实现的自适应迁移学习图像识别：服装图像分类

闭路电视视频中的枪支和刀具检测图像目标检测数据【已标注，约7200张数据和标签，YOLO 标注格式】

洪水区域图像语义分割数据集（约280张数据和标签，已处理完可以直接训练，2类别图像分割）

ResUNet+SSPP+CAM+联合损失改进：洪水灾害图像分割数据集（2类图像分割任务）

基于UNet与DeepLabV3的图像分割系统【训练、评估与可视化分析】自然灾害洪水区域分割、包含完整数据集和代码

基于Swin Transformer的SAM点提示交互式图像分割系统源码

甲状腺结节分析系统，基于超声图像和结节掩膜自动评估结节的临床特征，并按照ACR TI-RADS标准进行分类

深度学习基于WGAM模块的Swin Transformer改进：多尺度特征融合与注意力机制在图像分类中的应用

基于EfficientNet的手势识别计算器系统设计与实现

医学图像数据集：腹部13类别器官图像语义分割数据集（约1100张数据和标签，已处理，多类别图像分割）

深度学习基于PyTorch的UNet图像分割模型实现：双卷积与注意力机制结合的医学影像分析系统设计

基于Swin Transformer的SAM交互式图像分割方法研究：腹部多器官医学图像分割

深度学习数据集：芒果水果病害图像分类【已划分训练集、测试集、字典文件、python数据可视化脚本】

无人机图像语义分割数据集（约1000张数据和标签，已处理完可以直接训练，2类别图像分割）

基于Swin Transformer的SAM交互式图像分割方法研究：卫星视角下的城镇地面目标图像分割

基于Unet实现的图像分割完整项目：遥感城镇地面信息图像分割 （送denseUnet分割代码）

基于UNet、UNet++、UNet3+实现的遥感城市地面目标图像的分割项目，包含可视化QT推理界面【pytorch实现】

基于ResUNet+SSPP+CAM+联合损失改进的完整图像分割项目、有效涨点！

遥感城市图像语义分割数据集（约1000张数据和标签，已处理完可以直接训练，8类别图像分割）

深度学习基于Transformer增强的VGG16卷积神经网络模型设计：图像分类任务中的特征提取与性能提升

钢铁表面缺陷分割数据集

夜间交通车辆、行人图像目标检测数据【已标注，约9000张数据和标签，YOLO 标注格式】

稀疏注意力机制改进的Swin Transformer模型

轻量级网络MobileUnet实现的医学图像语义分割项目：TBI 病损区域分割

基于深度学习的甲状腺结节多目标分类系统、已经训练完成、包含数据和代码

医学图像分割数据：TBI（伤性脑损伤）MR图像切片分割【包含3个切面的切片数据、可视化代码、二值分割】

伤性脑损伤（TBI）MR图像语义分割数据集（约11000张数据和标签，已处理完可以直接训练，2类别图像分割）

47张创伤性脑损伤（TBI）的3D数据和标签，nii.gz格式，已经标注

基于transunet和transunet改进【空间注意力模块SA+特征金字塔+损失改进】分割系统：海岸线分割

基于网页版推理实现的ResUNet和UNet医学图像分割项目：海岸线图像分割

基于UNet、UNet++、UNet3+实现的航拍下的海路区域分割项目，包含可视化QT推理界面【pytorch实现】

200多张高质量的裂缝分割数据集、已经标注

海岸线区域图像语义分割数据集（约2000张数据和标签，已处理完可以直接训练，2类别图像分割）

航拍下的海陆区域图像语义分割数据集（约2000张数据和标签，已处理完可以直接训练，2类别图像分割）

空空如也

基于Unet实现的图像分割完整项目：遥感城镇地面信息图像分割（送denseUnet分割代码）