- 博客(769)
- 资源 (13)
- 收藏
- 关注

转载 PyTorch Cookbook(常用代码段整理合集)
本文代码基于PyTorch 1.0版本,需要用到以下包import collectionsimport osimport shutilimport tqdmimport numpy as npimport PIL.Imageimport torchimport torchvision1 基础配置1-1 检查PyTorch版本torch.__version__ ...
2019-04-27 15:58:29
3057
4

原创 Linux常见命令汇总
Linux下统计当前文件夹下的文件个数、目录个数统计当前文件夹下文件的个数,包括子文件夹里的ls -lR|grep "^-"|wc -l统计文件夹下目录的个数,包括子文件夹里的ls -lR|grep "^d"|wc -l统计当前文件夹下文件的个数ls -l |grep "^-&quot
2018-12-06 11:08:08
1661
11

原创 本博客目录及版权申明
【C++ Primer 学习笔记】系列:第一部分 基本语言第二部分 容器和算法 【C++ Primer 学习笔记】: 容器和算法之【顺序容器】 【C++ Primer 学习笔记】: 容器和算法之【关联容器】 【C++ Primer 学习笔记】: 容器和算法之【泛型算法】第三部分 类和数据抽象第四部分 面向对象编程与泛型算法第五部分 高级主题【Java: 23种设计模式】系列 Java: 23
2015-11-25 17:37:30
1553
1
原创 python 批量生成大量条形码图片并保存
这段Python代码演示了使用barcode库批量生成条形码的方法。程序首先导入必要的模块,然后创建1000个EAN13格式的条形码数据(12位数字+自动校验位)。代码会创建一个"barcode"文件夹来存储生成的图片。对于每个数据,程序使用ImageWriter生成条形码图片,并可以自定义条形码宽度、高度、文字大小等参数。生成的图片以PNG格式保存,文件名按序号命名。程序还包含异常处理,会反馈每个条形码的生成状态。该脚本适用于需要批量制作商品条形码等场景。
2025-07-17 13:41:18
213
原创 python 批量生成大量二维码图片并保存
本文介绍了使用Python批量生成二维码图片的方法。通过qrcode库,可以高效创建大量二维码并保存为图片文件。示例代码演示了如何配置二维码参数(版本、纠错级别等),生成1000个包含不同URL的二维码,并自动保存到指定文件夹。每个二维码以递增序号命名,方便批量管理。该方案适用于需要大量生成二维码的实际应用场景,如活动签到、产品编码等。
2025-07-17 13:33:20
247
原创 PaddleOCR 3.0 技术报告
PaddleOCR 3.0技术报告摘要: PaddleOCR 3.0是一款开源OCR与文档解析工具包,针对大语言模型时代的文档理解需求推出三大核心方案:(1)多语言文本识别系统PP-OCRv5,支持中/英/日等5种语言,通过骨干网络升级和知识蒸馏实现轻量化(<100MB)与高精度,手写体识别错误率降低26%;(2)层级化文档解析系统PP-StructureV3,新增区域检测模型解决多文章关联问题,改进版式分析与表格/公式识别能力;(3)关键信息提取方案PP-ChatOCRv4,融合30亿参数多模态模型
2025-07-16 15:08:58
912
原创 模型融合(Model Merging):不用数据也能让模型 “学会” 新技能?
模型融合的核心是Task Vector(任务向量),它的本质是“微调后模型”与“基础模型”的参数差值。假设我们有一个基础模型(Foundation Model)参数为θ,用数据A微调后得到模型A(参数θ_A),用数据B微调后得到模型B(参数θ_B模型A的Task Vector为(代表模型A比基础模型多的“技能A”)模型B的Task Vector为(代表模型B比基础模型多的“技能B”)通过对Task Vector做加减,就能让模型“融合技能”:比如把θ_A + τ_B。
2025-07-10 16:42:45
59
原创 深度学习论文: SmolVLM: Redefining small and efficient multimodal models
大型视觉语言模型(VLMs)虽性能出众,却因对计算资源需求极高,难以在移动设备与边缘设备上部署。而小型 VLMs 往往照搬大型模型的设计思路,例如采用复杂的图像 token 化方案,这不仅导致 GPU 内存利用率低下,也严重制约了其在终端设备上的实际应用价值。为此,我们提出了 SmolVLM—— 一系列专为资源高效推理打造的紧凑型多模态模型。
2025-07-09 14:11:15
69
原创 FastMCP框架实战:构建可扩展的工具调用服务与客户端交互
FastMCP框架实战:构建高效工具调用服务与客户端交互 摘要:本文介绍了使用FastMCP框架构建工具调用服务的完整流程。FastMCP是一个轻量级框架,支持多协议通信和工具注册,适用于AI与外部工具的集成。服务端实现展示了如何注册天气和股票查询工具,并启动HTTP服务;客户端则优化了工具调用流程,强化了错误处理机制。通过封装call_tool_safely函数,实现了统一的返回值解析和异常处理。文章还详细介绍了服务端和客户端的各项优化点,包括类型注解增强、文档字符串完善和错误信息优化等,为开发者提供了构
2025-07-02 15:40:07
75
原创 深度学习论文: SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design
SHViT:基于内存高效设计的单头视觉Transformer 本文提出SHViT,一种创新的视觉Transformer架构,通过宏观和微观双重优化实现高效部署。宏观上采用16×16跨步分块和3阶段设计,将特征图压缩16倍,显著降低内存访问开销,在GPU/CPU上实现3.0×/2.8×加速。微观层面发现多头注意力存在78%相似度冗余,提出单头注意力模块(SHSA),仅对1/4.67通道计算,结合卷积与注意力优势。实验表明,SHViT-S4在ImageNet-1k上比MobileViTv2快3.3×(GPU)/
2025-06-27 13:46:06
60
原创 深度学习论文: Open-World Object Counting in Videos
本文提出视频开放世界物体计数新任务,旨在通过文本或视觉提示自动统计视频中特定目标物体的唯一实例数量。作者开发了COUNTVID模型,融合计数检测与分割跟踪技术,通过三阶段处理实现跨帧物体计数。同时构建了VIDEOCOUNT数据集,包含370个多样化视频样本。实验表明,COUNTVID在准确率上显著优于基线方法。该研究为视频物体计数提供了新基准,相关代码与数据已开源。
2025-06-26 10:36:51
90
原创 深度学习论文: LSNet: See Large, Focus Small
视觉网络(CNN 和 ViT)推动了计算机视觉发展,但其高计算量限制了实际部署,尤其是实时场景。现有轻量级模型依赖自注意力和卷积进行特征融合,导致感知与聚合过程中效率和效果受限,难以在有限算力下平衡性能。受人类视觉动态异尺度能力启发,本文提出 “观大势、聚细节” 策略,设计 LS(大 - 小)卷积:通过大核感知捕获全局信息,小核聚合实现局部特征自适应融合,兼顾效率与表征能力。异尺度上下文融合:大核(如 7×7)负责扩展感受野,捕获全局语义关联;
2025-06-24 10:17:19
113
原创 多模态大语言模型演进:从视觉理解到具身智能的技术突破
从Show and Tell到GEA,多模态大模型在十年间完成了从单一模态转换到具身智能的跨越。CLOC的精准定位、AIMv2的自回归范式、GEA的强化学习训练,标志着多模态技术正从"感知智能"向"认知智能"迈进。未来,随着统一表征技术的成熟和推理能力的提升,多模态模型有望成为连接数字世界与物理世界的通用智能接口,在智能家居、自动驾驶、机器人等领域开启更广阔的应用前景。本文基于苹果CVPR 2025技术报告整理,完整实验数据与模型细节可参考原始文档。
2025-06-16 13:31:19
247
原创 深度学习论文: One-to-Normal: Anomaly Personalization for Few-shot Anomaly Detection
本文提出一种创新的小样本异常检测方法One-to-Normal,通过异常个性化机制解决传统方法精度损失问题。该方法包含两大核心创新:1)无异常定制模型生成个性化正态样本,实现查询图像与正常分布的深度对齐;2)三元组对比推理框架,融合图像-生成样本-文本提示的多维度信息提升检测鲁棒性。在11个基准数据集上的实验表明,该方法显著优于当前最优模型,并展现出优异的迁移能力,可有效增强其他异常检测算法的性能。技术亮点包括文本引导的个性化正态转换、自适应噪声控制以及多层级特征对比机制。
2025-06-16 11:01:22
73
原创 深度学习论文: CountingDINO: A Training-free Pipeline for Class-Agnostic Counting using Unsupervised Backb
本文提出一种基于自监督视觉主干网络的无类别依赖目标计数方法,核心流程通过示例引导的特征匹配与密度图校准实现目标数量估计,无需人工标注数据或预定义类别信息。自监督特征提取采用自监督训练的 DINO 主干网络提取图像全局特征图,同时通过 ROI-Align 技术从用户提供的边界框中精准提取示例目标的局部特征,构建视觉原型的嵌入表示。卷积式相似性映射将示例特征作为可学习的卷积核,在全图特征图上执行滑动卷积操作,生成二维相似性图。图中每个像素值反映对应图像区域与示例目标的外观 / 结构匹配度,高亮潜在目标位置。
2025-06-09 16:05:19
106
原创 DINOv2 模型根据输入计算输出尺寸
DINOv2视觉模型的输出尺寸计算指南:该模型基于ViT架构,输出取决于输入图像尺寸、patch大小(默认14x14)和隐藏维度(Small/Base/Large分别为384/768/1024)。全局特征输出为[batch_size, hidden_dim],中间token特征输出为[batch_size, num_patches+1, hidden_dim],可通过reshape转换为特征图。输入尺寸需为patch大小的整数倍,不同模型变体维度不同,CLS token用于全局特征,patch tokens
2025-06-05 09:20:18
264
原创 深度学习论文: FastVLM: Efficient Vision Encoding for Vision Language Models
在视觉语言模型(VLM)中,提升输入图像分辨率是增强模型性能的关键,尤其在富文本图像理解任务中尤为显著。然而,主流视觉编码器如视觉 Transformer(ViT)在高分辨率场景下,因标记数量爆炸式增长和编码延迟居高不下而效率骤降。针对不同操作分辨率,VLM 视觉编码器的优化可聚焦于两大核心维度:降低编码延迟,以及最小化传递给大型语言模型(LLM)的视觉标记数量,从而实现整体延迟的系统性优化。
2025-05-28 15:09:55
361
原创 转换PP-OCRv5模型为OpenVINO格式的详细指南
本文介绍了将PP-OCRv5模型转换为OpenVINO格式的完整流程。首先需要安装PaddlePaddle、Paddle2ONNX和OpenVINO等依赖库,并下载PP-OCRv5预训练模型。然后通过两步转换:先将Paddle模型转为ONNX格式,再转换为OpenVINO的IR格式(.xml+.bin)。文中提供了详细的命令行参数和关键参数说明,包括输入形状设置等。最后还展示了如何使用OpenVINO Python API验证转换效果,并指出转换后的模型可部署在多种硬件平台上,适用于多种OCR应用场景。
2025-05-26 15:09:15
785
原创 基于运动补偿的前景检测算法
这段代码实现了一个基于运动补偿的前景检测算法,主要用于从视频序列中提取前景对象。算法核心包括两个模块:运动补偿和前景检测。运动补偿模块通过基于网格的KLT特征跟踪算法计算两帧之间的运动,并使用单应性变换进行帧间运动补偿。前景检测模块则结合两帧的运动补偿结果,通过帧间差分计算前景掩码。代码还包含异常处理和路径处理功能,确保图像加载和保存时的健壮性。使用时需提供三帧连续图像(两个参考帧和当前帧),算法将输出前景掩码并保存为图像文件。
2025-05-14 14:15:12
433
原创 深度学习论文: YOLOMG: Vision-based Drone-to-Drone Detection with Appearance and Pixel-Level Motion Fusion
针对复杂环境下微型无人机检测难题,本文提出端到端框架YOLO-MG,通过运动引导实现精准检测。
2025-05-13 15:49:45
130
原创 深度学习论文: Describe Anything: Detailed Localized Image and Video Captioning
与传统图像描述相比,详细本地化字幕(DLC,Detailed Localized Captioning)有着显著差异。传统图像描述往往只是对整个场景进行粗略概括,而 DLC 则致力于深度挖掘用户指定区域的细微之处。其核心目标不仅在于识别对象的名称或类别,更着重于捕捉诸如纹理、色彩图案、形状、特性以及各类独特视觉特征等微妙属性。可描述一切模型(DAM)在生成图像和视频中物体的详细描述方面表现卓越。
2025-04-30 15:46:20
296
原创 openbmb/MiniCPM-V-2_6 和 AIDC-AI/Ovis2-1B 的网络结构体对比
维度Ovis2核心定位端侧多模态大模型(8B参数)全场景多模态大模型(34B参数)技术亮点低秩特征压缩、动态视觉tokenizer概率化视觉token、跨模态交叉注意力适用场景移动端实时交互(如智能客服、内容审核)复杂推理任务(如教育、科研)性能指标OpenCompass平均分65.2(8B模型)OpenCompass平均分72.1(34B模型)生态支持支持Hugging Face、OpenVINO支持Hugging Face、DeepSpeed。
2025-04-18 15:34:08
609
原创 深度学习论文: Ovis: Structural Embedding Alignment for Multimodal Large Language Model
在当下的多模态大语言模型(MLLM)领域,常见的做法是借助诸如多层感知机(MLP)之类的连接组件,将预训练的大语言模型(LLM)与另一个预训练的视觉 Transformer 进行整合,以此赋予大语言模型视觉处理能力。然而,在多模态大语言模型中,两种嵌入策略存在着显著的不协调问题:其一是基于嵌入查询表的结构化文本嵌入方式,其二是由视觉编码器直接生成的连续嵌入方式。这种策略上的差异,给视觉信息与文本信息的深度融合带来了诸多挑战,难以实现无缝衔接。有鉴于此,本文创新性地提出了 Ovis 这一架构。
2025-04-17 10:55:43
95
原创 深度学习论文: Autoregressive Pre-training of Large Vision Encoders
跨模态生成架构设计层级化视觉-文本编码器-解码器结构,采用因果掩码机制实现图像块与文本令牌的双向信息流动。视觉编码器结合动态前缀注意力,文本解码器融合SwiGLU激活与RMSNorm归一化,提升跨模态特征交互效率。统一目标函数提出多模态序列生成目标函数,通过像素级MSE(图像)和交叉熵(文本)损失联合优化,α超参数平衡模态监督。突破传统对比学习局限,直接通过生成任务增强跨模态语义一致性。高效训练策略采用混合精度训练与动态序列打包技术,在120亿图文对上实现高效训练。
2025-04-02 14:53:03
219
原创 深度学习论文: OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels
自上而下的注意力在人类视觉系统中至关重要,大脑先概览场景找线索,再细察详情。但现代卷积神经网络(ConvNets)采用金字塔结构扩大感受野,忽略了这一仿生原理。本文提出了 OverLoCK,这是首个明确融入自上而下注意力机制的纯卷积神经网络骨干架构。与金字塔骨干网络不同,本文的设计采用了一种分支架构,包含三个协同工作的子网络:1)基础网络(Base - Net),用于编码低 / 中层特征;
2025-04-02 10:39:26
551
原创 深度学习论文: Image Segmentation Using Text and Image Prompts
本文以CLIP模型为骨干网络,扩展了基于Transformer的解码器以实现密集预测。在扩展版PhraseCut数据集训练后,系统可根据自由文本提示或表达查询的附加图像生成图像二值分割图。本文详细分析了基于图像提示的不同变体,这种新型混合输入方式不仅支持上述三类分割任务,还适用于任何可通过文本或图像查询定义的二值分割任务。实验表明,该系统能有效适应涉及功能属性或物理特性的广义查询。核心创新点统一多任务框架:通过单模型解决三类分割任务,突破传统方法的类别限制动态提示机制。
2025-03-26 17:29:28
291
原创 深度学习论文: Transformers without Normalization
归一化层在现代神经网络中广泛应用且长期被视为不可或缺的组件。本研究突破性地证明,通过一种极为简洁的技术,无需归一化层的 Transformer 模型即可达到甚至超越传统架构的性能。本文提出动态双曲正切模块 DyT(Dynamic Tanh),其逐元素操作定义为 DyT (x) = tanh (αx),可直接替代 Transformer 中的归一化层。这一设计源于对 Transformer 中 LayerNorm 层普遍呈现类 tanh 型 S 曲线输入输出映射的观察。
2025-03-25 16:57:10
728
原创 深度学习论文: General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
在 OCR 技术领域,传统方法与基于大型视觉语言模型(LVLM)的方案难以满足人们对光学字符处理日益多元的需求。为突破这一困境,我们创新提出通用 OCR 理论 ——OCR - 2.0,旨在构建新型 OCR 模型,推动该技术迈向新高度。端到端架构:摒弃传统 OCR - 1.0 模型复杂的多模块流水线,采用统一架构,简化流程,降低维护成本,让初学者也能轻松掌握,极大提升系统易用性与扩展性。
2025-03-24 16:24:01
240
原创 深入理解 Re-parameterizable RegionText Alignment (RepRTA) 技术
Re - parameterizable RegionText Alignment(RepRTA)技术通过创新的重新参数化方法,为文本与图像区域对齐问题提供了一种高效、准确的解决方案。它在模型架构设计上的突破,带来了性能的显著提升,在多个实际应用场景中展现出巨大的潜力。展望未来,随着计算机视觉和自然语言处理技术的不断发展,RepRTA有望在更广泛的领域得到应用和拓展。例如,结合新兴的多模态预训练模型,进一步提升其在复杂场景下的性能;
2025-03-20 16:17:10
763
原创 Hugging Face 模型格式全解析:从 PyTorch 到 GGUF
Hugging Face 生态支持多种模型格式,以满足不同场景下的存储、部署和推理需求。以下是主流格式的技术解析与演进脉络:Hugging Face 模型格式的演进体现了安全性、效率和兼容性的平衡:根据需求选择格式:追求安全用 ,本地部署用 ,深度集成 PyTorch 则保留 。
2025-03-20 10:02:32
1522
原创 YOLOE:Real-Time Seeing Anything 让 AI 像人类眼睛一样 “看见一切”!
比如训练时教它认“汽车”和“行人”,遇到没见过的“无人机”或“外星生物”就彻底懵圈。传统YOLO就像戴着一副“预设眼镜”,只能看到预先定义的物体。而。
2025-03-14 10:01:57
498
原创 低光图像增强新突破!HVI 色彩空间 + CIDNet 网络如何攻克红黑噪声难题?
低光照图像增强(LLIE)作为计算机视觉领域的核心任务,旨在从退化的暗光图像中恢复清晰细节。传统基于标准 RGB(sRGB)空间的增强方法,由于对颜色变化过于敏感,常导致图像出现明显的色彩偏移和亮度失真。尽管转换到 HSV(色调 / 饱和度 / 明度)空间能部分改善亮度问题,但却引发了更为棘手的红色区域断层和暗部噪声放大问题。针对这一挑战,本文创新性地提出了专为低光增强设计的 HVI(水平 - 垂直 - 强度)色彩空间。极化 HS 平面。
2025-03-13 17:04:06
311
原创 深度学习论文: D-FINE: Redefine Regression Task of DETRs as Fine-grained Distribution Refinement
在实时目标检测领域发展日新月异的当下,D - FINE 以一种极具革新性的姿态横空出世。它犹如一把利刃,显著突破了现有模型的性能瓶颈,这些模型涵盖了如 YOLOv10、YOLO11 以及 RT - DETR v1/v2/v3 等业内知名的目标检测模型,大幅提升了实时目标检测的性能上限。D - FINE 在大规模数据集 Objects365 上完成预训练后,展现出了令人惊叹的实力。它将竞争对手 LW - DETR 远远甩在身后,在 COCO 数据集上更是斩获了高达 59.3% 的平均精度(AP)。
2025-02-25 13:49:07
186
原创 自动驾驶的等级划分
自动驾驶等级是衡量汽车自动化程度的标准,目前广泛采用的是由美国汽车工程师协会(SAE)和国际标准化组织(ISO)制定的分级标准,将自动驾驶分为 0 到 5 级,各级别的区别主要体现在人类驾驶员和自动驾驶系统的职责分配上。
2025-02-21 14:30:45
795
原创 深度学习论文: YOLOv12: Attention-Centric Real-Time Object Detectors
在目标检测领域,YOLO 系列算法凭借在延迟与准确率间的出色平衡占据主导地位。尽管其改进涉及多个方面,但网络架构设计始终是研究的关键方向。近年来,以注意力为核心的视觉 Transformer(ViT)架构展现出强大建模能力,然而多数架构设计仍聚焦于卷积神经网络(CNN)。这是因为注意力机制存在效率问题,包括二次计算复杂性和低效的内存访问操作,这极大限制了其在对推理速度要求高的 YOLO 系统中的应用。
2025-02-20 10:57:44
292
原创 深度学习论文: RailYolact -- A Yolact Focused on edge for Real-Time Rail Segmentation
为了解决模型预测的铁轨掩码边缘粗糙的问题,本文将边缘算子提取的边缘信息融入原始 Yolact 的损失函数中,以强调模型对铁轨边缘的关注。此外,本文应用盒式滤波器对线性插值导致的真实标签掩码边缘锯齿进行平滑处理。由于边缘信息的融入和平滑处理过程仅在训练阶段进行,因此模型的推理速度并未受到影响。本文在自定义铁轨数据集上的实验结果显示,预测准确率有所提高。
2025-02-17 13:18:01
385
原创 深度学习论文: Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera
在计算机视觉领域,实现跨任意视场角相机的零样本深度泛化工作颇具挑战性,具体体现在以下几个方面:其一,需选取统一的相机模型来精准表示不同的视场角;其二,要有效利用透视训练数据集,使其能够泛化到仅在大视场角相机中可见的数据空间;其三,要应对因不同视场角导致的统一空间中训练图像大小显著差异的问题;其四,需处理训练和测试阶段之间存在的分辨率不一致问题。针对上述挑战,本文提出了深度任意相机(DAC)这一创新性的零样本度量深度估计框架。
2025-02-14 16:45:43
143
原创 RandAugment、AugMix和AutoAugment三者对比
方法策略生成方式计算成本迁移能力适用场景强化学习搜索极高弱高精度需求、资源充足随机选择+参数控制低强快速训练、通用场景AugMix多增强链混合+一致性损失中等较强鲁棒性要求高、对抗噪声场景通过结合不同方法的优势,实际应用中可根据任务需求灵活选择或组合(如RandAugment与AugMix混合使用)。
2025-02-12 16:26:50
822
原创 深度学习论文: Is Cosine-Similarity of Embeddings Really About Similarity?
深度学习论文: Is Cosine-Similarity of Embeddings Really About Similarity?Is Cosine-Similarity of Embeddings Really About Similarity?PDF:https://arxiv.org/pdf/2403.05440v1PyTorch代码: https://github.com/shanglianlm0525/CvPytorchPyTorch代码: https://github.com/sha
2025-02-05 14:20:30
159
CUDA并行程序设计 GPU编程指南
2019-05-02
linux下安装Anaconda3+pytorch+tensorboardX依赖包
2019-03-23
Quartz 示例代码
2017-05-02
java反射示例代码
2017-05-01
CUDA C编程权威指南
2019-05-02
Java反射机制代码
2017-05-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人