CV-deeplearning-CSDN博客

原创高精度车牌识别算法

一车牌识别概述车牌识别属于OCR的一种，但它也有自己的特点。考虑到边缘设备部署，我们没有用lstm，仅用普通的卷积层便实现了高精度的车牌识别方案。车牌识别的应用场景也十分广泛，常见的停车场收费系统，车牌识别算法也是只能交通算法中的基础算法和最为重要的算法。场景识别准确率道路卡口场景99.6%小角度场景99.0%大角度车牌场景98.2%二车牌识别本方案采用多标签识别的技术，同时设计的一个物件分支，判断输入是否为车牌。其中车牌全部识别正确的准确率为99.6.

2021-10-31 11:35:46 9498 5

原创智能交通——车辆属性识别

一场景说明在道路上，利用AI算法定位机动车的位置并识别车辆的属性，这些信息对于交警来说是非常重要的。下面我们将对道路上的车辆进行检测和属性识别，整个过程包含两个算法，基于yolov5的目标检测算法和基于多任务的属性识别算法。二算法详解1. 基于yolov5的目标检测算法个人感觉yolov5算法还是非常nice的，在实际项目和比赛中经常用到。由于一年前我就写过几篇博客对yolov5进行了说明，在此就不再赘述。如果读者感兴趣，可以参考我的博客：YOLOV5实战下面是我的测试代码，对yolo v.

2021-10-10 19:10:20 8217 14

原创 Clion中配置OpenCV环境(Ubuntu)

一. 在Ubuntu环境下安装破解Clion请看我之前的教程Clion安装与破解教程(Linux)二. 在Ubuntu环境下安装OpenCV(c++版本)请看我之前的教程ubuntu 安装 opencv 的 c++版本三. Clion的OpenCV环境配置1. 打开Clion，新建一个工程，工程名为XXX2. 打开工程的CMakeList，在末尾添加以下代码find_package(OpenCV REQUIRED)target_link_libraries(<project n

2021-07-09 14:51:31 2392 1

翻译 Clion安装教程(Linux)

一. Clion下载与安装1. 从官网下载Clion安装包并解压。默认Clion可以免费使用30天(不用着急，后面有破解教程)。2. 配置环境变量vim ~/.bashrc#添加alias clion=/home/<用户名>/<安装路径>/clion-2021.1.1/bin/clion.sh修改后退出，source使修改生效source ~/.bashrc3. 启动打开终端输入clion即可启动二. Clion破解1. 启动软件, 将博主提供的2.1.9.

2021-07-09 11:29:39 10229 5

原创 onnx 模型转换及推理时间对比

1. 环境准备对比时间，和模型训练的环境相同，可能额外要安装的包是onnxruntime.pip install onnxruntime # for cpupip install onnxruntime-gpu # for gpu2. 测试过程直接上代码吧，代码就是最好的解释。import cv2import timeimport torchimport numpy as npfrom torch.nn import DataParalle...

2021-04-29 20:53:44 4853 2

原创通过MACE在Android手机上部署深度学习模型

1. MACE的环境搭建参考我的博客：MACE的环境搭建——conda实现2. 构建项目（1）下载MACE项目到本地git clone https://github.com/XiaoMi/mace.git (2) 下载MACE Model Zoo 项目git clone https://github.com/XiaoMi/mace-models.git (3) 编译MACE生成库文件 /path/to/mace...

2021-04-28 20:00:05 1359 5

原创 MACE的环境搭建——conda实现

1.MACE 主页 MACE 的github地址：https://github.com/XiaoMi/mace 小米官方的相关文档：https://mace.readthedocs.io/en/latest/ 对开发环境的要求，可以按照以下指令安装相关的包：2. 创建虚拟环境并安装常见的包 (1) 创建虚拟环境，我把虚拟环境命名为maceconda create -n mace python=3.6 (2)...

2021-04-28 09:51:58 899

原创行人属性识别，PA100K

行人属性识别，即识别行人的多个特征，例如：性别、年龄、戴帽子、戴眼镜等。本文将带你学习行人属性识别，主要用到的是multitask技术。

2021-02-07 09:49:40 7535 29

原创 YOLO V5 实战

YOLO V5开源了，还是pytorch版本的，对于pytorch使用者而言就非常友好，本文作者用车辆数据集跑了一下yolo v5, 效果还是非常不错的，和大家一起分享。

2020-07-25 18:03:27 4484 5

原创模型训练技巧——mixup

mixup, 用几行代码就能提高模型的识别精度。大型深度神经网络是非常强大的，但其损耗巨大的内存以及对对抗样本的敏感性一直不太理想。作者提出的mixup是一个简单地减缓两种问题的方案。本质上，mixup在成对样本及其标签的凸组合（convex combinations）上训练神经网络。这样做，mixup规范神经网络增强了训练样本之间的线性表达。数据集上进行试验，研究结果表明，mixup可以改进当前最先进的神经网络架构的泛化能力。

2020-05-07 16:08:10 3011 2

原创模型训练技巧——label smoothing

使用应用label smoothing在绝大多数分类任务上能提高模型的准确率，本文主要用pytorch实现label smoothing，使它能方便的应用到项目中。

2020-05-06 17:01:21 2481 2

原创三分钟带你理解ROC曲线和PR曲线

Roc曲线和PR曲线常被用来在二分类问题中评估一个分类器的性能，所以在机器学习中搞清楚两种曲线的原理及其区别与实现是非常基础也是非常重要的。

2020-04-28 18:50:13 2700

原创 ResNeSt——ResNet最强改进版

张航、李沐等人提出ResNet最强改进版：性能提高3%，参数不增。是ResNet的最强改进版本，博主已经讲该网络应用与工程项目中。

2020-04-20 23:42:04 20974 39

原创三分钟带你掌握Python中的多进程和多线程

多进程和多线程编程对于代码的并发执行，提升代码效率和缩短运行时间至关重要。本文介绍如何使用python的multiprocess和threading模块进行多线程和多进程编程，并将其封装成类，成为好用的工具，方便调用。

2020-04-18 15:11:40 983 1

原创强化学习+多模态从理论到实战

强化学习 (RL) 是一种机器学习范式，其中智能体通过与环境交互来学习最优行为，以最大化累积奖励。与监督学习不同，强化学习不是从显式标签中学习，而是通过反馈（奖励）来指导学习过程。这种学习方式的核心在于通过试错来发现最佳策略，这与监督学习中直接将输入映射到输出有着本质的区别。策略优化是强化学习中的一类算法，其直接目标是找到智能体在环境中采取行动的最佳策略。策略代表了智能体在给定状态下选择行动的方式，它定义了从状态到行动的映射。

2025-05-06 16:19:13 705

原创人像抠图matting

抠图Image Matting（精细化分割/图像去背景）旨在从图像中精确提取前景对象，并处理前景与背景之间的透明度过渡区域（如头发、烟雾等半透明区域）。其核心是通过预测每个像素的透明度值（Alpha通道），实现软分割（Soft Segmentation）。对于一张图I，我们感兴趣的人像部分称为前景F，其余部分为背景B，则图像I可以视为F与B的加权融合：I = alpha * F + (1 - alpha) * BI=alpha∗F+(1−alpha)∗B，而抠图任务就是找到合适的权重alpha。

2025-03-27 15:26:29 483

原创 vLLM部署多模态大模型

vLLM 是一个高效的推理和部署框架，专为大规模语言模型（LLM）优化。它采用 PagedAttention 技术，显著提高 GPU 显存利用率，支持高吞吐量推理。vLLM 兼容 Hugging Face Transformers 和 OpenAI API 接口，便于集成现有模型。其高效的 KV 缓存管理减少重复计算，适用于流式生成、批量处理和多用户推理场景。vLLM 还支持 FlashAttention，可进一步提升推理速度。

2025-03-19 18:42:42 976

原创 Swift实战（微调多模态模型Qwen2.5 vl 7B）

本教程利用Swift框架微调Qwen2.5 vl 7B模型，是用的数据集是OCR识别数据集，一共10万张图片。

2025-03-18 10:59:48 1296 2

原创多模态大模型Qwen2.5 vl本地部署指南

Qwen2.5-VL 是通义千问系列的最新多模态大模型，具备图文理解、视觉推理、文档解析等强大能力，广泛应用于智能搜索、内容生成、企业文档处理等领域。🔹 主要功能✅ 多模态问答：解析图片、图表、文档，回答问题，支持 OCR 识别。✅ 复杂文档解析：提取发票、合同、PPT、表格等文件中的结构化信息。✅ 高级视觉推理：理解图像中的关系，如因果推理、数据分析。✅ 智能摘要与生成：自动生成图片描述、文档摘要，提高信息获取效率。

2025-03-11 16:59:16 1794

原创 Cursor让编程变得像聊天一样简单

在编程的世界里，Cursor + 大模型正在改变开发者的工作方式。Cursor 让代码编写像聊天一样轻松，自然语言即可生成高效、可读的代码，同时还能即时调试、优化。结合强大的 AI 大模型，你可以快速理解复杂逻辑、自动补全代码、生成测试用例，甚至优化性能，极大提升开发效率。无论是新手学习编程，还是资深工程师加速研发，Cursor 都能提供智能支持，减少重复劳动，让你专注于创新。如果你还没试过，赶快体验，让 AI 成为你的得力助手，让编程变得更高效、更有趣！

2025-03-11 15:31:19 500

原创提取图片高频信息

主要过程包括：平滑、梯度计算、二值化、边框处理，以及形态学操作。

2024-11-22 11:54:09 435 1

原创文档矫正算法：DocTr++

论文提出了一种新的数据处理方式，解决了以前文档矫正只能处理带有边界信息的完整文档，文章通过数据处理定义了三种类型的训练数据。（a）包含完整文档边界，（b）包含部分文档边界，（c）不包含文档边界。算法框架如下：对于任意弯曲的文档，作者首先通过CNN抽取特征，然后通过transformer结构进行编码和解码，最后用Flow Head预测偏移场，用偏移场矫正弯曲图片。

2024-09-23 17:43:01 1100

原创如何用python调用C++处理图片

【代码】如何用python调用C++处理图片。

2024-06-19 10:18:57 674 2

原创如何快速从测试代码中导出onnx，并对比torch与onnx的对比结果

当我们的测试代码有很多依赖，或者训练测试代码在一起时，如何快速地导出onnx？

2024-05-23 19:55:28 436 1

原创模拟相机拍照——对文档进行数据增强

这里介绍的就是文档数据增强，用标准文档模拟相机拍照场景。该方法不仅能用于文档各场景的数据增强，用于OCR检测识别等任务；还能合成各种图片训练对，用于文档去阴影、文档去摩尔纹、文档弯曲矫正等各项任务。然而，当图片是手机拍照获取的，图片中往往有阴影、摩尔纹、弯曲。原理：利用渲染工具（推荐blender），渲染出各种弯曲、阴影、摩尔纹，然后再pdf图片上进行合成。那么，如何通过标准的文档，获得类似相机拍照的图片呢？欢迎小伙伴们技术交流~

2024-04-18 17:32:27 1094

原创 python推理代码跨平台部署

我们经常训练好的模型需要部署，有时候算法组和工程组是分开的，这时候就需要我们提供C++的前后处理逻辑，这时怎么调试我们的C++代码呢？模型预测的结果是一个两通道的Mat，我们首先把它保存成yaml形式，比如：offset.yaml。解决方法：把模型推理的结果保存成C++可加载的形式，即可调试C++后处理代码。接下来，你就能流畅的写完你的后处理代码，打包交付啦！

2024-01-19 12:07:10 591

原创怎样让Windows关闭广告弹窗

10分钟完成你的设置，让广告消失，开机起飞。

2024-01-08 17:39:50 540

原创二维码、条形码识别

二维码和条形码包含很多信息，对二维码和条形码识别对信息抽取具有重要意义。下面介绍两种二维码识别的方法，并用python实现。

2024-01-03 11:29:04 948

原创在Ubuntu系统中安装Windows虚拟机

在ubuntu中安装windows虚拟机

2023-12-29 17:37:29 5165

原创基于K-Means的图片聚类算法实战

我们通常遇到一个问题，当很多图片放在一个文件夹中，要把这些文件夹中的图片按规律分为几类。当图片比较少时，我们可以手动完成，但是当图片的数量是几千甚至几万时，手动挑选图片的工作量就太大了。下面是一个例子，./imgs中保存了很多猫和狗的图片，运行脚本后，就把猫和狗的图片分开，分别保存在./0 和 ./1 两个文件夹中。因此，需要一个算法对图片进行自动化分类并保存，也就是本文的《基于K-Means的图片聚类算法实战》。

2023-12-11 11:47:34 1127

原创 dewarp:数据变换

注：cv2.remap() 函数的作用是把img，通过bm_flow映射成新的图片。bm_flow其实就是一个映射，把原始图像上每个像素点映射到新的图片中。输出图片：dewarp_img.jpg。输入图片：test.jpg。前向场:test.npy。

2023-11-16 12:26:34 648 2

原创 DALL-E2原理解读——大模型论文阅读笔记五

论文：https://cdn.openai.com/papers/dall-e-2.pdf项目：https://openai.com/dall-e-2。

2023-06-20 10:14:51 1944 1

原创 Visual ChatGPT原理解读——大模型论文阅读笔记四

论文：https://arxiv.org/abs/2303.04671代码：https://github.com/microsoft/TaskMatrix。

2023-06-20 10:00:21 1959 1

原创 MiniGPT-4原理解读——大模型论文阅读笔记三

论文：https://arxiv.org/pdf/2304.10592v1.pdf代码：https://github.com/vision-cair/minigpt-4。

2023-06-20 09:43:13 1357 1

原创 BLIP2原理解读——大模型论文阅读笔记二

端到端训练视觉语言模型需要大尺度模型及大规模数据，该过程成本大，本文提出方法基于现有高质量视觉模型及语言大模型进行联合训练，为减少计算量及防止遗忘，作者对预训练模型进行frozen，为了将两任务对齐，作者提出Querying Transformer (Q- Former) 预训练，如图1，其将有用视觉特征传递至LLM输出目标文本。代码：https://github.com/salesforce/LAVIS/tree/main/projects/blip2。

2023-06-20 09:33:29 7383 1

原创 CLIP原理解读——大模型论文阅读笔记一

模型的输入是图片和文字的配对，图片输入到图片的encoder得到一些特征，文本输入到文本的encoder得到一些特征，每个traning batch里有n个图片-文本对，就能得到n个图片的特征和n个文本的特征，然后在这些特征上做对比学习，对比学习非常灵活，就需要正样本和负样本的定义，其它都是正常套路（不懂对比学习），配对的图片-文本对就是正样本，描述的是同一个东西，特征矩阵里对角线上的都是正样本，矩阵中非对角线上的元素都是负样本，有了正负样本，模型就可以通过对比学习的方式去训练了，不需要任何手工标注。

2023-06-07 09:21:26 11366 4

Deep_Adversarial_Decomposition

ssdlite_head.py

mobilenetv2.py

空空如也