- 博客(68)
- 收藏
- 关注
原创 c语言基础-结构体内存对齐规则
1. 结构体的第一个成员对齐到和结构体起始位置偏移量为0的地址处2. 其他成员变量要对齐到某个数字(对齐数)的整数倍地址处对齐数 = 编译器默认的一个对齐数与该成员变量大小的较小值-vs中默认的值为8-Linux中的gcc没有默认对齐数,对齐数就是成员自身大小3. 结构体总大小为最大对齐数(结构体中每个成员变量都有一个对齐数,所有对齐数中最大的)的整数倍。
2025-07-09 15:50:49
352
原创 Transformer
模型特点应用全注意力结构,高并行NLP、CV、语音、时间序列BERT编码器架构,双向上下文文本理解、问答、分类GPT系列解码器架构,生成式任务语言生成、对话系统、多模态。
2025-05-26 16:00:00
932
原创 注意力机制
注意力机制是一种加权汇聚(weighted aggregation)机制,通过计算输入信息之间的相关性,动态地分配不同的信息权重,以聚焦于更有用的部分。
2025-05-26 10:52:23
1234
原创 C++ 面向对象关键语法详解:override、虚函数、转发调用和数组引用传参-策略模式
int A(参数...) override { return 某个对象.A(参数...);}
2025-04-18 10:57:37
540
原创 超详细VMware虚拟机扩容磁盘容量-无坑版
虚拟机:VMware Workstation 17 Pro-17.5.2 Linux系统:Ubuntu 22.04 LTS
2025-04-17 16:41:58
3381
2
原创 两台电脑之间实现文件互传-创建共享文件夹
文件夹右键属性->共享->网络访问->选择everyone->权限级别修改为“读取/写入”输入电脑1的网络凭证(用户名和密码),即可开始共享文件夹。下一步键入该网络位置的名称->完成。
2025-04-08 09:34:32
1398
原创 求助帖提问:什么情况下onnx转rknn模型无法量化成int8?toolkit2能成功,但toolkit会失败
环境:toolkit平台 1.7.3版本。
2025-03-19 09:36:42
926
原创 ViT、DETR 和 Swin Transformer :基于 Transformer 的计算机视觉(CV)模型
图像输入 → 线性 Patch Embedding → Swin Transformer Block(窗口注意力) → 多尺度特征提取 → 适用于分类、检测、分割。
2025-03-18 17:36:22
1104
原创 理解 MHA、GQA、MQA 和 MLA:多头注意力的变种及其应用
在深度学习、自然语言处理(NLP)和计算机视觉(CV)中,多头注意力(Multi-Head Attention, MHA)是 Transformer 结构的核心。近年来,MHA 产生了多个变体,如和,这些改进主要用于提高计算效率和减少计算开销。本文将深入探讨这些注意力机制的工作原理、数学公式、优缺点及应用场景,帮助理解Transformer 及其改进版本。
2025-02-25 15:10:09
2615
原创 深入解析 RLHF(Reinforcement Learning from Human Feedback)
随着人工智能(AI)技术的快速发展,大规模语言模型(如 OpenAI 的 GPT、Anthropic 的 Claude 等)已经能够生成高质量的文本。RLHF 是一种基于强化学习(Reinforcement Learning, RL)的优化方法,它结合人类反馈(Human Feedback)来训练奖励模型(Reward Model, RM),进而优化语言模型的生成策略。整个强化学习的目标是找到最优策略 π∗\pi^*π∗,使得模型在与环境交互的过程中,最大化累积奖励。RLHF 是一种结合强化学习(RL)
2025-02-24 11:31:43
1055
原创 解决 CMake 编译时 “undefined reference“ 问题:RPATH 与 rpath-link
如果你的 CMake 编译时报。
2025-02-21 09:16:29
807
原创 C/C++ 格式化输出( unsigned long long)
变量,正确的格式化符号是 %llu;在开发中,如果涉及到大整数计算,比如。(通常为 64 位无符号整数)。进行存储,并通过 %llu。在 C/C++ 编程中,
2025-02-17 17:38:10
1418
原创 C++ 交叉编译 ARM 平台时报 “scalar out of range for multiply instruction“ 错误的原因及解决方案
在 RK3568/RK3588/RV1126 等 ARM 平台上进行 C++ 交叉编译时,我遇到了以下编译错误:但是,当我 添加以下编译选项 后,问题消失了:二、错误分析2.1 错误的本质从错误信息来看,报错的指令是: 是 ARM NEON 指令集中的 向量乘法累加(Vector Multiply-Accumulate Long) 指令,它的格式如下: :目标 128-bit NEON 向量寄存器 :16-bit 源寄存器 :源寄存器 的某个索引(立即数 必须在 0
2025-02-17 09:37:15
954
原创 opencv图像处理之minAreaRect函数
是 OpenCV 中用于计算最小外接矩形(Minimum Area Rectangle)的函数,它适用于,可以返回一个,即面积最小的矩形,并且矩形的边可以是。pointscv::Mat是 OpenCV 里的[-90, 0]
2025-02-10 16:39:24
814
原创 DeepSeek-V3简述
除了闭源模型,开源模型(如 DeepSeek、LLaMA、Qwen、Mistral)也在不断进步。,这些架构已在 DeepSeek-V2 中得到充分验证。此外,DeepSeek-V3 首创了一种。为了实现高效推理和低成本训练,DeepSeek-V3 采用了。,并且在多个任务上达到与主流闭源模型(如 GPT-4o、Claude-3.5)尽管性能卓越,DeepSeek-V3 的完整训练仅需。近年来,大型语言模型(LLM)迅速发展,越来越接近。全面评估表明,DeepSeek-V3。DeepSeek-V3 在。
2025-02-05 09:39:40
1239
原创 MB-TaylorFormer论文解读
Transformer 网络因全局感受野和adaptability to input逐渐取代 CNN,但 softmax-attention 的二次复杂度限制其在高分辨率图像去雾中的应用。为此,提出了一种名为的新型 Transformer 变体,通过泰勒展开近似 softmax-attention,实现线性复杂度,并结合多尺度注意力模块纠正误差。此外,引入多分支架构和多尺度补丁嵌入,以可变形卷积嵌入不同感受野和语义特征。在多个去雾基准上,MB-TaylorFormer 展现出领先性能和较低计算成本。
2025-01-10 15:44:05
853
原创 解决anaconda prompt找不到的情况
导致我重新开机以后安装的一些软件(暂时只发现wps)以及所有的登录信息、聊天文件临时文件全部被清空,环境变量也都被清理了。anaconda、虚拟机都还在,但是找不到anaconda prompt,于是进行了以下一系列恢复操作;由于打开某个文件夹导致系统卡死了,鼠标使用不了,只能使用快捷键ctrl+alt+delete打开,点任务管理器也没什么用,就点了注销选项。点击进去,之前的conda环境也都还在!输入python,查看是否有Python环境, ctrl+z ->enter退出python。
2025-01-08 15:06:42
2398
3
原创 【Ubuntu】 Ubuntu22.04搭建NFS服务
第三个字段:( rw,sync,no_root_squash,no_subtree_check,insecure): 权限。第一个字段:/home/lm/code/nfswork共享的目录。 192.168.0.* 指定网段,在该网段中的用户可以挂载。 192.168.0.99 只有该用户能挂载。第二个字段:指定哪些用户可以访问。cd到指定目录,执行相应的操作; * 表示所有用户都可以访问。配置/etc/exports。
2025-01-04 14:23:17
1450
原创 理解语义分割中的卷积-DUC&HDC
最早在某些研究中引入,通过用卷积层替换最后几层全连接层,实现高效的端到端学习和推断,且能够处理任意大小的输入。:用于捕捉图像中的局部和全局依赖关系,从而优化预测图并使其更精细。:用于提高中间特征图的分辨率,从而在保持相同计算成本的同时,生成更准确的预测结果。:在 PASCAL VOC2012 数据集上,用 101 层的 ResNet-101 模型替换原来的 16 层 VGG-16 模型后,平均交并比(mIoU)得分显著提高;使用 152 层的 ResNet-152 模型进一步提升了性能。
2024-12-25 11:22:36
1351
原创 特殊的“Undefined Reference xxx“编译错误
make编译c++程序时,一个头文件对应的一个库,编译过程中出现这个库中有未定义的函数,但是该库中所有函数均已经实现。此时可以检查一下头文件和库使用的语言是不是相同;当头文件是c语言实现,而库为c++实现时也会出现未定义的错误;:通知编译器,按照 C 的链接方式生成符号,而不是 C++ 的方式。此时需要关闭这些语句。
2024-12-24 17:05:59
347
原创 解读1:TwinLiteNet论文中基础模块及其他相关模块总结
ESP模块将标准卷积分解成point-wise卷积和空洞卷积金字塔(spatial pyramid of dilated convolutions),point-wise卷积将输入映射到低维特征空间,空洞卷积金字塔使用K组n×n空洞卷积同时重采样低维特征,每个空洞卷积的dilation rate为2的(k−1)次方,k={1,⋯,K}。空洞卷积(Dilated Convolution)是一种改进的卷积操作,通过在标准卷积核之间插入空洞(即引入“膨胀率”)来扩大感受野,而不增加额外的参数或计算量。
2024-12-24 16:28:50
940
原创 rk3588实时查看NPU使用情况命令、Linux中使用nvidia-smi命令实时查看GPU使用情况
0.01 表示每隔0.01秒刷新一次GPU使用情况;0.01 表示每隔0.01秒刷新一次NPU使用情况;其次还有Linux中使用。
2024-12-23 09:54:06
1243
原创 交叉编译opencv4.5.4出现与 libpng 相关的 NEON 优化函数未能找到
make[2]: *** [apps/interactive-calibration/CMakeFiles/opencv_interactive-calibration.dir/build.make:178:bin/opencv_interactive-calibration] 错误 1。make[2]: *** [apps/annotation/CMakeFiles/opencv_annotation.dir/build.make:98:bin/opencv_annotation] 错误 1。
2024-12-17 12:00:58
1077
原创 解决invalid conversion from ‘void*‘ to ‘unsigned char*‘问题
是一种特定类型的指针。因此,C++ 编译器会要求显式地进行类型转换(强制转换),否则会报错。这个错误是由于类型转换不匹配引起的。
2024-12-03 17:05:23
753
原创 解决链接时无法被用于生成共享目标问题
出现以下报错:该错误表明,静态库中的对象文件未使用-fPIC编译,导致在链接时无法被用于生成共享目标或位置无关代码。
2024-12-03 16:54:42
584
原创 Ubuntu 常用解压与压缩命令
tar是打包,.tar.gz才是压缩过的文件,.tar.gz常见于unix系统,在ubuntu或macos可以直接解压,而.zip常见于windows系统。tar -zcvf FileName.tar.gz DirName # 将DirName和其下所有文件(夹)压缩。tar -C DesDirName -zxvf FileName.tar.gz # 解压到目标路径。tar -zxvf FileName.tar.gz # 解压。.tar.gz文件、 .tgz文件。
2024-11-27 10:02:39
1675
原创 解决vm虚拟机中ctrl键粘滞问题(一直处于按下状态)
虚拟机中点击鼠标左键没有问题,单独按下键盘也没有问题,但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因:vm版本的问题,我的版本是17.5.0,升级成17.5.2 build-23775571问题解决;升级的时候不用卸载老版本,直接覆盖安装即可。
2024-11-21 17:18:16
1034
原创 Ubuntu系统桌面太小、屏幕无法自适应问题解决
sudo apt-get install open-vm-toolssudo apt-get insall open-vm-tools-desktop
2024-11-21 10:55:38
595
原创 为什么在 torch.onnx.export 中不支持 (x, 3) 作为输入?
的输入,且输入只能是单独一个张量或包含多个张量的元组。是支持的,因为它包含的每个元素都是张量。这样的组合,因为包含了非张量(ONNX 导出只支持。
2024-11-08 16:29:45
286
原创 深度学习为什么不用二阶优化?
二阶优化在深度学习中不常用的原因归结于计算开销、数值稳定性、泛化能力、非凸问题的适用性等方面。一阶优化方法虽然简单,但更适合深度学习的大规模非凸问题,尤其是在面对数百万、甚至上亿参数的神经网络时,更加高效且具有良好的泛化能力。
2024-11-07 08:56:23
912
原创 影响神经网络速度的因素- FLOPs、MAC、并行度以及计算平台
影响神经网络速度的四个主要因素分别是 FLOPs(浮点操作数)、MAC(内存访问成本)、并行度以及计算平台。这些因素共同作用,直接影响到神经网络的计算速度和资源需求。
2024-11-05 16:28:58
1409
原创 解决OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.
这个错误是由 OpenMP 运行时库被多次初始化引起的,通常是在多个库(如 PyTorch 和其他依赖项)都链接了不同的 OpenMP 版本时出现的。删掉指定环境下的libiomp5md.dll文件,正常了错误表明对象没有getsize属性。这个问题通常是由于Pillow库的版本不兼容导致的,因为在新版的Pillow库中,getsize方法已经被弃用,改为了getbbox方法。
2024-11-05 15:04:16
459
原创 解决ImportError: DLL load failed while importing _message: 找不到指定的程序。
创建好conda环境,写好代码以后,代码未出现标红错误,但运行时报错ImportError: DLL loadfailed while importing _message: 找不到指定的程序;的报错,就是写的时候不报错,运行的时候才报错;下,在中写import XXX会标红。
2024-11-05 14:25:41
2007
原创 人脸检测之MTCNN算法网络结构
MTCNN(Multi-task Cascaded Convolutional Networks)是一种用于人脸检测和关键点检测的深度学习模型,特别适合在复杂背景下识别出多尺度的人脸。它通过多任务学习来实现人脸检测和人脸关键点定位(如眼睛、鼻子、嘴巴的位置),实现高精度的人脸区域定位和关键点提取。MTCNN 主要由三个级联网络组成:P-Net、R-Net 和 O-Net。
2024-11-05 09:38:38
2565
原创 深度学习基础知识-全连接层
全连接(Fully Connected,简称 FC)层是深度学习神经网络中一种基本的层结构。它主要用于神经网络的最后几层,将高层特征映射到输出空间中。全连接层对数据的每个输入节点与每个输出节点进行连接,用于实现输入特征和输出结果之间的映射关系。以下是对全连接层的详细解释。
2024-11-04 18:23:08
4719
原创 深度学习基础知识-损失函数
损失函数在深度学习模型训练中起着核心作用,它度量模型的预测输出与真实值的差距,并指导模型更新权重以缩小误差,从而实现更好的拟合。
2024-11-02 10:07:30
1855
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人