自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

原创 大模型的scaling laws:Scaling Laws for Neural Language Models

1、Loss与模型size、数据集大小以及用于训练的计算量呈幂律关系其他架构细节,如网络宽度或深度,在较宽范围内影响极小2、简单的公式可以描述过拟合与模型/数据集大小的依赖关系,以及训练速度与模型大小的依赖关系3、作用:固定计算预算的最优分配。更大的模型显著更样本高效4、记住标红的小节结论就行了,重要的是结论和学习如何做消融实验的思路

2025-04-28 22:42:12 770

原创 InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models论文理解

1、InternVL3采用了一种原生的多模态预训练范式,在预训练阶段就从多样化的多模态数据和纯文本语料库中共同获取多模态和语言能力2、InternVL3引入了可变视觉位置编码(V2PE)以支持扩展的多模态上下文,采用了先进的post training技术(SFT+MPO)3、InternVL3在多种多模态任务中表现卓越,InternVL3-78B在MMMU基准测试中获得了72.2分,与闭源商业模型相比也具备高竞争力

2025-04-16 00:19:26 775

原创 Qwen2.5-VL Technical Report 论文翻译和理解

1、Qwen2.5-VL是QwenVL的最新模型,在视觉识别、精准目标定位、稳健文档解析以及长视频理解等方面实现了重大突破2、引入了动态分辨率处理和绝对时间编码,使其能够处理不同尺寸的图像以及长达数小时的视频,并实现秒级事件定位3、数据集上建立了一个自动化filter的流程,使得模型能够获取高质量数据4、在现实世界场景(如操作计算机和移动设备)中具备推理、工具使用和任务执行能力。可在不同领域实现强大的zero-shot泛化能力

2025-04-13 21:58:15 949

原创 ChatRex: Taming Multimodal LLM for Joint Perception and Understanding 论文理解和翻译

1、MLLM在感知方面存在不足,比如Qwen2-VL在coco上recall只有43.9%2、2提出了ChatRex,旨在从模型设计和数据开发两个角度来填补这一感知能力的缺口3、ChatRex通过proposal边界框输入到LLM中将其转化为retrieval任务4、构建了一个data-engine,提出了Rexverse-2M数据集,支持了感知和理解的联合训练。

2025-04-13 00:10:17 991

原创 InternVideo2.5:Empowering Video MLLMs with Long and Rich Context Modeling

1、InternVideo2.5通过LRC建模来提升MLLM的性能。2、层次化token压缩和任务偏好优化(mask+时空 head)整合到一个框架中,并通过自适应层次化token压缩来开发紧凑的时空表3、MVBench/Perception Test/EgoSchema/MLVU数据benchmark上提升明显

2025-04-09 00:01:00 794

原创 数据质量:From Quantity to Quality: Boosting LLM Performance with Self-GuidedData Selection for Instruct

在大型语言模型(LLMs)的领域中,指令数据的质量与数量之间的平衡是一个关键点。1、提出了一种自我引导的方法,使LLMs能够自主识别并从开源数据集中选择最佳样本,从而有效减少人工策划和对LLMs指令微调的潜在成本。2、指令遵循难度(IFD)指标成为识别模型预期响应与其内在生成能力之间差异的关键指标。3、通过应用IFD,在Alpaca和WizardLM等数据集上模型仅使用原始数据5%-10%的樱桃数据就可以达到全量数据微调的效果

2025-04-07 23:15:27 888 1

原创 数据蒸馏:Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching

1、数据集蒸馏只有在合成样本的总数极小时才有效。由于如此少的样本所能包含的信息有限,似乎要实现真正无损的比较难2、本研究提出了一种合成数据集规模增长仍保持有效的蒸馏方法算法,并阐明了现有方法为何无法生成更大规模、高质量的合成数据集。3、轨迹匹配是最SOTA的方法,即优化合成数据以诱导与真实数据相似的长期训练动态。但区分早期轨迹和后期轨迹,4、将生成模式的难度与合成数据集的大小相匹配。通过这样做,我们首次成功地将基于轨迹匹配的方法扩展到更大的合成数据集,实现了无损数据集蒸馏

2025-04-06 23:34:40 929

原创 数据蒸馏:Dataset Distillation by Matching Training Trajectories 论文翻译和理解

1、数据集蒸馏的任务是合成一个较小的数据集,使得在该合成数据集上训练的模型能够达到在完整数据集上训练的模型相同的测试准确率,号称优于coreset的选择方法2、本文中,对于给定的网络,我们在蒸馏数据上对其进行几次迭代训练,预先计算并存储在真实数据集上训练的专家网络的训练轨迹,并根据合成训练参数与在真实数据上训练的参数之间的距离来优化蒸馏数据。3、有一个问题哈,这种蒸馏方法强依赖GT,如果新增数据优化模型,没有GT可能还是只能使用coreset的方法来做

2025-04-05 23:03:01 941

原创 大模型高质量rag构建:A Cheat Sheet and Some Recipes For Building Advanced RAG

1、给出了典型的基础rag并定义了2条rag是成功的要求2、基于2条rag的成功要求给出了构建高级rag的相关技术,包括块大小优化、结构化外部知识、信息压缩、结果重排等3、对上述所有的方法,给出了llama的demo代码和相关的其他参考链接

2025-03-31 23:35:51 974

原创 数据蒸馏:Dataset Distillation with Neural Characteristic Function: A Minmax Perspective论文理解

1、基于分布的数据蒸馏效果比较好,但是距离度量往往无法准确的捕捉分布差异,导致不可靠性2、本文将数据集蒸馏表述为minmax优化问题,引入了神经特征函数差异(NCFD),实现了合成样本的真实性和多样性的平衡(就是生成了更接近真实数据的压缩后数据)3、在低分辨率和高分辨率数据集上达到SOTA,GPU内存使用量减少了300x,速度提升20x,仅使用2.3GB的显存2080TI在CIFAR100上无损压缩

2025-03-31 00:17:08 816

原创 大模型思维链COT:Chain-of-Thought Prompting Elicits Reasoningin Large Language Models

1、探索了COT(chain-of-thought prompting)通过一系列的中间推理步骤来显著的提升了LLM的复杂推理能力2、2在三个大型语言模型上的实验表明,思维链提示能够提升模型在一系列算术、常识和符号推理任务上的表现3、解释了一下为什么COT有效,见3.3节:老实说我觉得全是猜测4、给出了一些局限性:比如模型参数超过1000亿才work,cot并不是真正的模仿人类在推理等等;

2025-03-25 23:29:03 1130 2

原创 大模型RLHF训练-PPO算法详解:Proximal Policy Optimization Algorithms

1、提出了一种新的策略梯度方法家族,用于强化学习,这些方法交替进行与环境交互采样数据2、提出了一个新的目标函数,使得能够进行多个小批量更新的多轮训练3、这些新方法为近端策略优化(Proximal Policy Optimization,PPO),它们具有一些信任域策略优化的优点4、证明PPO优于其他在线策略梯度方法,并且总体上在样本复杂度、简单性和运行时间之间取得了有利的平衡。

2025-03-23 23:21:04 1236

原创 centernet2阅读笔记:Probabilistic two-stage detection

paper:https://arxiv.org/pdf/2103.07461.pdfcode:https://github.com/xingyizhou/CenterNet2 centernet我觉得是最优雅的框架之一,v1版本可以看我的前文,我在作者的代码上做了一个prune的版本,v2来了,非常迫不及待的学习一下,前面的DETR我都写不下去了,先来研究一下这篇paper,code是基于detectron2的,吐槽一下,现在很多代码都是基于mmdetection或者detectron2,工业..

2025-03-18 22:41:42 554

原创 单目3d detection算法记录

1、centernet object as points这篇文章的核心单目3d检测主要是利用中心点直接回归出3d模型的所有属性,head共享整个backbone,其中3d属性包括:2d目标中心点、2dw和h、2d offsets、3doffsets、3d dimmession、rot还有depth。其中对应的depth是根据kitti中的外参矩阵来进行计算得到的,同时推理的也是全局角度,如下所示:KITTI 数据集 参数—— tracking devkit中的rotation_y和alp..

2025-03-18 22:39:34 998

原创 Channel-wise Knowledge Distillation for Dense Prediction论文阅读和

paper:https://arxiv.org/pdf/2011.13256.pdfcode:https://github.com/open-mmlab/mmrazor这篇paper主要是商汤开源的mmrazor中提及在detection有效果,我之前记录的几篇sota文章虽然在各自的paper中在detection领域都有提及有增益,但实际上在我的测试中,可能由于模型容量或者其他原因,收益都几乎不可见,但是这篇文章是商汤开源的,我认为应该具有比较好的含金量,因此再分析和实验一波。摘要:k.

2025-03-18 22:35:16 675 1

原创 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 论文阅读

1、为什么要这么做?预训练模型越来越大,比如GPT-3 175B训练独立变得越来越不可行2、方法:冻结预训练模型的权重,在Transformer架构的每一层中注入可训练的低秩分解矩阵3、效果:训练参数量减少10000x,GPU显存减少3x,且不像adapter引入额外的推理延迟

2025-03-16 21:57:28 1709 1

原创 Qwen2.5-7B-Instruct进行自我认知微调

Qwen2.5-7B-Instruct进行自我认知微调

2025-03-09 22:14:55 1169

原创 InternVL2.5:Expanding Performance Boundaries of Open-SourceMultimodal Models 论文理解

1、继承InternVL 2.0核心模型架构的基础上,系统地探索了视觉编码器、语言模型、数据集大小以及测试时配置的性能趋势,应该还有一个(预)训练策略2、第一个在MMMU基准测试中超过70%的开源MLLM,通过链式思维(CoT)推理实现了涨点3.7%3、探索了一种data filter的数据方式,确保数据的高质量(MLLM去重,filter+人工)

2025-03-08 23:33:22 1342

原创 Mini-InternVL: A Flexible-Transfer PocketMultimodal Model with 5% Parameters and 90%Performance 论文理解

1、开发了10亿到40亿不等的MLLM系列,其性能达到InternVL2.0的90%,而参数量仅为5%2、为Mini-InternVL开发了一个统一的适配框架(检测、分类、问答、理解等任务),使模型能够在下游任务中实现迁移3、给出了一些不同任务训练的数据混合参数,有极大的参考意义

2025-03-03 23:53:36 1530

原创 InternVL1.5:How Far Are We to GPT-4V?Closing the Gap to Commercial Multimodal Models

1、持续学习策略:针对大规模基础视觉模型InternVit-6B提升能力的同时还能够被其他LLMs复用2、动态高分辨率:根据输入图像的宽高比和分辨率,将图像划分为1到40个448×448像素的patch,支持高达4K分辨率的输入3、高质量双语数据集:涵盖常见场景、图像,并用英语和中文问答标注InternVL1.5在18个多模态benchmark中达到sota(8项最佳)4、跟1.0比起来:去掉了QLLaMA,增加了上述三点,还有更换了LLM的组件进行组合

2025-03-02 22:56:47 1176

原创 InternVL: Scaling up Vision Foundation Models and Aligningfor Generic Visual-Linguistic Tasks

1、设计了一个大规模的视觉语言模型InternVL,将视觉模型扩展到60亿参数,并于LLM进行对齐2、采用了3个阶段进行逐步对齐,在视觉感知任务上,视觉语言和MLLMs上实现先进的性能

2025-03-01 23:12:31 1385

原创 多模态基础模型第二篇-deepseek-r1部署

分别使用本地windows和云端linux进行部署,测试不同硬件资源的模型推理性能:

2025-02-16 22:27:53 886

原创 多模态基础模型-InternVideo2:Scaling Video Foundation Models for Multimodal Video Understanding

1、模型训练上,设计了一种渐进式的训练方法,将掩码视频建模、跨模态对比学习和下一个token预测统一起来,2、数据质量上,强调时空一致性,通过语义分割视频并生成视频-音频-caption,改善了视频和文本之间的对齐3、将参数量扩展到了60亿,视频识别、视频-文本任务、音频和以及视频中心对话取得sota

2025-02-16 17:25:25 1787

原创 多模态基础模型训练笔记-第一篇InternVL-g

将之前所有训练过的大模型的过程都总结和回忆一下,遇到的坑别忘了

2025-02-15 22:53:41 821

原创 数据质量-SemDeDup: Data-efficient learning at web-scale through semantic deduplication

1、LAION/C4这些大型数据集存在大量冗余和重复2、本文可以通过数据质量从语义上减少数据的冗余和重复3、甚至可以减少训练的iteration数指标不变,进一步减少迭代时间和资源,且该方法在分布为的数据性能也有所提升

2025-02-09 19:59:00 1286

原创 数据质量-MetaCLIP:DEMYSTIFYING CLIP DATA

CLIP成功的关键因素是其数据,而不是模型架构或预训练引入了元数据整理语言-图像预训练(MetaCLIP),在相同的训练预算的情况下,取得了sota的指标70.8%(open-ai:68.3%);paper公开了这个数据处理的pipline

2025-02-02 00:39:49 990

原创 核心集:DeepCore: A Comprehensive Library for CoresetSelection in Deep Learning

核心集的目的是选择最具信息量的训练子集,但之前的coreset选择方法不是为了深度学习设计的,会导致效果差作者贡献了deepcore的工具,集成了最近很多关于深度学习的核心集选择方法在Imagenet/cifar10等数据集上验证,结论如下:在CIFAR10数据集上,基于次模函数的方法在小核心集<1%时表现最佳,比其他方法高出5%以上。在ImageNet数据集上,基于误差的方法(如遗忘和GraNd)在小核心集(少于10%)时表现较好。当核心集大小增加到30%以上时,随机选择成为了一个强大

2025-02-01 01:32:03 1185

原创 DataComp:探索下一代多模态数据集

整体方式:提出DataComp,相较于传统的dataset不变,改变算法的方式,而是保持整个训练代码和计算资源不变,改变新的数据集从而达到指标的提升等创新

2025-01-28 01:08:50 1291

原创 DFN:Data Filtering Network 论文阅读和理解

对于给定的DFN和数据池子,用于训练DFN的数据池称之为过滤数据集,用于DFN过滤后构建的数据集是诱导数据集,将DFN的性能定义为诱导模型的性能,该性能是通过标准的基准测试上评估得到的(例如DataComp上一样),则DFN的质量就是诱导数据集训练出来的模型的强度,apple是基于DataComp来构建的;经验也确实如此,不再加一级人工逻辑数据集几乎无法直接使用,clip的判断在图像文本对的描述如果足够细节的情况下,极其容易出错,尤其是在小批量数据增加上,会给实际训练的模型带来退化;

2025-01-20 01:15:14 1985 2

原创 百度Apollo Day数据驱动串讲

一、我写的目的为什么要看apollo:技术方案和原理是讲解最清晰的 我该怎么做: 总结和对标他的设计,复用到自己的工作上 将现有的还未建设的模块用到自己的工作里面去 二、先占个座(下周写吧)

2025-01-05 22:18:34 1072

原创 tesla openday数据驱动串讲

1、tesla的数据驱动全流程代表着的sota,总结和沉淀他的方法2、总结后与自己现在的理念做一次对标,查漏补缺3、找到自己现在的主要问题,聚焦下一阶段的投入

2024-12-29 23:11:53 2194

原创 文本图像多模态基础-clip的细节解读

主要是要学习open-ai的思路和实验,如何将这些方法论使用到自己的工作上,用来区分低阶算法工程师和高阶的手段

2024-12-22 22:52:01 1599

原创 自监督表征预训练-MINM解读

MIM:将图像中的某些图像块mask掉,然后用其他剩下的可见的图像块来预测被mask掉的图像块,然后进一步讲将这个任务变成一个接入下游任务的基础任务,将这个预训练的模型编程图像的编码器,则该编码器具备丰富的representation(表征和语义信息)

2024-12-22 20:27:16 145

原创 t-rex2开放集目标检测

这篇文章的工作是基于t-rex1的工作继续做的,核心亮点:是支持图片/文本两种模态的prompt进行输入,甚至进一步利用两种模态的组合来达到检测和检索的目的,比如文本检索目标、以图搜图或者两个组合的方式(文中详细论述了2种prompt输入的重要性和必要性)还有一个非常关键的地方,t-rex2开放了一个负样本抑制的方法,这个极大的缓解了开集目标检测器中使用clip作为head导致的分类器出问题从而有大量误检的情况(我觉得)可以作为zero-shot的检测器或者一些快速数据集生成的data-engine

2024-03-24 17:51:11 3373 1

原创 Distilling Knowledge via Knowledge Review论文和源码阅读笔记

1、paper:https://arxiv.org/pdf/2104.09044.pdf2、code:https://github.com/dvlab-research/ReviewKD思谋科技出品的paper,d2的源码,是不是考虑白嫖一波,先分析一下paper的思想

2021-12-01 21:48:18 1761 3

原创 General Instance Distillation for Object Detection 论文和源码阅读笔记

paper:https://arxiv.org/pdf/2103.02340.pdfcode:GitHub - daixinghome/Distill_GID_detectron2首先给出论文链接和源码链接,默默地发现是基于D2的代码,说不定可以白嫖一波,先写一下论文,后续再仔细研读一下源码,旷视的工作还是很良心的,重点指出的是,这篇paper和我的上一篇kd的博客的paper都是覆盖anchor-based、anchor-free的,因此我觉得算是很不错的工作。

2021-11-24 17:18:46 2809 1

原创 IMPROVE OBJECT DETECTION WITH FEATURE-BASEDKNOWLEDGE DISTILLATION: 论文和源码阅读笔记

篇paper提到kd之所以在目标检测上的失败主要是两个原因:1、前景和背景之间的像素不平衡。 2、缺乏对不同像素之间的关系的蒸馏。基于这两个原因,本文提出了注意力引导机制和non-local机制来解决,让学生网络能够更加努力的学习teacher的模型,这样不仅能够单个像素的特征,还能够学习non-local模块捕获不同像素之间的关系,paper在one-stage、two-stage、anchor-free上都实现了ap的提升。

2021-11-23 19:48:06 2468 1

原创 knowledge distillation 综述

局提到有数种模型加速的方法:1、权重共享和剪枝2、低秩分解3、转移的紧凑卷积滤波器:这些方法通过转移去除无关紧要的参数或压缩卷积滤波器4、KD 然后摘要里面说明kd的key problem是如何将teacher模型里面的knowledge transfer到student模型,一个kd系统包括三个部分,knowledge、蒸馏算法,teacher模型。

2021-11-22 22:23:00 2544

原创 关于目标检测的distillation的一点理解

1、常见的基本操作文章代表Learning Efficient Object Detection Models with Knowledge Distillation 如上图所示 , 首先在teacher-model和student-model的中间层featuemap进行学习和蒸馏,如果遇到st-model和te-model的feature-mapshape不一致时,则使用adaption模块来完成统一,然后计算l2距离。 其次,RPN\RCN部分的分类的暗知识以及回...

2021-10-31 00:43:52 912

原创 DETR阅读笔记和源码理解:End-to-End Object Detection with Transformers

paper:https://arxiv.org/pdf/2005.12872.pdfcode:https://github.com/facebookresearch/detr近年,transformer开始大量从NLP引入计算机视觉,使得很多工作有了新的方向,本篇paper是第一篇端到端的将transformer引入目标检测和全景分割的工作,我对这个领域也没有那么熟悉,算是一起扫盲了,如果有新的idea,可以尝试复现一波,本文将按照paper的结构进行叙述(本篇paper解读只是占个坑,我对DETR

2021-04-06 23:41:53 2032

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除