
深度学习拓展阅读
文章平均质量分 88
分享一些好文章
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
ChallengeHub | DeepWiki:强烈建议每个程序员都用上,Github源码阅读神器!
DeepWiki是一款GitHub源码阅读神器,能自动生成项目架构图和知识库。用户只需输入GitHub项目地址(如TrustRAG),即可获得详细的项目解读和流程图,准确率接近100%。该工具生成的文档质量堪比专业技术文档,极大提升代码阅读效率。访问方式:在DeepWiki官网输入GitHub链接即可体验。该工具特别推荐给程序员群体,能显著降低开源项目的学习门槛。原创 2025-05-31 09:34:16 · 81 阅读 · 0 评论 -
Datawhale | RAG 挑战赛冠军方案解析:从数据解析到多路由器检索的工程实践,推荐阅读!(建议收藏)
本文介绍了RAG挑战赛冠军方案的系统设计与实现。该方案从PDF解析开始,通过优化文本清理和表格预处理技术,构建了高效的检索系统。关键创新点包括:1)采用多路由器架构实现精准查询路由;2)使用LLM重排序模块提升检索质量;3)通过结构化输出和精细提示词工程确保答案格式准确。系统通过解析100份公司年报(共1.5万页),在2.5小时内完成数据库构建,最终以98%准确率回答100个随机问题。方案证明:通过系统化组件优化和细致任务理解,即使使用小型模型也能构建高质量的RAG系统。代码已开源供参考学习。原创 2025-05-31 09:29:22 · 525 阅读 · 0 评论 -
新智元 | OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表(图文并茂!)
满血版o3和o4-mini深夜登场,首次将图像推理融入思维链,还会自主调用工具,60秒内破解复杂难题。尤其是,o3以十倍o1算力刷新编程、数学、视觉推理SOTA,接近「天才水平」。此外,OpenAI还开源了编程神器Codex CLI,一夜爆火。原创 2025-05-30 16:49:49 · 391 阅读 · 0 评论 -
Coggle数据科学 | 行业落地分享:蚂蚁TuGraph图数据库,学习分享不是广告
本文介绍了蚂蚁集团TuGraph图数据库在AI检索领域的创新应用。作为领先的图数据管理平台,TuGraph通过顶点和边构建复杂关系网络,有效管理企业数据。文章重点阐述了GraphRAG技术,该技术结合图数据库与生成式AI,通过多跳推理和知识增强提升检索质量。相比传统RAG,GraphRAG能更好地表示实体关系,支持动态知识扩展,在医疗、科研等场景中展现出显著优势。该技术框架包含查询分解、图检索、知识增强和生成优化等环节,为智能问答系统提供了更精准的知识支持。原创 2025-05-30 16:46:32 · 340 阅读 · 0 评论 -
Ai学习的老章 | 阿里Qwen3 全部情报汇总,本地部署指南,性能全面超越 DeepSeek R1
阿里通义千问Qwen3系列开源模型震撼发布,包含6款Dense模型和2款MoE模型,规模从0.6B到235B全覆盖。其中旗舰模型Qwen3-235B-A22B性能超越DeepSeek R1,部署成本仅为其35%;30B MoE模型可在消费级显卡运行。创新性引入混合思维模式,支持手动控制推理深度。该系列在代码、数学等基准测试中表现优异,支持119种语言,训练数据达36万亿token。提供多种本地部署方案(Ollama、vLLM等),并优化了Mac和iPhone端运行能力。作为国内首个混合推理模型,Qwen3实原创 2025-05-29 15:26:37 · 621 阅读 · 0 评论 -
江大白 | 无人机小目标检测YOLOMG,复杂场景运动检测,多场景数据集SOTA(附论文及源码)
本文提出了一种用于检测极小型无人机的端到端框架。作者生成运动差异图以捕捉小物体的运动特征,并通过双模态自适应融合网络将其与RGB图像融合。为了评估YOLOMG的有效性,作者引入了ARD100数据集,该数据集具有复杂背景、突然的相机运动、低光照条件和微型无人机等特点。在ARD100和NPS-Drones数据集上的实验表明,YOLOMG能够有效地检测小型无人机,并超越了现有方法。原创 2025-05-29 15:23:18 · 714 阅读 · 0 评论 -
OpenCV与AI深度学习 | 实战 | 用Google Gemini实现目标检测(完整代码+步骤)
多模态 LLM 的一个更被低估的功能是它们能够生成边界框来检测对象。我记得我们向一些朋友展示您可以使用 Moondream 和 Qwen VL 检测物体,他们非常震撼。原创 2025-05-28 17:09:26 · 734 阅读 · 0 评论 -
GiantPandaLLM | 在SGLang中使用reasoning模型(建议收藏!)
在本文档中,我们将为希望快速上手SGLang的人提供一个实用资源。SGLang是一个高性能的LLM推理引擎,可以很好地扩展到大量GPU(https://lmsys.org/blog/2025-05-05-large-scale-ep/)。我们将使用新的Qwen3(https://github.com/QwenLM/Qwen3)模型系列,它在SGLang上获得了首日支持。在这篇博文中,我们将使用8B模型。如果你使用较小的GPU,请查看一些较小的Qwen模型,它们同样出色。原创 2025-05-28 13:27:12 · 671 阅读 · 0 评论 -
kaggle竞赛宝典 | 微调推理大模型的几种方案。
如何微调推理大模型?以Qwen3/DeepSeek-R1为例原创 2025-05-27 17:19:02 · 1001 阅读 · 0 评论 -
集智书童 | YOPOv2-Tracker开源 | 端到端方法革新,跟踪提速10倍,扰动观测器破解传统框架延迟难题(建议收藏!)
为在杂乱环境中实现对不可预测目标的高效跟踪,先前工作在检测、映射、导航和控制等方面进行了一系列改进,以使整个系统更加全面。然而,这种分离的流程引入了显著的延迟,并限制了四旋翼的灵活性,尤其是在计算能力受限的机载设备上。相反,作者遵循“少即是多”的设计原则,力求简化流程同时保持有效性。在本工作中,作者提出了一种面向四旋翼的端到端敏捷跟踪与导航框架,该框架直接将传感器观测映射到控制指令。重要的是,利用导航和检测任务的多模态特性,作者的网络通过显式集成传统流程的独立模块来保持可解释性,而不是进行粗略的动作回归。具原创 2025-05-27 17:13:22 · 960 阅读 · 0 评论 -
CVHub | 目标检测和语义分割该如何走下去?清华团队为视觉大一统模型指明了方向。
在计算机视觉领域从"任务特化"向"统一开放"的演进历程中,我们见证了从手工特征工程到深度学习范式,再从闭集假设到开放世界理解的多次技术跨越。原创 2025-05-26 13:44:25 · 1099 阅读 · 0 评论 -
周报 | 25.5.19-25.5.25文章汇总
本周技术文章汇总涵盖多个领域:DefMamba提出多尺度Backbone架构提升视觉任务性能;MatAnyone实现高精度视频抠图;HGO-YOLO以极小参数量实现高效目标检测;Docker部署实战教程详解AI项目容器化;另有LLM微调指南、OCR评测体系、Python内存优化等实用内容。同时包含人工智能术语大全、正态分布解析等基础知识,以及YOLOv12-BoT-SORT-ReID在反无人机赛事中的突破表现。技术干货丰富,适合开发者学习参考。原创 2025-05-26 13:40:29 · 334 阅读 · 0 评论 -
菜鸟学Python | 如何用DeepSeek做海报
DeepSeek功能非常强大,主要是推理能力和理解能力很强,今天小编给大家分享一下如何用deepseek做海拔,这个其实对于设计行业或许新媒体行业是非常刚需的,现在有了deepseek 可以非常轻松的搞定,一起来看一下。原创 2025-05-24 01:30:00 · 887 阅读 · 0 评论 -
集智书童 | YOLOv12-BoT-SORT-ReID 开源 | Strong-Baseline架构,无特征增强问鼎反无人机挑战赛
本文提出了一种基于热红外视频的多无人机跟踪任务强 Baseline 。通过将YOLOv12与BoT-SORT集成,Strong-Baseline在 Baseline 之上有了显著提升。在实验结果中讨论的训练和推理过程中的额外策略表明,Strong-Baseline有潜力在Track 3性能中排名前三。作者还确定了与初始试验相比影响性能的关键因素:模型大小贡献约0.003,跟踪缓冲区大小影响分数约0.0001,图像输入大小提供了最显著的影响,分数增加约0.1,ReID模块增加约0.01。虽然Strong-Ba原创 2025-05-24 01:30:00 · 1639 阅读 · 0 评论 -
python | 终于把统计学中的正态分布搞懂了!!
正态分布是统计学中最常见的概率分布,也被称为高斯分布。它的图形呈现为一个对称的钟形曲线,这个曲线在我们的日常生活中非常常见。许多自然现象都符合或接近正态分布,比如人的身高、考试成绩、测量误差等。原创 2025-05-23 20:07:52 · 884 阅读 · 0 评论 -
阿信AI实验室 | 56个核心术语+高清架构图:一文看透人工智能全貌!
在学习的时候,有个习惯,需要对学习的事物有个完整的轮廓,这样能够知道自己学到的知识是处于整个生态或结构的哪个部分。我在网络上搜索了很多关于AI的架构图之后,并没有找到理想的一个图示,于是借助于AI工具以及自己的一些认知,绘制人工智能架构图,并梳理其中的知识点。原创 2025-05-23 20:05:24 · 1007 阅读 · 0 评论 -
江大白 | AI项目部署必备,Docker 万字实战教程:从入门到掌握(建议收藏!)
在AI项目部署过程中,Docker的使用是一个必备的技能,而Docker 是一个开源的应用容器引擎,它允许开发者将应用以及依赖打包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。本文将带你从Docker的基本概念开始,一步步深入到实际应用。原创 2025-05-22 17:16:02 · 1228 阅读 · 0 评论 -
集智书童 | HGO-YOLO 突破硬件限制 | 仅 4.6MB 参数实现 87.4% 精度+56 FPS 实时检测
准确且实时的目标检测对于异常行为检测至关重要,尤其是在硬件受限的场景中,平衡准确性和速度对于提升检测性能至关重要。本研究提出了一种名为HGO-YOLO的模型,该模型将HGNetv2架构集成到YOLOv8中。这种组合通过GhostConv简化模型复杂性的同时,扩大了感受野并捕捉了更广泛的特征。作者引入了一个轻量级的检测Head,OptiConvDetect,它通过参数共享有效地构建了检测Head。原创 2025-05-22 17:12:27 · 920 阅读 · 0 评论 -
python | Python 内存优化识别循环引用的3种方法
Python作为一种高级编程语言,为开发者提供了自动内存管理机制。在处理复杂数据结构时,循环引用问题可能导致内存泄漏,影响程序性能。本文将详细介绍循环引用的概念及其排查方法,帮助开发者优化Python程序的内存使用。原创 2025-05-21 17:27:06 · 815 阅读 · 0 评论 -
信息化与数字化 | 万字长文:OCR/多模态大模型评测体系全景
本文将系统梳理当前主流的多模态评测基准,包括 OCRBench v2、SEED-Bench-2-Plus、ConTextual、Fox、TableVQA-Bench、ComTQA、MMTab-eval、ChartY、ChartX、MMC、CC-OCR、Video-MME、MME、BLINK、ChEF、GenCeption、DesignQA、MMT-Bench与Omni AI OCR Benchmark 等,通过对其提出背景、作者机构、任务设计、评估指标、模型适用性等方面进行分析比较,帮助读者全面理解当前多模原创 2025-05-21 14:37:08 · 1334 阅读 · 0 评论 -
数据思维 | 微调大型语言模型 (LLM)建议收藏!
大语言模型(LLMs)已极大地革新了自然语言处理(NLP)领域,在文本生成、翻译、摘要以及问答等任务中表现出色。然而,这些模型并非总是适用于特定的领域或任务。原创 2025-05-20 13:42:56 · 1063 阅读 · 0 评论 -
周报 | 25.5.12-25.5.18文章汇总
本周的CSDN博客周报涵盖了多个技术领域的前沿文章。集智书童探讨了CPLOYO设计,通过C2f双模块和KAN网络提升检测精度和泛化能力。AI生成未来系列深入分析了智能体人工智能的多模态交互技术。江大白和集智书童分别对YOLO系列和Post-Training范式进行了全面综述。Coggle数据科学研究了LLMs在时间序列异常理解中的应用。机器之心介绍了昆仑万维开源的Matrix-Game,展示了单图生成游戏世界的技术。此外,还有关于大模型量化实践、Python正则表达式、图像增强库Albumentations原创 2025-05-20 13:40:25 · 301 阅读 · 0 评论 -
阿旭算法与机器学习 | 炸裂!最新视频抠图神器MatAnyone:连头发丝都不放过,赶紧体验一下吧!
MatAnyone 是南洋理工大学 S-Lab 和商汤科技的研究成果,是专门为目标指定的视频抠图打造的强大框架。它借助基于记忆的范式,引入了一致记忆传播模块,这个模块就像是视频抠图的 “智能管家”,通过区域自适应记忆融合,巧妙地整合前一帧的记忆,确保核心区域语义稳定的同时,还能完美保留物体边界的精细细节。原创 2025-05-19 21:18:31 · 1046 阅读 · 0 评论 -
极市平台 | DefMamba来袭:多尺度Backbone与可变形Mamba模块助力视觉任务新高度!
本文介绍一个种新型视觉基础模型DefMamba,通过多尺度 Backbone 结构和可变形 Mamba 模块,结合动态扫描策略(DS),显著提升了视觉任务的表现。该模型在图像分类、目标检测和语义分割等任务中均优于现有方法,展现了强大的特征提取和细节感知能力。原创 2025-05-19 16:57:04 · 1231 阅读 · 0 评论 -
数据派THU原创|DeepSeek动态知识更新——以DeepSeek-R1为例
在信息爆炸的时代,知识的动态更新成为了各行各业不可或缺的一环。DeepSeek推出的DeepSeek-R1系统凭借创新的动态知识更新技术,成功打破了传统知识图谱的静态局限,实现了从静态知识表示到动态实时推理的跨越。本文将深入科普DeepSeek的动态知识更新技术,并通过代码、图片及扩充内容进行详细解释。原创 2025-05-18 15:11:23 · 608 阅读 · 0 评论 -
码科智能 | 视频分割也行了!Meta“分割一切AI”二代SAM2:模型代码、权重以及数据集通通开源!
Meta“分割一切AI”二代SAM2的诞生代表了领域内的一次重大进步。相较于上一代,它的能力从图像分割拓展到视频分割。为静态图像和动态视频内容提供实时、可提示的对象分割,将图像和视频分割功能统一到一个强大的系统中。原创 2025-05-18 15:02:33 · 453 阅读 · 0 评论 -
OpenCV与AI深度学习 | 深度学习懒人图像增强库——Albumentations
对于任何机器学习应用来说,数据集的大小都至关重要。数据集越大,模型的学习效果就越好,推理能力也就越强。尤其是图像分类模型,需要训练数据集具有高度的多样性才能确保令人满意的性能。原创 2025-05-17 00:30:00 · 981 阅读 · 0 评论 -
Ai学习的老章 | 【教程】大模型量化界翘楚:unsloth
Unsloth 出圈是 DeepSeek-R1 爆火的时候,它发布了最小 1.58 位量化版本的 R1,把 DeepSeek-R1 这个非常大的模型(它有 6710 亿个参数,也就是 671B)通过“量化”把原本 720GB 的模型压缩到只有 131GB 的大小。原创 2025-05-17 00:15:00 · 784 阅读 · 0 评论 -
python | Python 正则表达式实战:文本清洗常用模式
在数据处理领域,文本清洗是数据预处理的关键环节。原始文本常包含冗余的特殊字符、格式错误、无效符号或敏感信息,例如网页中的HTML标签、日志文件中的乱码、用户输入的表情符号等。正则表达式(Regular Expression)作为文本处理的强大工具,能通过定义模式快速匹配、提取、替换目标文本,极大提升清洗效率。Python的re模块提供了完整的正则表达式支持,结合其简洁的语法和灵活的API,成为处理文本清洗任务的首选方案。原创 2025-05-16 17:17:30 · 949 阅读 · 0 评论 -
0Ai学习的老章 | 极简教程,大模型量化实践,1张4090跑QwQ?
如题。原创 2025-05-16 17:13:44 · 1027 阅读 · 0 评论 -
机器之心 | 生成视频好看还不够,还要能自由探索!昆仑万维开源Matrix-Game,单图打造游戏世界
世界模型的进度条,最近坐上了火箭。去年 11 月,两家创业公司打造的 Oasis,首次在开源世界模型中实现了实时、可玩、可交互。生成的虚拟环境不仅包含画面,也体现出了对物理和游戏规则的理解。原创 2025-05-15 15:49:48 · 1045 阅读 · 0 评论 -
Coggle数据科学 | ICLR 2025:LLMs能否理解时间序列异常?
大型语言模型(LLMs)在时间序列预测领域已经受到广泛关注,但它们在异常检测方面的潜力尚未得到充分探索。本研究旨在调查LLMs是否能够理解和检测时间序列数据中的异常,重点关注零样本(zero-shot)和少样本(few-shot)场景。原创 2025-05-15 14:47:55 · 1119 阅读 · 0 评论 -
江大白 | 2万字长文,YOLOv1-YOLOv11的十年全面进化综述!(建议收藏)
在这篇综述中,探讨了从初代YOLOv1到最新的YOLOv11模型的发展历程。通过回顾这十年的进步,我们突出了每个版本的关键改进及其在公共安全、汽车技术、医疗保健、工业制造和零售五个重要应用领域的影响。本文概述了每次迭代在检测速度、准确性和计算效率方面的显著增强,同时也解决了早期版本所面临的特定挑战和限制。此外,我们识别了当前YOLO模型能力的不足,并提出了未来研究的潜在方向。我们预测,YOLO的发展将向多模态数据处理转变,利用大语言模型和自然语言处理的进步来增强目标检测系统。这种融合有望拓宽YOLO模型的实原创 2025-05-14 17:05:00 · 987 阅读 · 0 评论 -
集智书童 | 5万字带你领略Post-Training的5大范式 | DeepSeek-R1领衔构建LLM后训练新生态(建议收藏!)
本文首次对训练后语言模型(PoLMs)进行了全面调查,系统地追踪了其从2018年ChatGPT的对齐起源到2025年DeepSeek-R1的推理里程碑的发展轨迹,并肯定了它们在推理精度、领域适应性和伦理完整性方面的变革性影响。作者评估了广泛的技术(即微调、对齐、推理、效率和集成与适应),综合了它们在专业、技术和交互领域的贡献,从法律分析到多模态理解。原创 2025-05-14 16:13:38 · 1541 阅读 · 0 评论 -
AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(四)
智能体人工智能的一个重要目标是开发能够在多种模态、领域中运行,并弥合模拟与现实之间差距的通用智能体。这需要智能体能够处理不同类型的输入,如视觉、语言和音频信息,并在不同的环境中有效地执行任务,无论是虚拟的还是现实世界的。原创 2025-05-13 16:48:57 · 679 阅读 · 0 评论 -
AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(三)
游戏为测试大语言模型和视觉语言模型的智能体行为提供了独特的 “沙盒” 环境,推动了它们在协作和决策能力方面的边界。我们特别描述了三个领域,突出展示了智能体与人类玩家和其他智能体交互的能力,以及它们在环境中采取有意义行动的能力。原创 2025-05-13 16:47:34 · 1027 阅读 · 0 评论 -
集智书童 | 超越 YOLOv9 和 RT-DETR | CPLOYO设计C2f双模块+KAN网络,提高检测精度,并增强泛化能力
物联网(IoT)技术在肺结节检测中的应用显著提升了检测系统的智能化和实时性。目前,肺结节检测主要关注实性结节的识别,但不同类型的肺结节对应着各种形式的肺癌。多类型检测有助于提高整体肺癌检测率和治愈率。原创 2025-05-12 16:54:56 · 1210 阅读 · 0 评论 -
周报 | 25.5.5-25.5.11文章汇总
本周的CSDN博客周报汇总了多篇技术文章,涵盖了数据结构与算法、Transformer模型解析、Redis分布式锁实现、GAN损失函数、大语言模型引擎、YOLOv10姿态检测、Python事件驱动模式以及大模型OCR识别等内容。这些文章不仅提供了深入的技术解析,还附有代码实现,适合技术爱好者收藏学习。文章结尾鼓励读者点赞、收藏和评论,以支持作者继续创作,并邀请读者推荐公众号,共同学习和进步。原创 2025-05-12 16:46:09 · 339 阅读 · 0 评论 -
机器学习与数学 | 本地部署大模型实现扫描版 PDF 文件 OCR 识别,笔记本可跑
在使用大模型处理书籍 PDF 时,有时你会遇到扫描版 PDF,也就是说每一页其实是图像形式。这时,大模型需要先从图片中提取文本,而这就需要借助 OCR(光学字符识别)技术。原创 2025-05-11 11:03:46 · 1019 阅读 · 0 评论 -
python | nicegui,一个非常好用的 Python 库!
nicegui是一个Python库,为开发者提供了一种极其简便的方式来构建现代化Web用户界面。与传统Web开发不同,使用NiceGUI无需编写HTML、CSS或JavaScript代码,开发者只需使用熟悉的Python语法即可创建响应式、美观的Web应用。NiceGUI基于FastAPI和Socket.IO构建,具备高性能和实时通信能力,同时保持极简的API设计理念。原创 2025-05-11 11:00:14 · 723 阅读 · 0 评论