- 博客(430)
- 资源 (8)
- 收藏
- 关注

原创 『NLP学习笔记』Triton推理服务器加速模型推理
NVIDIA Triton(英伟达官网)推理服务器在生产中提供快速且可扩展的 AI。开源推理服务软件 Triton Inference Server 通过使团队能够从任何框架 (TensorFlow、NVIDIA TensorRT、PyTorch、ONNX、XGBoost、Python、自定义等) 在任何基于 GPU 或 CPU 的基础设施上部署经过训练的 AI 模型,从而简化 AI 推理(云、数据中心或边缘)。
2022-03-22 00:21:16
3959
1

原创 〖TensorFlow2.0笔记23〗(更新版)ResNet-18实现Cifar10(94%)和Cifar100(75%)分类
ResNet-18实现CIFAR-10(94%)和CIFAR-100(75%)分类!
2020-08-20 10:09:59
7065
7

原创 『论文笔记』CBAM:Convolutional Block Attention Module(注意力机制)+TensorFlow2.0复现
本文提出了卷积块注意模块(CBAM),这是一个简单而有效的前馈卷积神经网络注意模块。在给定中间特征图的情况下,我们的模块按照通道和空间两个独立的维度依次推断注意图,然后将注意图乘入输入特征图进行自适应特征细化。因为CBAM是一个轻量级的通用模块,它可以无缝地集成到任何CNN架构中,开销可以忽略不计,并且可以与基本CNNs一起进行端到端的培训。我们通过在ImageNet-1K、MS COCO检测和VOC 2007检测数据集上的大量实验来验证我们的CBAM。
2019-12-30 15:07:16
14224
27

原创 『自己的工作3』梯度下降实现SVM多分类+最详细的数学推导+Python实战(鸢尾花数据集)
支持向量机(Support Vector Machine, SVM)的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。SVM的目标是寻找一个最优化超平面在空间中分割两类数据,这个最优化超平面需要满足的条件是:离其最近的点到其的距离最大化,这些点被称为支持向量。SVM是用来解决二分类问题的有监督学习算法,同时它可以通过one-vs-all策略应用到多分类问题中。本文主要介绍如何使用梯度下降法对SVM多分类问题进行优化。
2019-11-28 19:53:45
5740
8

原创 『矩阵论笔记』线性判别分析(LDA)最全解读+python实战二分类代码+补充:矩阵求导可以参考
线性判别分析(Linear Discriminant Analysis 简称LDA)是一种经典的线性学习方法,在二分类问题上因为最早由【Fisher,1936年】提出,所以也称为“Fisher 判别分析!”Fisher(费歇)判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样本点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。
2019-05-27 20:59:10
6153
5

原创 『ML笔记』Python凸优化求解cvxopt包+实战SVM+补充np.dot, np.matmul, np.multiply!
Python凸优化求解cvxopt包+实战SVM+补充np.dot, np.matmul, np.multiply!
2019-03-16 15:47:01
4616
12

原创 『矩阵论笔记』解读奇异值分解(SVD)+Python实战
奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分解(Matrix Decomposition),奇异值分解则是特征分解在任意矩阵上的推广。在信号处理、统计学等领域有重要应用。这篇文章主要说下奇异值分解,这个方法在机器学习的一些算法里占有重要地位。
2019-03-14 21:44:04
5569
6
原创 『大模型笔记』第1篇:高效请求排队:优化大语言模型(LLM)性能
为多个应用和用户同时提供大语言模型服务是一项挑战,因为它们需要争夺有限的 GPU 资源。本文是关于 LLM 性能系列的第一篇,内容基于我们在 TNG Technology Consulting GmbH 自建 LLM 服务的实践经验。本文将重点介绍请求排队对性能的影响,并探讨不同的调度策略(scheduling strategies)。
2025-06-17 15:20:07
125
原创 『大模型笔记』第2篇:并发请求中的 Prefill 与 Decode:优化大语言模型性能
在大语言模型(LLM)应用中,能否高效地并发处理多个用户的请求,是影响系统性能的关键因素之一。在上一篇文章中,我们探讨了如何通过队列策略来对不同用户请求进行优先级管理。而在本篇中,我们将重点介绍如何并发处理请求,以及这种处理方式如何影响延迟、吞吐量和 GPU 资源利用率等核心指标。
2025-06-17 14:22:18
239
原创 『大模型笔记』为什么我们需要基于大语言模型(LLMs)的流式应用?
大语言模型和其他机器学习模型不太一样!它们在给出完整答案时,往往需要较长时间,可能要几秒钟甚至更久。那么我们该怎么办?难道就一直盯着加载的转圈图发呆吗?现在的人连等亚马逊 Prime 几个小时送货都嫌慢,你觉得他们会愿意等待 LLM 慢慢生成回应吗?解决这个特殊问题的办法就是:在 LLM 生成内容的同时,将其实时流式输出。
2025-06-17 11:33:55
47
原创 『大模型笔记』如何通过“持续批处理(Continuous Batching)”来扩展 LLM 应用的处理能力!
如果你想部署一个大型语言模型(LLM)的推理接口,那么必须认真考虑如何处理大量的请求。在传统的机器学习模型中,通常可以让请求排队,等待服务器空闲后再进行推理处理。然而,大型语言模型的每个请求可能需要几秒钟才能完成处理。那么问题来了:我们如何扩展到每秒处理数百个请求呢?下面我们来详细讲解一下。
2025-06-16 17:15:49
95
原创 『大模型笔记』第0篇:基于Transformer的生成式模型分布式服务系统
大型Transformer生成模型需要高效的服务系统支持。我们提出了Orca,这是首个结合迭代级调度与选择性批处理显著提升吞吐量与响应效率对GPT-3 175B吞吐量提升可达36.9倍已部署在FriendliAI云服务,现有客户正在生产环境中使用大模型推理-极致化的批处理策略介绍。
2025-06-16 15:48:45
157
原创 『大模型笔记』从 LangChain 到 Agentic 系统:Andrew Ng 谈 AI 应用趋势与实践洞察
吴恩达分享了为什么大多数成功的 AI 智能体都是从简单的线性工作流开始的,而不是从复杂的自主系统起步的,并介绍了目前加速智能体开发的“乐高积木”式方法。在与 Harrison Chase 的炉边谈话中,吴恩达阐述了企业在将现有流程拆解为一系列顺序微任务时所面临的挑战,并解释了为什么他认为线性工作流比复杂的自主系统蕴含着更多机遇。他还揭示了 AI 创业公司成功的两个关键预测因素,并强调在 AI 时代每个人都应该学习编程。
2025-06-12 00:47:07
98
原创 『大模型笔记』Langchain作者Harrison Chase专访:环境智能体与全新智能体收件箱
LangChain 的 CEO Harrison Chase 提出了“环境智能体”(Ambient Agents)的概念,这是一种持续在后台运行的 AI 系统,它们不是依赖人类的直接指令,而是根据发生的事件主动做出响应。本文将带你了解环境智能体与传统聊天机器人有何不同、为什么人类监督仍然至关重要,以及这种新方式如何大幅提升我们利用 AI 的能力。
2025-05-13 23:01:55
201
原创 『Python学习笔记』ubuntu解决matplotlit中文乱码的问题!
在Ubuntu系统中,解决Matplotlib中文乱码问题可以通过以下步骤实现
2025-05-09 12:27:04
418
原创 『大模型笔记』什么是MCP?将AI智能体与数据库和API集成
主题内容概述MCP 概述 (Model Context Protocol)由 Anthropic(Claude)主导的一个开放协议,旨在让 AI 模型与不同 API、数据源无缝对接。它填补了功能碎片化、缺少统一标准的空白,为复杂、多步骤任务提供更高效的上下文处理能力。一种通用标准协议,旨在整合 AI 能力、服务与上下文,替代零散的 Agent 方案。通过 MCP,可以快速接入各种服务并实现多轮对话、复杂任务的执行,不必针对每个服务单独开发集成逻辑,从而提高可维护性和可扩展性。
2025-03-14 13:54:16
1305
原创 『大模型笔记』超级对齐(Super Alignment):确保人工超智能遵循人类价值观的挑战与对策
超级对齐(Super Alignment):确保人工超智能遵循人类价值观的挑战与对策。
2025-03-12 09:59:03
260
原创 『大模型笔记』GPT-4.5发布,AGI真的要来了吗
GPT-4.5 是 OpenAI 迄今为止最大、最具知识性的模型。目前以研究预览形式发布,面向 ChatGPT Pro 用户和 API 开发者。未来一周内将扩展到 Plus 用户、教育(EDU)用户和团队(Team)用户。OpenAI 发布了其最新模型 GPT-4.5,并称其为迄今为止最大、最具知识性的 AI 模型。目前,该模型以研究预览形式提供给 ChatGPT Pro 用户和 API 开发者,并计划在未来一周内推广至 Plus 用户、教育(EDU)用户和团队(Team)用户。
2025-02-28 13:08:36
210
原创 『Linux笔记』进程间通信(IPC)详细介绍!
进程间通信(Inter-Process Communication, IPC)是操作系统提供的一种机制,旨在解决多个进程之间如何交换数据和进行协作的问题。它在并发程序设计中至关重要,尤其是在多核处理器上,可以有效提升资源利用率,减少处理器等待时间,提供更高效的执行方式。IPC 的核心目标是允许进程在不同的执行环境中(比如不同的内存空间)共享数据和状态信息。进程间通信(IPC)是多进程系统中不可或缺的一部分,常见的机制包括共享内存、消息队列、信号量、管道和套接字。
2025-02-19 14:08:52
827
原创 『大模型笔记』DeepSeek-R1-Distill-Qwen-14B vLLM 部署
DeepSeek-R1-Distill-Qwen-14B vLLM 部署。
2025-02-19 10:07:57
277
原创 『大模型笔记』马斯克的Grok3让整个AI行业震惊-地表最强!
推理能力是AI发展的下一步关键,Grok3在这一方面取得了显著进展。推理模型能够通过深思熟虑的过程来解决问题,这种能力使得模型能够处理更复杂和具有挑战性的问题。与传统的瞬时回应模型不同,推理模型可以通过延长思考时间,给出更精准的答案。Grok3的推理版本也在最新的测试中超越了其他竞品,证明了其在复杂问题解决中的强大能力。Grok3进入了代理时代,推出了名为DeepSearch的新产品。DeepSearch不仅是下一代搜索引擎,更是一个帮助用户理解复杂信息、节省时间的工具。
2025-02-18 15:55:10
125
原创 『Linux学习笔记』linux系统有哪些方法计算文件的md5!
md5sum是最常见的计算MD5值的命令,适用于大多数Linux系统。openssl是功能全面的工具,支持更多的哈希算法,并且可以用于SSL/TLS加密等任务。shasum主要用于SHA系列算法,但也支持计算MD5。根据实际需求,可以选择适合的工具来计算文件的MD5值。
2024-11-28 14:38:36
2565
张量分解_张量CP分解_张量Tucker分解_详细介绍!
2021-07-13
2024大模型AI工程师必备技能
2024-07-03
5种人工智能公司(大模型领域)
2024-06-21
Fast LLM Serving with vLLM and PagedAttention
2024-05-27
Openai CEO奥特曼和Brad访谈(2024年4月17日),哪些公司将被 OpenAI 淘汰?
2024-04-19
【东方财富证券】从硬件、算法、应用角度看ChatGPT浪潮引领AIGC革新投资机遇
2024-03-20
【钛媒体国际智库】中美AI大模型应用比较研究报告
2024-03-20
【中国信通院2023】人工智能大模型赋能医疗健康产业白皮书
2024-03-20
【SuperCLUE团队】中文大模型基准测评2023年度报告
2024-03-20
【中国信通院2022】人工智能AI框架发展白皮书
2024-03-20
剑桥大学:2023State of AI Report
2024-03-20
【中国信息通信研究】2023大模型落地应用案例集
2024-03-20
清华⼤学计算机系 知识⼯程实验室(KEG)唐杰《从千亿模型到ChatGPT的⼀点思考》
2024-03-20
AIGC算力时代系列报告-ChatGPT芯片算力研究框架
2024-03-20
CS324课程大模型中的Scaling Law(规模法则)课件
2024-03-20
清华大学新闻与传播学院发布的AIGC发展研究资料,2024年最新,200多页
2024-03-20
图像处理透视变换(Python+Opencv)
2023-02-10
BP期末论文算法word文档+代码
2019-01-14
VNC-Server-6.3.2-Linux-x64.deb
2020-06-29
VNC-Viewer-6.20.113-Linux-x86.deb
2020-06-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人