大模型开发-CSDN博客

原创盘点50个AI大模型企业和典型产品

ChatGPT：是OpenAI推出的非常具有影响力的聊天机器人程序，能够进行自然流畅的对话、文本创作、问题解答等，不断迭代升级，引发了全球对大模型的广泛关注。- GPT-4O：OpenAI的新一代AI模型，在语言理解和生成能力上有进一步提升，能够感知用户的情绪，并针对问题以带有情绪的“嗓音”做出反馈。- Sora：文生视频大模型，可根据文本指令生成复杂且具有一定时长的视频，具有多个镜头、准确的角色和视觉风格保留等特点，但仍在开发完善中。

2024-10-10 16:54:30 3144

原创 9款GPU横评，哪些适合大模型训练，哪些适合推理任务？

在 AI 领域，有两大场景对 GPU 的需求最大，一个是模型训练，另一个是 AI 推理任务。但是很多人多可能在最开始为自己的项目做 GPU 选型时，都很难判断哪些 GPU 适合做模型训练，哪些 GPU 更适合去做推理任务。所以我们通过这篇文章将基于 GPU 指标来帮助大家对比分析NVIDIA 的 H100、A100、A6000、A4000、V100、P6000、RTX 4000、L40s、L4 九款GPU，哪些更推荐用于模型训练，哪些则更推荐用于推理。

2024-09-24 15:10:47 6832

原创大模型学习路线（超全面！超详细！）收藏这一篇就够了！

在深度学习领域，"大模型"通常指的是模型参数数量庞大、拥有深层结构的神经网络。这些模型的规模通常表现为网络中的参数数量，即模型中需要学习的权重和偏置的数量。具体来说，大模型可能包含数百万到数十亿的参数。

2024-09-23 11:59:31 3763

原创深度学习必备框架：7步轻松搞定 Pytorch 基础！

接下来我们定义网络结构，由于是图像分类任务，因此我们的节点维度使用逐步降低的定义。nn.Flatten(), # 将维度转换为二维nn.Linear(784, 256), # 全连接层nn.ReLU(), # 激活函数nn.Linear(256, 10) # 全连接层。

2023-01-30 10:02:57 2759

原创 R1-Zero的无监督版本来了！SFT不再是必须，EMPO重新定义大模型推理微调

当前，大语言模型（LLMs）已在数学推理、代码等任务中展现出强大的能力。然而，现有提升推理性能的主流范式，往往依赖监督微调（SFT）与强化学习（RL）的结合，依赖于人工标注的推理路径、标准答案或额外的奖励模型。这不仅成本高昂，也限制了方法的通用性与可扩展性。针对这一痛点，本文（2025 年 4 月 8 日首次放出）提出 Entropy Minimized Policy Optimization（EMPO）方法，开创性地探索完全无监督条件下实现 R1-Zero-like 范式的大模型推理能力提升策略。

2025-04-30 22:29:27 812

原创最强开源大模型？Qwen3 系列深度解析 + 本地部署指南！

Qwen3（通义千问3）是阿里云Qwen团队推出的新一代开源大语言模型系列，涵盖密集模型和混合专家（MoE）模型多个规模。本次发布共开源了 6 个密集模型和 2 个 MoE 模型，参数量从 6亿到 2350亿不等。其中密集模型包括约0.6B、1.7B、4B、8B、14B和32B参数版本，MoE模型包括总参数约30B（激活参数3B）和235B（激活参数22B）的两种。所有模型均采用Apache 2.0开源许可，开发者可自由下载使用。

2025-04-30 22:21:51 556

原创阿里云：2025年人人懂AI之从机器学习到大模型报告.pdf

报告由刘军民编写，旨在为 AI 技术爱好者提供启蒙，详细介绍了 AI 从基础到前沿应用的知识，涵盖机器学习、深度学习、神经网络、AIGC 及大模型等方面，探讨了 AI 技术在实际应用中的问题与挑战，并提供了实践指导。

2025-04-25 22:27:26 351

原创有趣的AI-从机器学习到大语言模型（PPT 可编辑）

人工智能技术在国内外发展如火如荼，并且正在和各个专业进行深度融合，“了解AI，学习AI，应用AI”，主要侧重大语言模型的开发和应用，前面略带讲了一些机器学习，尤其是在专业上的应用。

2025-04-25 21:43:24 114

原创清华大学-关于人工智能大模型的几点思考2025

人工智能进入大模型时代，大模型从单模态向多模态发展，在文本交互、图像创作、视频生成等方面成果显著，并加速行业智能化升级。但大模型发展面临数据存储、算力、数据预处理等挑战，如海量小文件存储的元数据管理难、训练需海量算力、数据预处理开销大等。为此提出多种解决方案，包括设计新的文件系统、以数据为中心的计算模式、分布式检查点策略等。同时，中国 AI 内循环加速，国产算力快速发展，相关基础软件层不断完善，在大模型训练和推理方面取得性能提升。

2025-04-25 16:54:28 178

原创年后的招聘市场已经疯掉了。。。

前几天，朋友在群里发了一个问题：我很能理解朋友的心情：毕竟现在大环境这么差，谁都不想被裁！可是职场向来就是这么残酷的，因为焦虑、被裁员的大概都是同一批人！（那批在线外的人）一直以来职场上都有一条看不见的安全线，这条线是什么？“安全区”的人根本不想分享，毕竟。前几年，我还是个，因为技术好，在部门里我一直负责着重要的项目，一心只想把项目做好，常常是007的工作状态。

2025-04-15 16:15:03 607

原创 AI大模型·白皮书 | 2025年生成式AI行动指南报告：利用生成式AI推动变革- 所需了解的事项和所需采取的行动第二版

CEO们需深入了解生成式AI技术，聚焦价值驱动的应用场景，推动企业从人力依赖模式转向资产驱动模式，同时关注AI伦理与数据治理，确保技术应用的合规性与可持续性。第三部分则关注AI赋能的人才，指出生成式AI将改变人才工作方式，企业需重视员工技能提升与人才战略转型，通过生成式AI赋能客户服务与客户体验，提升员工创造力与生产力。整体而言，报告为CEO们提供了全面的生成式AI应用指南，强调企业应结合自身战略目标，合理规划AI技术投资与应用路径，以实现业务增长与竞争优势的提升。

2025-04-03 10:09:24 289

原创 AI大模型·白皮书 | 人工智能技术与应用演讲（61页 PPT 可编辑）

AI大模型·白皮书 | 人工智能技术与应用演讲（61页 PPT 可编辑）

2025-03-22 16:54:02 165

原创 GPT4.5瑟瑟发抖？国产大模型“高智商”+“高情商”双杀局来了！

2025年3月16日，百度文心一言官网首页悄然更新——此前预告的“4月1日免费”计划提前半个月落地，网友直呼：“这波操作比《三体》ETO还狠！百度此次甩出的不仅是产品，更是一套颠覆性技术组合拳。文心X1的“递进式强化学习”如同让AI玩《黑神话》闯关，每一层能力解锁都需击败特定场的“BOSS”——例如在工具调用关卡中，模型必须精准协调图片理解、代码解释器和文档生成三大技能，失败则触发“回炉重练”机制。这种训练模式使得X1在处理跨模态复杂任务时，展现出类似人类“先策划后执行”的思维连贯性。

2025-03-22 15:54:57 561

原创全球12个具身大模型梳理

在英伟达公布的14家合作人形机器人公司中，中国厂商占据6席，包括宇树科技、智元机器人与傅利叶3家独角兽公司，以及小鹏汽车、银河通用、星动纪元。其中，宇树科技H1是一台具备奔跑能力的全尺寸通用人形机器人，集成双足行走、先进运动控制技术、多种传感器和AI算法等，小鹏汽车的“老铁”是一款身高178厘米、重70公斤、拥有62个主动自由度的A!机器人，可模仿人类动作并进行自然对话;傅利叶的GR-2全身自由度达53个，单臂运动负载达3kg，搭载12自由度自研灵巧手及第二代执行器，续航两小时并新增换电方案。。

2025-03-22 14:34:13 1208

原创 AI大模型·白皮书 | 2024生成式大模型安全评估白皮书118页

白皮书首先梳理了生成式大模型的发展现状，涵盖多种类型，如OpenAI GPT系列等大语言模型、DALL-E系列等文生图模型以及Suno等多模态大模型，众多企业推出的模型推动了AI在多领域的广泛应用。然后介绍了安全评估方法，从伦理性、事实性、隐私性、鲁棒性等维度，通过指标衡量和攻击模型等方式评估，详细说明了各维度的评估指标、数据集及相关模型等。还通过大语言模型、文生图模型和多模态大模型的安全评估实践案例，展示了具体的评估方法、结果及启示。

2025-03-06 16:03:36 411

原创 AI大模型·白皮书 | 腾讯研究院：2025年AI图景解码50关键词

通过将图像、语音、文本等多种模态的数据进行融合处理，AI能够更全面地理解和生成内容。例如，多模态融合技术在医疗影像分析中的应用，能够结合影像数据和病历文本，提供更精准的诊断建议。在游戏开发中，AI可以快速生成复杂的游戏场景和角色模型，大幅提升开发效率。AI芯片是AI技术发展的硬件基础。随着AI芯片技术的进步，AI应用的实时性和交互性将得到进一步提升。在金融领域，隐私计算可以保护用户数据的同时，实现精准的风险评估。端侧智能通过极限压缩和多模态融合，能够在保持核心能力的前提下，将深度学习模型压缩到最小规模。

2025-03-06 15:06:51 432

原创 AI大模型·白皮书 | 2025年AI转型的进展洞察报告（PPT 可编辑）

2025年AI转型的进展洞察报告重点关注全球企业在AI转型中的最新进展。随着大语言模型的普及，企业通过AI优化流程、提高效率成为主流趋势。报告列举了AI技术在智能制造、医疗诊断、金融服务等领域的典型案例，特别是通过数据分析与预测模型，帮助企业实现智能化决策。中国在AI应用场景中表现出色，特别是智能制造领域。报告还指出，AI转型的最大挑战在于技术与人力的整合，以及对数据隐私和合规的管理。未来企业需专注于跨部门协同与技术生态的构建，以实现更全面的AI赋能。

2025-03-06 11:24:37 216

原创金融大模型落地路线图研究报告(2024年)

报告指出，金融机构应用大模型前，需剖析自身在数据、人才、战略规划方面的就绪情况，挖掘不同业务场景下的能力需求，合理设计建设目标。在应用范式革新方面，深耕智能营销、风控等核心业务场景，提升金融管理服务效率，推动业务升级，优化服务体验，同时加强科技监管，建立评估体系。从发展趋势看，未来金融大模型将释放数据要素价值，建立数据使用机制，整合多源异构数据；践行绿色普惠发展，探索垂直领域应用场景，促进绿色金融和普惠金融深度融合，助力金融行业向更高效、更安全、更智能的方向迈进，实现金融科技与金融业务的持续深化融合。

2025-03-06 10:03:10 284

原创 DeepSeek行业应用案例集：解锁智能变革密码-浙江大学（153页）（附DeepSeek自学手册）

在数字化浪潮汹涌澎湃的当下，DeepSeek以其强大的技术实力，如同一股创新的洪流，席卷众多行业，为各领域带来了前所未有的变革与突破。本案例集初步收录了40多个来自农业、制造业、汽车行业、手机行业、智能家居、物流、云服务、办公网络安全、金融、医疗、教育等多个关键行业的应用案例。这些案例多方位多角度展示DeepSeek在不同行业的落地实践与显著成效，为各行业从业者提供了宝贵的参考与借鉴,引领大家一同探索智能时代的无限可能，见证DeepSeek如何成为推动各行业迈向智能未来的核心驱动力。

2025-03-05 18:00:22 216

原创北京大学+DeepSeek内部研讨系列3/4：DeepSeek原理和落地应用/私有化部署和一体机

帮助读者掌握 DeepSeek 的基本使用方法，还提供了关于如何科学选择与高效使用 AI 工具的指导，确保每一位读者都能在实际应用中获得真正的价值。第四弹让大家可以决策是否需要自己部署DeepSeek系列模型，并了解自己本地化部署DeepSeek的基本方法，同时了解更专业的企业级部署方法，有助于选择DeepSeek一体机型号，并能理解DeepSeek云服务的工作机制和原理，用好DeepSeek云服务的API调用方法。重点分享人工智能概念辨析、DeepSeek R1、大模型原理和落地应用。

2025-03-05 17:43:34 563

原创 136页PDF深度解析！大模型从概念到实战，一文吃透技术核心与应用边界！

篇幅所限，随机展示如有需要，尽快领取

2025-03-04 11:19:19 134

原创吴恩达&open AI联合推出《大模型通关指南》免费pdf分享，手把手教你掌握大模型技术！

在这个系列教程中，《PromptEngineering for Developers》针对入门LLM开发者，深入浅出地介绍了如何构建Prompt并利用OpenAI提供的API实现包括总结、推断、转换等多种常用功能，是入门LLM开发的经典教程；LLM（Large Language Models）正在逐步改变人们的生活，对于开发者来说，如何利用LLM提供的API快速、便捷地开发具备更强大能力、集成LLM的应用程序，以实现更新颖、更实用的功能，是一项急需学习的重要技能。

2025-03-03 17:49:54 266

原创最新「大模型简史」整理！从Transformer（2017）到DeepSeek-R1（2025）

语言模型」是一种「人工智能系统」，旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构，使得能够产生连贯且上下文相关的文本，应用于翻译、摘要、聊天机器人和内容生成等领域。

2025-03-03 16:54:12 1061

原创 71页|2024年人工智能（大模型）产业发展应用研究白皮书

人工智能凭借其深度学习、跨界融合等特征，正在成为推动科技跨越发展和产业升级的重要力量。它不仅为基础研究提供了新方法，助力学科交叉融合，还加速了科技创新与产业创新的深度融合，开拓了新兴产业空间，延展了传统产业边界，并通过塑造新型劳动者推动新质生产力的形成。我国人工智能产业呈现出快速发展的态势，大模型产业规模高速增长，成为全球人工智能市场的主要参与者，并在多个垂直领域实现了深度赋能。2025年我国在智能算力、数据规模和算法优化等方面的基础能力建设处于全球领先地位，高科技企业成为产业发展的核心推动力量。

2025-03-02 14:15:00 811

原创应急总医院全面部署DeepSeek应用，引领“人工智能+医疗”新时代

近日，国产大模型DeepSeek凭借其卓越的性能和广泛的应用前景，在医疗领域掀起了一股智能化浪潮。在国家政策的大力推动下，应急总医院抓住机遇，迅速行动，全面部署DeepSeek应用，为医院迈入“精准化、智能化、场景化”新时代注入强劲动能。为确保DeepSeek在医院落地见效，应急总医院从顶层设计入手，高起点规划，组织全院中层以上干部进行集体学习，统一思想认识，明确以智能化为引领、推动医院高质量发展的战略方向。

2025-03-02 10:30:00 577

原创刚刚，GPT-4.5问世！OpenAI迄今最大、最贵模型，API价格飞涨30倍，不拼推理拼情商

大家心心念念的 GPT-4.5 终于来了！凌晨 4 点，OpenAI 开始了直播，奥特曼并没有现身。直播不到 15 分钟就匆匆结束了。OpenAI 正式发布了其最大、最强的聊天模型 GPT‑4.5 研究预览版本。奥特曼发推称，GPT‑4.5 让他第一次感觉像在与一个有思想的人在交谈，可以从模型那里得到真正好的建议。OpenAI 表示，GPT-4.5 在扩展预训练和后训练方面向前迈出了一步。通过扩展无监督学习，GPT-4.5 提高了识别模式、建立联系和产生创造性见解的能力，而无需推理。

2025-03-01 15:45:00 602

原创新手必看：ChatGPT本地部署保姆级攻略，从入门到上手。

新手必看：ChatGPT本地部署保姆级攻略，从入门到上手。阿九今天来聊聊如何在本地搭建部署ChatGPT，让你的AI助手随时待命、快速响应。关于ChatGPT本地部署，我总结出了一个3+2模型，即3个核心步骤和2个关键注意点。这个模型是阿九带领技术团队反复实践、帮助数百位学员成功部署后，沉淀出的精华经验。以后跟朋友分享部署经验时就用这个3+2模型，既容易理解又能快速上手。三个核心步骤是什么？第一：准备基础环境配置。第二：选择合适的部署方案。第三：优化本地运行性能。

2025-03-01 15:00:00 1370

原创《自然》测评大模型：全能型or牛马型？你用的AI什么型？

可供选择的大模型很多，有些擅长写代码，有些擅长整合信息。几乎每周都会出现一个新的、看起来更厉害的人工智能（AI）工具，让研究人员想要一探究竟。无论是用来改手稿、写代码、提假说，现在的研究人员比以往有着更多的生成式 AI 工具可供选择。每个大语言模型（LLM）适用于不同的任务。有些以免费对话机器人的形式，有些则以付费应用程序编程接口（API）的形式——可与其他软件集成。还有一些可供下载，让研究人员能创建自己的自定义模型。

2025-02-28 21:52:48 996

原创微调碾压RAG？大模型意图识别工程化实践

检索增强生成（Retrieval-Augmented Generation，RAG）指的是在LLM回答问题之前从外部知识库中检索相关信息，RAG有效地将LLM的参数化知识与非参数化的外部知识库结合起来，使其成为实现大型语言模型的最重要方法之一早期的神经网络模型，在处理需要依赖外部知识或特定信息的任务时遇到了瓶颈。LLM的问题：幻觉、依赖信息过时、缺乏专业领域知识。RAG的提出，是为了解决如何将广泛的、分布式的外部信息库与生成模型相结合，从而提高模型在问答、摘要等任务中的性能和准确度。

2025-02-26 15:46:15 895

原创一文详谈20多种RAG优化方法

以上这些方法就是针对基础RAG在各个环节的优化方法，在实际开发过程中并不是所有方法都是有效的，不同问题有不同的解决方案，针对应用场景选择合适的优化方法组合才能最大限度发挥RAG的作用。

2025-02-26 11:41:42 981

原创 Agent智能体，打响中国大模型落地产业第一枪

今年，我们是针对具体的场景构建大模型，等到明年会进行更深一步的探索。目前我们正在和云服务伙伴讨论构建数字员工的问题”。一家物流履约平台独角兽企业告诉产业家。如果说AGI是大模型的终极目标，那么Agent智能体则是实现这一目标过程中的关键节点。它同时也是衡量大语言模型“从量变到质变”的关键。换句话说，2024年7月，OpenAI定义了通往AGI的五个等级（见下图），其中Agent智能体就位于L3，并声称我们即将达到L2级别，即具备人类的推理水平，能解决多种复杂难题。

2025-02-26 10:38:30 731

原创 DeepSeek+DeepSearcher+硅基流动，打造私有化部署DeepResearch

目前很多其他云厂商也提供了DeepSeek服务，如阿里云、科大讯飞、腾讯云等，也可以类似的设置，主要就是修改config，因为每个平台其模型名称可能存在差异，另外base url也不一样，可以参照下面示例对应编写。

2025-02-25 16:22:58 1538

原创全国首个！基于大模型的科研成果转化服务平台在广大上线

服务科技创新助力成果转化广大正式推出全国首个基于大模型的科研成果转化服务平台——“产研链”！小程序+网页双端联动一键打通高校科研与企业需求的"任督二脉"破解产学研信息不对称难题！随着国家创新驱动发展战略的不断推进，推动科技成果加速转化的需求愈发迫切。广州大学人工智能学院团队历时近一年时间打造产研链平台，通过大模型技术的应用，有效解决了产业需求与我校科研团队之间的信息不对称问题，为企业和科研人员搭建了高效的合作桥梁。▲平台封面截图。

2025-02-25 11:53:42 763

原创使用deepseek本地部署，搭建自己的私人知识库，但是效果并不理想

在这里我们根据自己的电脑配置，选择自己的模型，因为默认安装在C盘，所以我这里选择第一个1.5b约占用空间1.1GB，7b模型是4.7GB，8b模型是4.9GB，14b模型是9.0GB，32b是20GB，70b是43GB，671b是404GB，大家根据自己的C盘空间做出选择，原则上数据越大，回答的问题就越全面。回答这个问题，很简单，目前deepseek是免费，不代表以后是免费的，重要的是deepseek使用人数过多，或者受到攻击的时候，可能不能在线使用，而部署在自己的电脑上面，就可以不受网络的影响。

2025-02-24 15:15:05 791 1

空空如也

空空如也