AI何哥-CSDN博客

原创 Dify工作流节点总结

Dify工作流模式通过节点化设计降低LLM开发复杂度，提升系统稳定性。工作流包含六大类20种节点：核心类（如LLM节点、知识检索）、问题理解类（问题分类）、逻辑类（条件分支、循环）、转化类（代码执行、模板转换）、工具类（HTTP请求）及其他辅助功能。每个节点执行特定任务，通过灵活组合可构建复杂应用流程，增强可解释性和容错性。该设计显著降低了开发者使用大语言模型的技术门槛，适用于文本生成、数据处理等多种AI场景。

2025-06-27 10:34:09 1142

原创 DeepSeek核心技术总结

DeepSeek技术解析：大模型研发与微调实践 DeepSeek在2024-2025年相继发布了V3和R1两大模型版本：V3采用MoE架构实现高效推理（对标GPT-4o），R1强化推理能力（对标o1）。其核心技术包括：高效架构：MoE技术动态激活专家模块，降低67B参数模型的显存消耗优化方案：MLA注意力压缩、分布式训练优化（MFU达34.7%）微调生态：LLaMA-Factory框架支持LoRA/QLoRA等多种高效微调方法技术体系涵盖：预训练：自监督学习构建基础能力微调：全参/部分参数调整适

2025-06-22 15:21:57 5890

原创 Spring AI Alibaba框架简介

SpringAIAlibaba 1.0正式发布：阿里云生态AI开发新框架摘要：2025年6月13日，SpringAIAlibaba发布首个GA版本1.0.0.2，标志着Java智能体开发进入新时代。该框架基于SpringAI构建，深度集成阿里云服务（如通义千问、OSS等），提供三大核心能力：1）Graph多智能体框架，支持工作流和多智能体应用开发；2）企业级AI生态集成，包含百炼平台、可观测性工具等；3）自主规划的通用智能体JManus。新版本支持ChatBot、Workflow和Multi-agent开

2025-06-20 01:33:35 999

原创基于LangChain4j框架构建RAG系统

摘要：本文介绍了如何利用LangChain4j框架在Java环境中构建本地RAG（检索增强生成）问答系统。针对大型语言模型(LLM)知识更新滞后和无法访问私有数据的问题，通过集成Chroma向量数据库实现知识存储与检索。系统实现步骤包括：1)文档加载与分割处理；2)文本向量化存储；3)语义检索相似内容；4)结合检索结果生成回答。测试表明，该系统能有效结合本地知识库和LLM的生成能力，解决了模型时效性和数据隐私问题。文中详细展示了关键代码实现，包括文档处理、向量化存储和Prompt模板设计等核心环节，为Jav

2025-06-16 02:18:38 853

原创 LangChain框架：AI应用开发利器

LangChain是一个简化大型语言模型(LLM)应用开发的框架，提供组件化工具链和标准化接口。其核心包括：LLM封装、提示模板、索引检索、任务链和代理系统，支持将语言模型与外部数据源和API连接。主要特点涵盖提示优化、任务链构建、数据增强生成、智能代理、状态管理和模型评估。应用场景广泛，如个人助手、学习辅助、数据分析、文档问答和聊天机器人等。通过LangChain，开发者可以更高效地构建结合私有数据和外部服务的智能应用。

2025-06-15 23:06:48 1085

原创一文读懂大模型召回机制和chunk

本文系统介绍了大模型召回机制及相关技术要点。主要内容包括：召回定义与应用：在RAG架构中通过向量检索从知识库获取相关文本块（chunk）以补充模型知识，应用于问答、语义搜索等场景；关键技术要素：涵盖Embedding模型、chunk切分策略（100-500 tokens）、向量数据库（FAISS等）及评估指标（Recall@K）；上下文窗口对比：列举主流模型（如GPT-4达32K、Gemini 1.5Pro支持2M tokens）的处理能力；优化方法：采用混合召回策略、滑动窗口切分及高质量Embed

2025-06-15 01:28:39 984

原创 Paraformer语音识别-中文-通用-16k-离线-large-长音频版

摘要： Paraformer-large是由阿里巴巴达摩院开发的非自回归端到端语音识别模型，支持长音频（数小时）的VAD、ASR、标点与时间戳功能，适用于语音输入法、会议纪要等场景。其核心包括Predictor模块（基于CIF准确预测文字个数）和双向Decoder（增强上下文建模），在中文公开数据集上达到SOTA效果。用户可通过ModelScope进行推理，支持多种音频输入格式（如wav、pcm、url等），并可自由组合VAD/PUNC模型。相比FunAudioLLM（通义实验室研发，侧重多模态与情感识别）

2025-06-12 03:21:09 1515

原创阿里云开源音频基座大模型 FunAudioLLM=SenseVoice+CosyVoice

阿里通义实验室开源音频基座大模型FunAudioLLM，包含SenseVoice和CosyVoice两大模型。SenseVoice支持50+种语言识别，中文准确率提升50%，兼具情感辨识和环境音检测；CosyVoice可实现3-10秒音色克隆，支持中英日粤韩五语种合成和情感语音控制。该模型在语音翻译、情感对话、互动播客和有声读物等场景表现优异，其在线体验显示生成语音自然流畅，超越ChatTTS等竞品。目前用户可通过魔搭社区体验多语言音频生成功能。

2025-06-12 02:57:38 1104

转载 ChatTTS震撼上线：支持笑声与停顿控制的高质量语音合成模型

ChatTTS是一款专为对话场景设计的开源语音合成工具，以其自然流畅的韵律和灵活的细粒度控制能力引发关注。该模型支持中英文混读，可自由调节音色，并能通过简单标记插入笑声、停顿等情感表达，效果接近真人对话。ChatTTS在自媒体、电商直播、在线教育等领域具有广泛应用前景，但30秒以上音频生成仍存在不稳定性。开发者强调需遵守伦理规范，开源版本已内置安全防护措施。目前提供4万小时训练模型，用户可通过GitHub或官网Demo体验这一突破性的语音合成技术。

2025-06-12 02:29:51 440

原创 PaddleOCR图片文字提取

摘要：百度开源的PaddleOCR 3.0是一款功能强大的OCR工具包，支持80多种语言识别，包括中文手写体和复杂版面。其核心优势在于全流程OCR解决方案、轻量级模型设计和丰富的预训练模型。用户可通过可执行程序、Python API或源码编译三种方式使用，适用于从日常办公到企业开发的多场景需求。PaddleOCR 3.0新增五大文字类型识别、文档高精度解析和智能文档理解三大能力，识别精度较上代提升13%，已成为开源OCR领域的首选工具。

2025-06-12 01:58:11 1749

原创 Project Reactor响应式编程简介

Reactor是一种事件驱动的高性能网络编程模型，其核心是发布-订阅机制。发布者(Publisher)如Flux/Mono提供数据流，订阅者(Subscriber)通过回调接收数据(onNext)、异常(onError)或完成信号(onComplete)。订阅(Subscription)连接两者并支持背压控制，让消费者能调节数据接收速度。数据从生产者流向消费者，构建异步非阻塞的数据流。典型流程包括：订阅建立→请求数据→数据发射→完成/错误处理。理解冷热流、背压等概念对设计响应式系统至关重要，是Spring

2025-06-11 23:33:55 1107

原创一文读懂WebFlux框架和WebClient响应式http客户端

摘要：Spring WebFlux是Spring 5引入的响应式Web框架，基于Reactive Streams规范。WebClient是其提供的非阻塞HTTP客户端工具，适用于高并发场景。相比传统RestTemplate，WebClient采用非阻塞IO模型，支持异步/同步请求，通过Mono和Flux处理响应数据。文章详细介绍了WebClient的API使用，包括创建实例、请求构建、响应处理（retrieve/exchange方法对比）、过滤器配置等，并分析了直接返回Flux与调用subscribe的区别

2025-06-11 22:38:27 1322

原创 Java 16 引入的 record 类型

Java 16引入的public static record是数据类的精简实现，适用于DTO等场景。record自动生成构造器、equals等方法，字段不可变。定义在类内部时需加static以避免持有外部类引用。其特性包括：仅支持接口实现、不可继承、不可修改字段。在Spring Boot中特别适合用于API响应封装。这种语法大幅减少了样板代码，但仅支持Java 16及以上版本。

2025-06-10 15:42:46 394

原创 OpenAI 聊天补全生成接口规范

OpenAI 提供的聊天补全生成接口（Chat Completion API）是其用于多轮对话生成的核心 API 之一，广泛应用于 GPT-3.5 和 GPT-4 等模型。以下是该接口的详细规范，基于 OpenAI 官方文档整理。

2025-06-10 10:36:21 979

原创 ASR、TTS与语音克隆技术简介

语音技术综述：ASR、TTS与语音克隆语音技术涵盖三大核心领域：语音识别（ASR）通过深度学习模型（如Transformer）将语音转为文本，应用于客服、搜索等场景；语音合成（TTS）采用拼接法或参数法（如WaveNet）生成自然语音，支持多语言与情感控制，适用于导航、有声读物；语音克隆利用GAN/VAE技术，仅需少量样本即可复制音色，但存在伦理风险。协同应用如智能客服系统整合ASR、NLP与TTS，提升交互体验。开源工具（如Kaldi、FishSpeech）和商业API推动技术普及，需平衡创新与安全。

2025-05-30 16:33:26 1312

原创一文读懂MCP模型上下文协议

MCP（Model Context Protocol）是一种由 Anthropic （Claude 大模型母公司）于 2024 年 11 月发布的开源协议，旨在标准化大型语言模型（LLM）与外部数据源和工具的交互。它像“AI的USB-C接口”，通过统一接口让 AI 模型无缝连接数据库、文件、API 等外部资源。MCP 通过客户端-服务器架构（MCP Client 和 MCP Server）实现，广泛应用于 AI 助手、开发工具等场景，助力构建更智能、互联的 AI 应用。

2025-05-30 02:17:31 974

原创 SpringAI系列4: Tool Calling 工具调用

Spring AI 中的工具调用使 AI 模型能够与外部工具和服务交互，从而增强其功能。Tool Calling 工具调用允许 AI 模型执行外部函数、访问外部服务、执行复杂操作和与现有系统集成主要使用的场景：信息检索（Information Retrieval）。此类工具可用于从外部资源（如数据库、Web服务、文件系统或者 WEB 搜索引擎）检索信息。目标：增强模型的知识，使其能够回答其其它方式不能回答的问题。例如，工具用于检索给定的位置天气、检索最新的新闻文章或者查询数据库。

2025-05-30 00:53:02 1710

原创 Spring AI 系列3: Promt提示词

本文介绍了SpringAI中Prompt提示词的设计与应用。Prompt作为引导AI模型生成输出的输入工具，其结构和内容直接影响模型响应质量。文章详细解析了Prompt API的核心组件，包括Message接口、MessageType角色分类以及PromptTemplate模板引擎。系统阐述了三种Prompt构建模式：逐层构建（适用于复杂场景）、预构建Prompt对象（适合批量处理）和快捷方式（简单问答场景）。同时介绍了响应处理机制，包括获取元数据监控性能和将输出自动映射为Java对象的技术实现。这些功能使

2025-05-29 11:58:14 1208

原创 AI流式输出的实现技术

SpringAI通过两种技术实现流式输出：一是基于Servlet的SpringMVC使用SseEmitter实现SSE协议，二是基于响应式编程的SpringWebFlux采用Reactor模型。其中SpringAI的流式输出底层采用与WebFlux相同的Reactor技术，通过异步非阻塞方式分批次传输AI生成内容，尤其适合大模型响应场景。SpringAIAlibaba作为国内最佳实践，继承了Spring生态优势，整合了阿里云AI能力，提供模型调用、Prompt模板等功能。这两种流式输出技术都能有效提升用户体

2025-05-29 08:43:48 1339

原创 Spring AI 系列2: Advisors增强器简介

Spring AI 增强器（Advisors）API 提供了一种灵活方式拦截和增强 AI 交互。核心功能包括：1）通过上下文数据（自定义数据/对话历史）增强提示；2）链式执行增强器，顺序决定处理流程；3）支持流式与非流式处理模式。主要组件包括 Advisor 接口、AdvisedRequest/Response 及上下文共享机制，开发者可创建日志记录、内容安全等定制增强器。内置增强器涵盖对话记忆管理（MessageChatMemoryAdvisor）、问答检索（QuestionAnswerAdvisor）等

2025-05-29 04:29:54 787

原创 Spring AI 系列1: ChatMemory聊天记忆总结

Spring AI 中的的ChatMemory（聊天记忆）提供了维护 AI 聊天应用程序的对话上下文和历史的机制。聊天记忆使 AI 应用程序能够：维护对话历史、提供上下文感知的响应、实现不同的记忆策略、管理对话状态。

2025-05-29 03:31:39 1323

原创 Spring AI 开发模式：三层灵活选择

SpringAI 1.0提供三层开发抽象，满足不同项目需求：1)自动配置模式，快速启动原型开发；2)手动配置模式，灵活定制企业应用参数；3)底层API模式，完全掌控高级集成需求。开发者可根据项目复杂度自由选择，从零配置快速启动到深度定制模型行为，实现从简单应用到高性能优化的全覆盖。

2025-05-29 01:58:30 285

原创 Spring AI 中 ChatClient常用方法

摘要： ChatClient是SpringAI中简化AI交互的API组件，支持Deepseek、Qwen等主流模型。通过链式调用整合提示词管理、流式响应处理等功能，核心优势包括：功能封装：自动拼接系统/用户提示，支持温度、Token数等参数配置；多模态扩展：可处理图像/音频输入（需模型支持）；执行方式：提供同步（call()）、流式（stream()）及结构化解析（entity()）三种响应模式；记忆管理：通过withMemory()绑定历史会话上下文。典型应用如技术咨询场景：通过defaultSy

2025-05-29 01:31:52 1569

原创 Spring AI框架快速入门

SpringAI 1.0正式发布：简化Java应用AI集成 SpringAI 1.0于2025年5月20日正式发布，标志着Spring生态全面拥抱人工智能技术。该项目旨在简化生成式AI在Java应用中的集成，提供统一API支持主流大模型（如GPT、Gemini等）和向量数据库（如Pinecone、Milvus）。核心特性包括：1）标准化API抽象，实现供应商无关的模型调用；2）简化RAG等复杂场景开发，内置ETL框架和向量存储组件；3）深度集成SpringBoot，支持自动配置和响应式编程。开发者可通过C

2025-05-28 18:16:35 1108

空空如也

空空如也