- 博客(886)
- 资源 (2)
- 收藏
- 关注
原创 OpenSPG:大模型与知识图谱双向增强
在数字化转型的浪潮中,知识图谱技术逐渐成为企业智能化升级的重要工具。为了更好地满足金融领域的多元场景需求,蚂蚁集团与OpenKG联合推出了基于SPG(Semantic-enhanced Programmable Graph)框架的知识图谱引擎——OpenSPG。
2025-04-14 19:30:00
1810
原创 通过将RAG与知识图谱相结合的知识增强生成(KAG)
知识增强型生成(Knowledge Augmented Generation,简称KAG)的出现标志着人工智能领域的一个关键进步,特别是在提升大语言模型(Large Language Models,简称LLMs)的能力方面。KAG将知识图谱(Knowledge Graphs,简称KGs)的结构化推理能力与语言模型的通用性相结合,形成一个能够产生连贯、逻辑且符合特定领域的输出的框架。这一创新在医疗保健、法律和行政服务等专业领域尤其有价值,在这些领域中,精确性和上下文理解至关重要。
2025-04-10 08:00:00
1626
原创 RAG与KAG:GenAI知识增强生成的比较和差异
RAG,或检索增强生成(Retrieval-Augmented Generation),是一种结合了检索和基于生成模型的框架。它已成为生成式人工智能最重要的应用之一,将外部文档(PDF、视频等)与LLM连接起来用于问答案例。检索:查询通过一个检索系统,从外部知识源中检索相关文档或段落。生成:这些检索到的段落作为上下文被整合进一个生成模型(如GPT-4或Gemini),然后该模型综合信息以生成相关的答案。它的应用多种多样,从回答开放域查询或需要访问最新或特定领域信息的聊天机器人到定制搜索引擎。
2025-04-09 21:00:00
932
原创 指令层级:训练大型语言模型优先处理特权指令
这篇论文提出了一种新的框架,即指令层级,用于提高 LLMs 的安全性和鲁棒性,同时保持其遵循正常指令的基本能力不受损害。并且通过实验验证了他们的方法比当今LLM的现状有了巨大的进步。OpenAI 的研究者将基于 LLM 的产品使用总结分为三种情形应用的构建者:定义了LLM 应用的底层指令和逻辑产品的用户:LLM 产品的实际使用者第三方输入:工具或接口返回的内容,作为 LLM 的输入而攻击的底层逻辑往往是在以上三方之间引入冲突(conflicts),比如产品用户输入的指令要求覆盖应用构建者的原始指令。
2025-04-09 19:00:00
766
原创 HAM-TTS大模型:基于token的零样本文字转语音分层声学建模
本文提出了一种基于深度学习的文本到语音(TTS)系统,称为HAM-TTS,旨在提高生成语音的质量,特别是在发音准确性、说话风格一致性以及音色连贯性方面。该模型采用了一种层次化的声学建模方法,并结合了数据增强策略和预训练的合成数据,使得训练数据规模扩大至650,000小时。通过引入一个包含补充声学信息的潜在变量序列到TTS模型中,并利用预测器进行转换,有效改善了语音的发音准确性和风格一致性。此外,还设计了一种策略来增强合成语音的音色连贯性。
2025-01-21 00:44:02
84
原创 Whisper-GPT:混合表征音频大语言模型
本文提出了一种新型的音频生成模型——WHISPER-GPT,该模型能够同时利用连续的音频表示和离散的音素表示进行语言建模。与现有依赖于神经编码算法得到的离散音频令牌的方法相比,WHISPER-GPT通过结合连续的频谱图和离散的音素,解决了高保真生成架构中的上下文长度处理问题,从而在保持信息完整性的前提下,允许模型预测未来的时间步。
2025-01-21 00:22:23
374
原创 【Agent】AI Agents的安全性综述
大语言模型的出现推动了AI Agents的研究和发展。AI Agents可以充当智能助理,通过访问工具并在其环境中执行命令来代表用户完成任务。通过对典型AI Agents工作流程的研究和体验,我们提出了对其安全性的几个担忧。这些潜在漏洞不是由构建代理所使用的框架解决的,也不是由旨在改进代理的研究解决的。在本文中,我们从系统安全的角度详细地识别并描述了这些漏洞,并强调了它们的原因及其严重的影响。此外,我们介绍了针对每个漏洞的防御机制,并进行了精心设计和实验以评估其可行性。总之,本文将当前AI Agents发展
2025-01-20 20:45:03
943
原创 新一代大规模声音克隆 TTS 模型——MaskGCT
MaskGCT是一个完全非自回归且无需文本对齐监督与音素时长预测的文本到语音合成模型。它采用掩码生成转换器进行构建,包括两个阶段,均通过掩码和预测学习范式进行训练。第一阶段是文本到语义(T2S)模型,该模型通过上下文学习预测掩码语义标记,使用文本标记序列和提示语音语义标记序列作为前缀,无需显式的时长预测。第二阶段是语义到声学(S2A)模型,它利用语义标记预测从基于RvQ的语音编码中提取的、具有提示声学标记的掩码声学标记。在推理过程中,模型能够生成一系列文本。
2025-01-20 20:40:41
344
原创 SoundStorm分析: 语音大模型中的新型声学Decoder
SoundStorm其实是负责本文介绍了。与基于自回归的AudioLM方法相比,。该模型来实现,特别适用于长序列的音频生成任务。实验表明,尽管采用了并行解码,但SoundStorm能够在不牺牲音频质量的前提下显著提高生成速度。此外,通过结合文本到语义建模阶段,。文中还讨论了该技术的潜在应用及其对社会的影响,强调了负责任地开发人工智能技术的重要性。。
2025-01-20 20:15:07
196
原创 基于代理的RAG实现-Agentic RAG
Agentic RAG 体系结构中,不再被动地响应查询请求,而是**主动地分析初步检索到的信息**,并基于对任务复杂性的评估,战略性地选择最为合适的工具和方法进行进一步的数据检索和处理。这种**多步骤推理和决策的能力**使得 Agentic RAG 可以高效地处理复杂的研究任务,如总结和比较多个文档中的信息、制定后续的精心策划的问题等。
2025-01-16 23:52:05
1113
原创 AudioGPT全新的 音频内容理解与生成系统
本文介绍了AudioGPT系统,该系统**结合了大型语言模型(LLMs)和音频基础模型,以处理复杂的音频信息并支持对话**。AudioGPT通过将LLMs与输入输出接口相连,实现了对语音、音乐、声音和头像生成的理解与生成任务,尤其强调了其在多轮对话中的能力。为了评估系统的性能,提出了基于一致性、能力和鲁棒性的评价原则,并通过实验展示了AudioGPT在处理多项AI任务上的有效性,包括但不限于语音合成、音乐生成、声学事件检测等。
2025-01-15 23:32:24
494
原创 GPT-4o背后的语音技术
GPT-4o是一个**any2any的多模态模型**,能够接受文本、音频、图像、视频等多模态输入,也能够生成包含文本、语音、图像和视频等混合内容的多模态输出。本文主要谈**语音多模态的实现**,并分享一些对于语音研究未来发展的看法。
2025-01-15 23:10:00
878
原创 音频语言模型与多模态体系结构
**多模态模型正在创造语言、视觉和语音等以前独立的研究领域的协同效应**。这些模型使用通用架构,将每种模式视为不同的“token”,使它们能够以一种与人类认知非常相似的方式联合建模和理解世界。
2025-01-15 01:14:31
511
原创 语音合成的预训练模型
可以将这些 codebook 视为音频的整数形式表示或嵌入,并且每个后续的 codebook 都能在前一个的基础上提高音频重建的质量。这给生成的语音添加了一些随机变化。输入的语音或文本(取决于任务)通过相应的预处理网络被预处理, 以获得 Transformer 可以使用的隐藏表示。虽然本文关注的是文本转语音, 但这个模型还可以用于语音转文本的任务(语音识别或说话人识别),以及语音转语音的任务(例如语音增强或变声器)。与下面讨论的 MMS 不同,它不需要指定所使用的语言,只需将输入文本调整为相应的语言即可。
2025-01-15 00:06:20
234
原创 语音识别的预训练模型
Whisper 是一个强大的用于语音识别和翻译的预训练模型。与 Wav2Vec2 相比,它具有更高的转写准确性,输出包含标点和大小写。它可用于转写英语和其他 96 种语言的语音,既能处理短音频片段又能通过分块处理的较长片段。这些属性使其可以直接用于许多语音识别和翻译任务,无需微调。pipeline() 方法提供了一种使用一行 API 调用轻松运行推理的方法,还能对生成的预测进行控制。尽管 Whisper 模型在许多高资源语言上表现极佳,但。
2025-01-14 22:48:17
447
原创 预训练语音模型的三大预测方法
预训练语音模型的三大预测方法各有千秋,它们在不同的应用场景中展现出了强大的潜力和价值。目前来看,基于transformer 的模型要好于早期基于LSTM或GRU的模型。若追求性能,那目前公认最好的预训练语音模型应该是wav2vec 2.0。但如果追求速度,那Audio ALBERT,以及NPC模型都是不错的选择,这两个模型能够在保证comparable的性能的情况下,减小模型的大小并提升模型的速度。随着技术的不断进步和数据的不断积累,我们有理由相信预训练语音模型将在未来发挥更加重要的作用。
2025-01-14 22:36:08
218
原创 人工智能提高安全性的8种方法
人工智能不仅仅是一种工具,它是安全方面的力量倍增器,使组织能够以无与伦比的速度和精度检测、响应和适应威胁。,正在彻底改变网络安全。根据HPE的见解,以下是基于AI改善安全性的八种关键方式。人工智能利用深度学习和机器学习来检测细微的异常,减少误报,并确保对系统的持续监测。人工智能在恶意电子邮件和软件中发现隐藏模式,防止传统工具可能遗漏的威胁。行为分析和持续监控检测未经授权的行为,确保只有有效用户才能访问关键系统。自动执行操作,如隔离受感染系统和修补漏洞,加快响应周期并最小化损害。人工智能(AI)通过。
2025-01-14 22:31:51
445
原创 Differential Transformer
在这项工作中,引入了DIFF Transformer,它可以增强对相关上下文的注意力,同时消除噪音。语言建模的实验结果表明,DIFF Transformer 在缩放特性、长上下文建模、关键信息检索、幻觉缓解、上下文学习和激活异常值减少等方面优于 Transformer。结果强调了减少注意力噪音的重要性。此外,差分注意力机制可以通过 FlashAttention 轻松实现。研究结果将 DIFF Transformer 定位为大型语言模型的独特且有前途的基础架构。
2025-01-11 00:48:42
124
原创 TDv2:一种用于离线数学表达式识别的新型树形结构解码器
本文提出了一种,旨在充分利用数学表达式的树结构标签进行更有效的建模和预测。相较于传统的LaTeX字符串解码器,该模型通过采用一个节点分类模块和一个分支预测模块来简化解码过程,并提高模型的泛化能力。特别地,。通过一系列的实验验证,包括ablation研究、可视化分析以及与当前最先进的HMER方法的比较,证明了所提模型在CROHME 2014/2016/2019数据集上具有出色的性能和较强的泛化能力,尤其是在处理深度较大的数学表达式时展现出显著优势。
2025-01-09 22:34:34
249
原创 VoiceBox:基于文本引导的多语种通用大规模语音生成
Voicebox的目的也是建立一个类似LLM的训练机制,创建一个生成式的模型。与LLM不同的是,Voicebox使用的是语音和对应文本记录数据。它的训练目标是根据音频周围的数据和相关的文本记录数据来预测目标音频。这也可以当作是一种情景学习,其中语音的风格是来自于音频情景和文本内容。Voicebox不需要任何音频的风格标注数据(包括录制人的信息、感情、噪音等),对音频数据要求很低,这些音频数据更加容易获得。因此可以很容易在更大规模数据集上训练。Voicebox本身不是一个自回归模型,而是。
2025-01-09 21:11:47
325
原创 10分钟快速了解OceanGPT(沧渊)
全文概要:本文介绍了一种专为海洋科学任务设计的大规模语言模型(LLM),名为OCEANGPT,它是海洋科学领域的首个大型预训练语言模型。该模型通过自动获取大量海洋领域指令数据的方式进行训练,利用多代理协作框架DOINSTRUCT自动生成高质量的海洋相关数据集,从而增强了对海洋知识的专业性和丰富性。此外,还提出了第一个海洋学基准——OCEANBENCH,用于评估不同语言模型在海洋科学任务上的性能。
2025-01-09 00:40:17
430
原创 【异质图学习】异构图神经网络中的自监督学习:基于语义强度和特征相似度的对比学习
简介:本文探讨了异构图神经网络中自监督学习的应用,特别是基于语义强度和特征相似度的对比学习技术。通过对比学习,模型能够从无标签数据中学习有用的特征表示,进而提升下游任务的性能。文章还提供了实例和清晰易懂的解释,帮助读者理解复杂的技术概念。****是处理具有多种类型节点和边的图数据的有效工具。在实际应用中,大量的图数据是无标签的,因此如何充分利用这些无标签数据成为了一个重要的问题。为解决这个问题提供了一种解决方案。
2024-11-11 16:40:42
1039
原创 【论文解读】Med-BERT: 用于疾病预测的大规模结构化电子健康记录的预训练情境化嵌入
Med-BERT 是一种基于预训练的语义模型,它是在BERT的基础上进行了修改,专门用于处理结构化的电子健康记录(EHR)数据。Med-BERT 的架构由两个部分组成:Med-BERT 和预测头。其中,Med-BERT 部分的参数被加载并初始化自预训练模型,而预测头的参数则在微调过程中更新。Med-BERT 使用了六个层、六个注意力头和一个隐藏维度为192的变压器架构。在预训练阶段,Max Sequence Length 被设置为512个标记。
2024-10-31 09:45:52
563
原创 【论文解读】Sieve-Based Entity Linking for the Biomedical Domain
这篇论文探讨了生物医学文本处理中的关键任务——疾病提及归一化(normalization of disorder mentions),并提出了一个多阶段筛分方法(multi-pass sieve approach)来解决这个问题。该方法具有简单性和模块化的优点,并在两个数据集上进行了评估,取得了最先进的结果。规范化是在消除潜在的歧义表面单词或短语后,将文档中的单词或短语映射到本体中的唯一概念(基于本体中对该概念的描述)的任务。这个任务被称为实体消歧、记录链接或实体链接。我们采用的方法对于。
2024-10-30 10:12:31
143
原创 【多模态】5分钟了解什么是多模态学习
什么是模态表示(Modal Representation)?模态表示是将不同感官或交互方式的数据(如文本、图像、声音等)转换为计算机可理解和处理的形式,以便进行后续的计算、分析和融合。文本模态的表示:文本模态的表示方法有多种,如独热表示、低维空间表示(如通过神经网络模型学习得到的转换矩阵将单词或字映射到语义空间中)、词袋表示及其衍生出的n-grams词袋表示等。目前,主流的文本表示方法是预训练文本模型,如BERT。视觉模态的表示:视觉模态分为图像模态和视频模态。
2024-10-19 12:05:29
210
原创 【学术前沿】PATHWAYS:谷歌大规模异构计算编排调度系统(Jeff Dean 和 Sanjay Ghemawat联合出品)
Pathways系统旨在探索新系统和机器学习研究思路,同时保持当前模型的最新性能。Pathways使用异步运算符的分片数据流图,这些运算符消耗和生成futures,并在数千个加速器上有效地联合调度异构并行计算,同时协调其专用互连上的数据传输。Pathways利用了一种新颖的异步分布式数据流设计,该设计允许控制平面并行执行,而不管数据平面中的依赖关系。通过精心设计,这种设计允许Pathways采用单个控制器模型,从而更容易表达复杂的新并行模式。
2024-10-17 09:42:40
767
原创 【文献综述】扩散模型在文本生成中的进展
自然文本生成旨在从输入数据中生成流畅、合理和可理解的语言文本(Yu等人,2022b)。这项任务在文献中更正式地称为“自然语言生成”。目前,它是NLP中最重要、最具挑战性的子任务之一。NLG有两种主要的生成方法:自回归(autoregressive,AR)和非自回归(non-autoregressive, NAR),也称为端到端生成。
2024-10-17 09:32:46
1351
原创 【Python】如何在Python脚本中根据需要自动安装所需的包
在讨论如何自动安装所需的包之前,先来了解一下什么是包管理器。#包管理器#是一种用于自动化软件包安装、卸载和管理的工具。在Python中,最常用的包管理器是pip。它允许我们从PythonPackage Index(PyPI)上安装和卸载各种Python包。在本文中,介绍了如何在Python脚本中根据需要自动安装所需的包。可以使用importlib模块动态导入包,使用文件管理依赖,或使用setuptools工具构建和安装自己的包。
2024-08-30 16:26:56
1464
原创 15 种高级 RAG 技术 ——从预检索到生成
检索增强生成(RAG)是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型(LLM)用海量数据进行训练,使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在 LLM 本就强大的功能基础上,RAG 将其扩展为能访问特定领域或组织的内部知识库,所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法,让它在各种情境下都能保持相关性、准确性和实用性。
2024-08-27 17:52:15
1087
原创 大模型领域的GGML是什么?
GGML是一个用于机器学习的张量库,它只是一个c++库,允许你在CPU或CPU + GPU上运行llm。它定义了用于分发大型语言模型(llm)的二进制格式。GGML使用了一种称为量化的技术,该技术允许大型语言模型在消费者硬件上运行。GGML全称是,是由Georgi Gerganov开发的一个张量库(tensor library),Georgi Gerganov是著名的开源项目llama.cpp的创建者。最早在2023年2月份在GitHub上提交更新。GGML是用C编写的,为大型语言模型提供了基础设施。
2024-08-23 11:30:30
760
原创 【学术前沿】基于非易失性存储器硬件特性的存算一体神经网络设计方法
神经网络能够从复杂的非结构化数据中提取深层次的特征和信息,为数据处理提供了高效的解决方案。面向神经网络算法,传统基于冯诺依曼架构的信息处理系统面临着数据搬运造成的功耗和延迟瓶颈,极大地限制了能量效率和算力的提升。基于非易失性存储器的模拟型存算一体范式,可以在存储单元原位地高并行地执行向量矩阵乘法运算,消除了大量数据搬运,具有低功耗和低延迟的特点,在神经网络推理加速系统中显示出巨大的应用潜力。
2024-08-22 15:51:42
946
原创 【NLP】大语言模型基础之GPT
OpenAI公司在2018年提出的生成式预训练语言模型(Generative Pre-Training, GPT)是典型的生成式预训练语言模型之一。GPT的模型结构如下所示:它是由多层Transformer组成的单向语言模型,主要分为输入层、编码层和输出层三部分。
2024-04-24 22:59:07
1591
原创 【NLP】大语言模型基础之Transformer结构
在Transformer之前,循环神经网络(RNN)和长短时记忆网络(LSTM)等序列模型是处理自然语言数据的主流选择。然而,这些模型存在一些问题,例如难以并行化处理、难以捕捉长距离依赖关系等。Transformer的提出旨在解决这些问题,并通过引入自注意力机制(Self-Attention)实现更高效的序列建模。从2020年OpenAI发布GPT-3开始,对大语言模型的研究逐渐深入,虽然大语言模型的参数量巨大,通过有监督微调和强化学习能够完成非常多的人物,但是其理论基础仍然是Transformer结构。因
2024-04-14 20:28:39
1454
原创 【AutoML】一个用于图像、文本、时间序列和表格数据的AutoML
AutoGluon快速原型制作:用几行代码在原始数据上构建机器学习解决方案。最先进的技术:无需专业知识即可自动利用SOTA模型。易于部署:从实验到生产云预测因子和预建装容器。可自定义:可扩展使用自定义功能处理,模型和指标。
2024-03-26 23:08:12
1274
原创 【时序分析】TimeGPT:首个时间序列分析基础大模型
从论文来看,研究者向我们展示了TimeGPT作为一种新型基础模型在时间序列预测领域的潜力和优势。通过克服当前数据集和模型架构的限制,TimeGPT有望推动时间序列分析的进一步发展,并改进现有预测方法的准确性和效率。
2023-12-20 15:45:41
1929
原创 【机器学习】5分钟掌握机器学习算法线上部署方法
本文介绍业务模型的上线流程。首先在训练模型的工具上,一般三个模型训练工具,Spark、R、Python。这三种工具各有千秋。针对不同的模型使用场景,为了满足不同的线上应用的要求,会用不同的上线方法。
2023-12-17 08:00:00
2073
原创 【Java】5分钟读懂Java虚拟机架构
本文阐述了JVM的构成和组件。每个Java开发人员都知道字节码经由JRE(Java运行时环境)执行。但他们或许不知道JRE其实是由Java虚拟机(JVM)实现,JVM分析字节码,解释并执行它。作为开发人员,了解JVM的架构是非常重要的,因为它使我们能够编写出更高效的代码。本文中将快速介绍Java中的JVM架构和JVM的各个组件。
2023-12-16 08:00:00
1204
原创 【时序分析】使用skforecast进行时间序列预测并分享14个Python时间序列分析库
时间序列是一系列按照时间顺序排列的数据,这些数据之间的间隔可以是等距的,也可以是不等距的。 **时间序列的预测过程包括通过对时间序列的过去行为进行建模(自回归)或使用其他外部变量来预测时间序列的未来值**。
2023-12-14 10:50:30
1256
The brief introduction of diffusion model and stable diffusion
2023-04-14
转录调控中的非编码RNAs,以及肿瘤细胞中氨基酸代谢调控PPT
2022-11-06
集成学习原理与应用介绍(随机森林)
2022-11-06
桥区通航风险问题分析与案例研究
2022-10-28
DOES ENFORCEMENT OF INTELLECTUAL PROPERTY RIGHTS MATTER?
2022-10-28
Deep Facial Non-Rigid Multi-View Stereo
2022-10-28
为旅游交通服务的电池充电桩
2022-10-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人