自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

直达开源前线,冲冲冲!

这是一个快速扩散前沿技术的博客,欢迎关注。

  • 博客(425)
  • 收藏
  • 关注

原创 腾讯开源MOE大语言模型速览:Hunyuan-A13B-Instruct

腾讯开源Hunyuan-A13B模型:高效MoE架构的130亿参数大语言模型 摘要:腾讯开源的Hunyuan-A13B模型采用细粒度Mixture-of-Experts架构,800亿总参数中仅激活130亿参数,实现高性能与高效率的平衡。该模型支持256K长文本处理,提供快/慢两种推理模式,在MMLU等基准测试中表现优异。特别适用于资源受限环境,支持transformers库调用和多种部署方式,已在Hugging Face开源。其创新设计包括动态专家网络激活、GQA机制和量化支持,在保持强大推理能力的同时显著

2025-07-01 22:30:00 445

原创 videoprism论文速读:多模态神经脚本知识模型

videoprism论文速读:多模态神经脚本知识模型

2025-07-01 10:30:00 669

原创 videoprism论文速读:一个用于多模态理解与生成的大型视频-文本数据集

《InternVid:大规模视频-文本数据集助力多模态理解与生成》 摘要:本文介绍了大规模视频-文本数据集InternVid,包含700万视频(76万小时)和2.34亿个片段,配有41亿词的详细描述。针对现有数据集视频文本相关性不足的问题,研究者创新性地利用LLM构建高质量数据集。通过场景变化修剪和多尺度字幕生成策略,确保了数据的时间动态性和语义丰富性。基于此数据集开发的ViCLIP模型在多项基准测试中表现优异,打破了零样本动作识别的记录。研究还发现该数据集能显著提升文本到视频的生成性能,为多模态研究提供了

2025-07-01 10:30:00 745

原创 videoprism论文速读:从图像描述中学习音频视频模式

【摘要】本文提出了一种创新的视频挖掘方法,通过将图像描述数据集中的文本转移到相似视频片段,构建出千万级规模的VideoCC3M数据集(1030万视频-描述对),解决了视频音频领域标注数据匮乏的难题。该方法采用双流模型架构,在文本-视频检索、音频检索和视频描述三大任务上取得突破性表现:在MSR-VTT数据集上检索性能超越HowTo100M预训练模型,AudioCaps音频检索达到SOTA,视频描述任务同样表现优异。实验证明,这种利用图像描述"播种"视频数据的弱监督方法,显著提升了多模态模型

2025-06-30 22:30:00 330

原创 百度开源多模态模型:ERNIE-4.5-VL-424B/28B-A47B/A3B-Base-PT/Paddle

ERNIE 4.5是一款先进的多模态MoE基础模型,具有4240亿参数,支持文本和视觉联合训练。其核心技术包括:1)异构MoE结构实现模态隔离路由与协同训练;2)高效基础设施设计,采用混合并行策略和FP8训练优化;3)分阶段模态特定后训练策略,结合SFT、DPO等方法。模型配置54层,64/8头,支持131072上下文长度,通过专家混合架构实现每token激活470亿参数。该模型在PaddlePaddle框架上实现了跨平台高性能推理,目前正与社区合作推进全面支持。创新点涵盖多模态训练优化、高效扩展架构和分阶

2025-06-30 22:30:00 958

原创 百度开源多模态模型速览:ERNIE-4.5-300B/21B/0.3B-A47B/A3B-Base-Paddle/PT

ERNIE 4.5是一款3000亿参数的多模态MoE模型,采用创新架构提升性能。其技术亮点包括:1)多模态异构MoE预训练,通过模态隔离和平衡策略实现文本与视觉协同学习;2)高效基础设施,采用混合并行、FP8训练和4位无损量化等技术;3)分阶段模态训练策略,先强化语言能力再拓展多模态。模型支持ERNIEKit微调、FastDeploy快速部署和transformers调用,在8×80G GPU环境下可运行。核心突破在于解决了多模态干扰问题,同时保持了训练和推理的高效性。

2025-06-30 22:30:00 766

原创 videoprism论文速读:一种视频视觉转换器

摘要 《ViViT: A Video Vision Transformer》论文提出了一种基于纯变换器的视频分类架构ViViT,成功将ViT在图像分类中的优势扩展到视频领域。作者设计了四种模型变体:时空注意力模型、分解编码器模型、分解自注意力模型和分解点积注意力模型,分别通过不同方式处理视频时空特征。为解决视频数据规模较小的问题,论文提出了利用预训练图像模型进行初始化的方法,包括位置嵌入扩展、3D滤波器初始化和时空注意力权重分配策略。在Kinetics、Epic Kitchens等多个视频基准测试中,ViV

2025-06-30 10:30:00 577

原创 videoprism论文速读:利用文本网络监督学习的视频表示

摘要 本研究提出利用视频自带的文本元数据(标题、描述等)作为监督信号学习视频表示的新方法。通过收集7000万个YouTube视频及其文本元数据(WTS-70M),开发了基于3D CNN和BERT的跨模态训练框架。实验表明,该方法在Kinetics、HMDB-51等动作识别任务上优于现有自监督和网络监督方法,在低数据场景下表现优异。特别地,仅使用标题元数据的大规模预训练在HMDB-51上达到71.1%准确率,超越全监督模型。研究证实文本元数据是有效的替代监督源,能与全监督学习互补,为视频表示学习提供了高效的低

2025-06-30 10:30:00 418

原创 VideoPrism模型论文速读:一种用于视频理解的基础视觉编码器

本文提出VideoPrism,一种通用视频编码器,通过两阶段预训练方法实现多任务视频理解。第一阶段通过视频-文本对比学习对齐模态,第二阶段改进掩码视频建模,引入全局-局部蒸馏和令牌洗牌。实验表明,VideoPrism在分类、定位、检索、字幕生成及科学视觉任务中均取得最优性能,尤其在零样本任务上提升显著(如ActivityNet检索提升9.5%)。该模型利用36M高质量和582M带噪声视频-文本对数据,结合ViT架构的空间-时间分解设计,验证了单一冻结模型在多领域应用的潜力。

2025-06-29 22:30:00 518

原创 基于Llama架构的先进神经文本转语音(TTS)模型(印度/英语)速览:Veena

Veena - 印度语言文本转语音模型研究摘要 Veena是由Maya Research开发的先进神经TTS模型,基于30亿参数Llama架构,专为印度语言优化。该模型支持印地语、英语及代码混合场景,提供4种独特声音角色,输出24kHz高质量音频。关键技术特点包括超低延迟(<80ms/H100)、SNAC神经编解码器和4位量化部署能力。应用场景涵盖无障碍服务、客户支持、内容创作等领域。训练采用专业录音室数据,包含60,000+语句,性能指标优异(MOS 4.2/5)。当前局限在于仅支持印地语和英语,未

2025-06-29 10:30:00 620

原创 谷歌开源用于视频理解的基础视频编码器:videoprism

VideoPrism是一种先进的视频编码器,在33个视频理解基准测试中表现出色。该模型由一个视觉变换器图像编码器和四个时序注意力变换器层构成,能够将输入视频帧转换为紧凑的帧嵌入。VideoPrism在3600万视频-字幕对和5.82亿视频片段上进行预训练,支持视频分类、时空定位、视频检索等多种应用。然而,该模型存在数据偏差、内容审查等伦理风险,建议在使用前评估下游应用的安全性问题。模型基于ViViT架构,使用TPU硬件和JAX/Flax软件框架开发。

2025-06-29 10:30:00 860

原创 善于处理复杂任务的紧凑型语言模型:Jan-nano-128k

Jan-Nano-128k是一款突破性的紧凑型语言模型,原生支持128k上下文窗口,解决了传统方法在长文本处理中的性能下降问题。该模型能高效处理研究论文、长文档和多轮对话,在SimpleQA基准测试中表现优异。通过MCP服务器兼容性测试,其性能优于前代模型。提供VLLM和llama-server两种部署方案,并推荐了温度0.7、Top-p 0.8等采样参数。该技术突破使模型在深度文档分析和复杂推理任务中展现出显著优势。

2025-06-28 22:30:00 266

原创 开源的图像编辑模型:FLUX.1-Kontext-dev

FLUX.1 Kontext [dev]是黑森林实验室开发的120亿参数图片编辑AI,支持基于文字指令修改现有图像。该模型具有强大的参考能力和编辑一致性,采用引导蒸馏训练,开放权重供非商业用途。用户可通过ComfyUI、Diffusers或API平台使用,实现连续图片编辑。实验室采取了多重安全措施,包括数据过滤、模型评估和内容审查,防止生成非法内容。使用需遵守非商业许可协议,部署时必须配置过滤器或人工审核。模型输出包含加密元数据以验证来源。

2025-06-28 10:30:00 770

原创 FLUX.1-Kontext-dev模型论文速读:潜在空间中上下文图像生成与编辑的流匹配

《FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space》提出了一种基于流匹配的新型图像生成与编辑模型。该研究针对现有模型在多轮编辑中的角色漂移、速度慢等问题,通过潜在空间修正流变换器架构,统一处理图像生成和编辑任务。模型采用3D RoPE位置编码和潜在对抗扩散蒸馏技术,显著提升了推理速度和样本质量。作者构建了KontextBench基准测试,验证了模型在5类编辑任务中的优异表现,特别

2025-06-28 10:30:00 831

原创 stt-1b-en_fr模型论文速读:语音文本基础模型实现实时对话

Moshi是一种创新的语音对话系统,通过多流架构和内心理解机制实现了实时全双工对话。它基于Helium文本语言模型和Mimi神经音频编解码器,采用分层自回归建模处理复杂对话动态,支持重叠语音和打断。实验表明,Moshi在语义质量、声音一致性和对话流畅性方面表现优异,同时具备流式语音识别和文本转语音功能。安全性分析显示其在毒性控制、防重复生成和水印识别方面也有良好表现。Moshi为语音对话系统的发展提供了新的技术方向。

2025-06-27 22:30:00 487

原创 MeiGen-MultiTalk模型论文速读:音频驱动的多人对话视频生成

摘要:本文提出MultiTalk框架,用于音频驱动多人对话视频生成,解决了现有方法在多路音频绑定和指令遵循方面的局限。创新点包括:(1)标签旋转位置嵌入(L-RoPE)技术,通过自注意力机制实现音频与人物的准确绑定;(2)两阶段训练策略(单人动画+多路音频训练)结合部分参数更新,保留基础模型能力;(3)多任务训练范式整合AI2V和I2V任务。实验表明,该方法在FID、Sync-C等指标上优于现有技术,尤其在唇音同步方面表现突出。未来将优化合成音频的面部表情生成效果。

2025-06-27 10:30:00 246

原创 用于流式语音转文字的开源模型:stt-1b-en_fr

Kyutai STT是一种流式语音转文字模型,支持英语和法语。它采用Transformer架构,发布了两款模型:10亿参数的kyutai/stt-1b-en_fr(0.5秒延迟)和26亿参数的kyutai/stt-2.6b-en(2.5秒延迟)。该模型基于Moshi的多流架构,能处理长达2小时的音频,输出带标点的转录文本。训练使用了数百万小时的公开音频数据,并在H100 GPU上完成。用户可以通过transformers库轻松部署,支持单条和批量音频处理。模型采用CC-BY 4.0许可,代码开源在GitHu

2025-06-27 10:30:00 655

原创 开源的音频驱动多人对话视频生成模型:MeiGen-MultiTalk

MultiTalk是一款开源的音频驱动多人对话视频生成模型,通过创新技术实现高精度唇语同步和多角色互动。其核心创新包括音频注入方案、标签旋转位置嵌入方法(L-RoPE)和自适应人物定位技术,有效解决音频与人物绑定问题。模型支持480p/720p分辨率、15秒长视频生成,适用真人、卡通角色和歌唱场景。实验证明其在唇语同步精度和多人互动自然度方面的优越表现。该技术为虚拟人物对话、动画制作等领域提供了强大工具,开源特性将进一步推动相关研究发展。

2025-06-26 21:30:00 373

原创 开源的高效高一致性多模态图像理解、文生图、图像编辑模型:OmniGen2

OmniGen2是一款统一的多模态生成模型,具备强大的视觉理解、文本生成图像和指令编辑能力。模型采用双组件架构:3B视觉语言模型(基于Qwen-VL-2.5)负责解析视觉信号和指令,4B扩散模型执行高质量图像生成。主要功能包括视觉内容理解、文本到图像转换、基于指令的图像修改以及上下文相关生成。使用上提供Python环境配置指南、运行脚本示例和Gradio演示链接,并给出关键参数调优建议。未来计划发布技术报告、训练数据及提升推理效率的优化方案。该模型已在Hugging Face和ModelScope开放权重下

2025-06-26 10:30:00 944

原创 OmniGen2模型论文速读:统一的图像生成

OmniGen:统一图像生成模型的新突破 北京人工智能研究院团队提出OmniGen模型,首次在图像生成领域实现类似LLMs的统一任务处理能力。该模型基于扩散架构,通过变分自编码器和变换器的组合设计,支持文本到图像、图像编辑、主体驱动生成等多项任务。关键创新包括: 简化架构,消除传统模型所需的多编码器预处理 设计混合注意力机制(因果+双向)处理多模态输入 构建1亿规模的X2I数据集统一训练格式 实验显示,仅38亿参数的OmniGen性能媲美127亿参数的SD3等模型,并展现出跨任务迁移、上下文学习等新兴能力。

2025-06-26 10:30:00 1551

原创 用于软件工程开源代码模型:Skywork-SWE-32B

Skywork-SWE-32B是由Skywork AI开发的软件工程专用大模型,在SWE-bench测试中表现优异,基础版准确率达38%,使用测试扩展技术后提升至47%,成为32B参数以下模型的SOTA。该模型基于Qwen2.5-Coder-32B架构,采用自动收集的8209条高质量训练数据,并展示了数据规模法则的应用。在具体任务中,对django等仓库的修复率最高达49.78%。部署需安装指定版本的vLLM和OpenHands框架,建议使用双GPU运行。模型展示了在代码生成和修复任务中的强大能力。

2025-06-25 22:15:00 799

原创 Kimi-VL-A3B-Thinking-2506模型论文速读:多模态多专家推理模型

Kimi-VL是一款高效开源的多模态视觉-语言模型,采用混合专家(MoE)架构,仅激活2.8B参数却展现出强大性能。其核心技术包括: 创新视觉编码器MoonViT,支持原生分辨率图像处理 四阶段预训练流程(4.4T tokens数据)和强化后训练 4D并行训练策略与穆翁优化器,提升训练效率 多模态、长文本(13万token)和复杂推理能力 在多项基准测试中,Kimi-VL与更大模型相比具有竞争力,但处理专业问题和极长序列仍有提升空间。未来将扩大规模、优化算法以持续增强性能。

2025-06-25 10:30:00 913

原创 开源的强推理模型:Polaris-4B-Preview

Polaris是一种创新的开源后训练方法,通过强化学习优化模型推理能力。核心技术创新包括数据难度分析、多样性扩展策略、推理长度外推和多阶段训练方法。实验表明,优化后的POLARIS-4B Preview模型在多项数学推理基准测试中表现优异,如AMC23测试达到94.8分,甚至超越了部分商业模型的性能。该方法为提升开源模型推理能力提供了有效途径,具有广阔的发展前景。

2025-06-25 10:30:00 774

原创 月之暗面开源升级版多模态多专家推理模型:Kimi-VL-A3B-Thinking-2506

Kimi-VL-A3B-Thinking-2506是新一代多模态AI模型,在多个关键领域实现突破性提升:1) 智能思考能力增强,多模态推理准确率显著提高20.1分(MathVision)至8.4分(MathVista),同时思考效率提升20%;2) 视觉理解能力达到84.4分(MMBench-EN),支持320万像素高分辨率处理(V∗ Benchmark 83.2分);3) 视频理解能力突破,VideoMMMU得分65.2创开源模型新高;4) 提供VLLM和Hugging Face两种推理方式,支持32K

2025-06-24 22:15:00 1762

原创 magenta-realtime模型论文速读:对比式字幕生成器是图像-文本基础模型

《CoCa: Contrastive Captioners are Image-Text Foundation Models》提出了一种新型图像-文本基础模型CoCa,将对比学习和生成式预训练统一在编解码器架构中。通过解耦单/多模态解码器和任务特定注意力池化器,CoCa同时支持视觉识别、跨模态对齐和生成任务。实验表明,该模型在ImageNet分类(91% top-1准确率)、跨模态检索和多模态理解任务上均创新高,且训练效率优于分阶段方法。研究为构建统一的视觉-语言基础模型提供了新范式,但需进一步探索其社会影

2025-06-24 10:00:00 485

原创 magenta-realtime模型论文速读:音乐音频与自然语言的联合嵌入

音乐音频与自然语言的联合嵌入

2025-06-24 10:00:00 849

原创 magenta-realtime模型论文速读:一种端到端的神经音频编码器

《SoundStream: An End-to-End Neural Audio Code》提出了一种新型神经音频编解码器SoundStream,采用全卷积网络和残差向量量化器实现高效音频压缩。该模型支持3-12kbps的低比特率运行,在语音和音乐处理上均优于传统编解码器。SoundStream通过端到端训练实现流式推理,能在手机CPU上实时运行,并具有比特率可扩展性。创新性地,该模型还能通过条件输入联合执行音频压缩与增强(如降噪),而无需增加延迟。实验表明,SoundStream在3kbps时的主观质量优

2025-06-23 22:15:00 916

原创 magenta-realtime模型论文速读:文本生成音乐

《MusicLM: Generating Music From Text》论文提出了一种从文本描述生成高保真音乐的层次化序列模型。该模型通过SoundStream、w2v-BERT和MuLan组件分别处理音频的声学、语义和文本表征,采用两阶段建模方法:先学习文本到语义的映射,再预测声学特征。实验显示,MusicLM在音频质量(FAD=1.37)和文本一致性(KLD=1.94)上优于基线模型,但人类评估表明与真实音乐仍有差距。研究还探索了旋律条件生成和"故事模式"等扩展应用,同时强调...

2025-06-23 11:13:34 765

原创 谷歌开源音乐生成模型速览:magenta-realtime

Magenta RealTime是由Google DeepMind开发的开源实时音乐生成模型,支持通过文本或音频输入持续生成音乐。其核心技术包含SpectroStream音频编解码器、MusicCoCa对比训练模型和LLM Transformer模型,能够在资源有限环境中运行。模型主要应用于互动音乐创作、研究、教育和游戏配乐等领域,但存在风格覆盖有限、延迟和上下文窗口短等局限性。作为首个支持实时连续音乐生成的开源模型,Magenta RealTime采用Apache 2.0和CC BY 4.0许可,为用户提

2025-06-23 11:11:47 1344

原创 AceReason-Nemotron-1.1-7B模型论文速读:通过 SFT 和 RL 协同提升数学和代码推理能力

本文研究了监督微调(SFT)和强化学习(RL)对大型语言模型数学与代码推理能力的影响。研究采用分阶段RL训练方法,使用AceReason-Nemotron系列模型进行实验。结果表明:增加SFT数据集的独特提示数量和响应数量均能提升模型性能;RL训练可显著缩小不同SFT初始化模型间的差距;8K阶段的RL训练虽可能暂时降低性能,但对后续训练至关重要。最终得到的AceReason-Nemotron-1.1-7B模型在数学和代码基准测试中表现卓越,在7B规模模型中取得领先成绩。

2025-06-22 22:15:00 1436 1

原创 升级版医疗推理大语言模型(微调自Qwen3-8B):II-Medical-8B-1706

II-Medical-8B-1706是由智能互联网研发的医疗推理大语言模型,基于Qwen3-8B进行优化,专注于提升医学问答能力。该模型采用两阶段训练方法:首先进行监督微调(SFT),随后通过强化学习(RL)优化医学推理和安全响应能力。在HealthBench等10个医疗基准测试中表现优异,多项指标超过70分,与MedGemma-27B性能相当。训练数据包含230万样本,涵盖公共数据集和合成数据,并经过严格去重和去污染处理。建议使用vLLM或SGLang部署,采样参数设为温度0.6、Top-p 0.9,强调

2025-06-22 10:30:00 692

原创 英伟达开源基于Qwen2.5-Math-7B的数学和代码推理模型:AceReason-Nemotron-1.1-7B

AceReason-Nemotron 1.1-7B是一款通过监督微调(SFT)和强化学习(RL)协同训练的数学代码推理模型。基于Qwen2.5-Math-7B,该模型在数学(AIME)和代码(LCB)基准测试中表现优异,较前代模型提升显著:AIME2024提升10.6%,AIME2025提升16.4%,LCBv5提升8.4%。研究表明更强的SFT模型经过大规模RL训练后仍能保持性能优势。使用建议包括特定指令格式(数学问题需包含\boxed{},代码问题需遵循函数格式)和推荐参数设置(top-p=0.95,t

2025-06-22 10:30:00 943

原创 字节开源基于DiT框架的视频生成模型:ContentV-8B

《ContentV:高效视频生成框架》摘要:本文介绍了ContentV项目,这是一个基于DiT架构的高效视频生成模型训练框架。通过三大创新技术:1)极简架构复用预训练图像模型;2)多阶段流匹配训练策略;3)低成本RLHF优化框架,该项目在有限计算资源下实现了优异性能。使用256×64GB NPU训练4周的8B模型在VBench评测中获得85.14分。论文详细说明了安装方法、评估结果对比及待完成事项,遵循Apache 2.0许可证。该项目整合了Stable Diffusion 3.5和Wan-VAE等先进技术

2025-06-21 10:30:00 410

原创 ContentV-8B模型论文速读:在计算资源有限的情况下高效训练视频生成模型

本文介绍了ContentV,一个高效的文本到视频生成模型。针对视频生成任务中计算资源消耗高的问题,ContentV通过创新的数据处理流程、3D变分自编码器和扩散变换器架构,结合流匹配训练策略,实现了在有限计算资源下的高效训练。模型基于Stable Diffusion 3.5 Large进行最小架构修改,采用图像视频联合训练和渐进式训练策略,仅用256个NPU在一个月内完成训练。评估结果表明,ContentV在VBench和人类偏好研究中表现优异,参数量仅为同类模型一半,却在生成质量和多样性上达到领先水平,为

2025-06-21 10:30:00 612

原创 基于AMD InstinctTM MI250 GPU从零开始训练而成的大模型:Motif-2.6B

《Motif-Technologies Motif-2.6B技术报告》介绍了26亿参数的开源语言模型Motif 2.6B,该模型基于AMD MI250 GPU训练42天,使用2.4T tokens数据。报告详细对比了与Mistral 7B、Gemma系列、Llama系列、Phi系列等主流模型的性能表现:在部分基准测试中表现优异(如GSM8K、HumanEval等平均提升34.25%),但在部分任务上仍有差距。特别指出评估标准差异对比较结果的影响,如与Llama 3 8B比较时使用不同基准会导致±19.27%

2025-06-20 22:15:00 736

原创 专为音频查询 - 音频回答的开源大模型:Step-Audio-AQAA

Step-Audio-AQAA是一款全端到端音频语言模型,可直接处理语音输入并生成语音响应,无需传统语音识别和合成模块。该模型采用双码本音频分词器(语言分词器和语义分词器)和1300亿参数的多模态LLM骨干架构,支持多种语言和方言。其关键能力包括精细的声音控制、多语言交互和复杂任务处理。训练采用多阶段方法,包括预训练、监督微调和直接偏好优化,使用大规模多模态数据集。模型简化了系统架构,消除了级联错误,在音频交互任务中表现出色。

2025-06-20 10:30:00 418

原创 Step-Audio-AQAA模型论文速读:一个完全端到端的表达性大型音频语言模型

《Step-Audio-AQAA:完全端到端的表达性大型音频语言模型》研究摘要 本研究提出Step-Audio-AQAA,一个开创性的端到端大型音频语言模型(LALM),实现了从原始音频输入到文本/语音输出的直接生成。模型采用双码本音频分词器、预训练多模态LLM骨干和神经声码器的三模块架构,通过三阶段训练策略(预训练、两阶段监督微调和直接偏好优化)实现细粒度语音控制。在StepEval-Audio-360基准测试中,该模型在语音情感控制、创造力等7个维度表现优异,仅唱歌和语音指令遵循稍弱。研究突破了传统级联

2025-06-20 10:30:00 1099

原创 SongGeneration模型论文速读:基于多偏好对齐的高质量歌曲生成

本文提出LeVo框架,通过双轨token预测和多偏好对齐实现高质量歌曲生成。核心创新包括:(1) LeLM语言模型并行处理混合token和双轨token,采用模块化训练防止干扰;(2) 基于DPO的多偏好对齐方法提升音乐性和指令遵循;(3) 三阶段训练范式优化模型性能。实验表明LeVo在客观指标和主观评分上超越现有学术方法,尤其在歌词对齐方面表现突出。论文还讨论了技术局限性(如音频质量限制)和潜在社会影响(如深度伪造风险),强调需负责任地推进该领域发展。

2025-06-19 22:15:00 994

原创 GR00T-N1.5-3B模型论文速读:学习使用修正流生成和传输数据

本文提出了一种名为Rectified Flow的创新方法,用于学习神经ODE模型以实现两个分布之间的高效传输。该方法通过优化直线路径来连接源分布π0和目标分布π1,克服了传统生成模型和领域传输方法的局限性。论文的主要贡献包括:1) 提出了通过最小化非线性二乘优化问题来学习直线路径的ODE模型;2) 设计了Reflow过程使路径逐步变直,降低传输成本;3) 引入Distillation过程实现单步高质量生成。理论分析证明了该方法在边际保持、降低传输成本和路径变直方面的优势。实验结果表明,Rectified F

2025-06-19 11:15:00 918

原创 腾讯开源歌曲生成模型:SongGeneration

SongGeneration模型基于LeVo框架开发,结合大规模语言模型(LeLM)和音乐编解码器,实现了高质量歌曲生成与多偏好对齐。模型通过混合令牌和双轨令牌处理音频,并转换为高保真音乐。当前提供中文基础版本,即将推出中英文版本。相较于其他开源模型,SongGeneration在音质和个性化需求满足方面表现优异,性能接近行业领先水平。

2025-06-19 11:15:00 615

批量去除视频水印并将MP4格式视频转换为GIF动态图片

python代码:批量去除视频水印,将MP4格式视频转换为GIF动态图片,允许自定义gif尺寸、帧率参数。

2025-03-12

用bert微调的情感3分类分类模型

适用语言:中文 文本长度:小于等于512 表征维度:768 transformer层数:12 词库数:21128 预训练模型:bert-base-chinese(需自行下载,附网址) 已微调

2025-03-12

python语言编写的使用cpu进行人脸尺寸计算

语言:python 计算硬件:cpu 功能:计算人脸尺寸

2025-03-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除