开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、NVIDIA 推出智能体构建工具 Agentic AI Blueprints,助力企业实现工作自动化
全新 NVIDIA AI Blueprints 旨在帮助各地企业构建 AI 智能体应用程序,更好实现工作自由化。
有了这些 blueprints,开发人员现在可以构建和部署自定义 AI 代理。这些人工智能代理就像「知识机器人」一样,可以推理、计划和采取行动,快速分析大量数据,从视频、PDF 和其他图像中总结和提取实时见解。
CrewAI、Daily、LangChain、LlamaIndex 和 Weights & Biases 是 AI 智能体编排和管理工具的供应商,它们与 NVIDIA 合作构建 blueprints,将 NVIDIA AI Enterprise 软件平台(包括 NVIDIA NIM 微服务和 NVIDIA NeMo)与其平台集成在一起。这五个 blueprints——包括一类新的 AI 智能体合作伙伴 blueprints——为开发人员创建下一波将改变每个行业的人工智能应用程序提供了构建模块。
除了合作伙伴的 blueprints 之外,英伟达还推出了能根据 PDF 生成播客的 AI Blueprint,以及另一个用于构建视频搜索和总结的 AI 智能体的 blueprint。另外还有四个 NVIDIA Omniverse Blueprints,使开发人员更容易为物理 AI 构建适合模拟的数字双胞胎。(@NVIDIA)
2、GPT-4o 级别!VITA-1.5:实时视觉与语音交互, 1.5 秒互动延迟
近日,VITA-MLLM 团队宣布推出 VITA-1.5,这是该团队在 VITA-1.0 基础上推出的升级版本,致力于提升多模态交互的实时性与准确性。VITA-1.5 不仅支持英语和中文,还在多项性能指标上实现了显著提升,为用户提供了更流畅的交互体验。
在 VITA-1.5 中,互动延迟大幅降低,从原来的 4 秒缩短至仅 1.5 秒,用户在进行语音交互时几乎感受不到延迟。此外,该版本在多模态性能方面也有显著提高,经过评估,VITA-1.5 在 MME、MMBench 和 MathVista 等多个基准测试中的平均性能从 59.8 提升至 70.8,展现了出色的能力。
VITA-1.5 在语音处理能力上也进行了深度优化。其自动语音识别(ASR)系统的错误率显著降低,从 18.4 降至 7.5,这使得语音指令的理解和响应更加准确。同时,VITA-1.5 引入了一个端到端的文本转