手把手教你使用Gemini 2.5

最新推荐文章于 2025-07-05 18:18:28 发布

原创最新推荐文章于 2025-07-05 18:18:28 发布 · 2.1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

AI 专栏收录该内容

1 篇文章

订阅专栏

一、什么是Gemini

Gemini是一款由Google DeepMind（谷歌母公司Alphabet下设立的人工智能实验室）于2023年12月6日发布的人工智能大语言模型。它支持文本、图像、音频、视频和代码五种类型信息的识别与交互。

1. Gemini 的发展

首个版本为Gemini 1.0，2024年2月更新至Gemini 1.5版本及2024年12月发布Gemini 2.0系列时排名还屈居于ChatGpt 之下。而在今年2025年3月26日发布Gemini 2.5版本，基于多模态大语言框架升级，显著增强了推理能力、多语言支持及长文本处理的出色能力，一举收到开发者们的追捧，登顶Arena排行榜的第一位！【如下图 Arena排行】

2.Gemini 的突出能力

那么Gemini2.5 究竟具备哪些突出能力，让其短短几周时间在一众大模型的血腥厮杀中脱颖而出呢？

（1）模型预训练-从传统多模态到原生多模态

市面上大多数的多模态通常是通过分别训练处理各类信息类型的组件，然后将它们组合在一起的方式来构建。这种模型在处理某些任务时，效果确实不错，但在处理更复杂的推理时，比如描述比较抽象的手绘图形，效果就不那么理想了。

Gemini基于其TPU v5芯片的强大性能，设计了原生多模态模型。从一开始就在各种信息类型上进行了预训练，然后通过额外的多模态数据微调，使其更好地理解和推理各种输入。并且在今年4月拉斯维加斯举行的 Google Cloud Next '25 谷歌大会上宣布将继续加大AI基础设施建设。目前Gemin已在14 个国家进行本地化与数据专属管理。【有钱就是任性╮(╯▽╰)╭】

（2）强大的复杂推理能力

Gemini 2.5 在“思考”的深度上也迈出了一大步。它能更好地执行需要多步骤推理、逻辑演绎和规划的任务。

关键提升：
- 数学与逻辑： 解决更复杂的数学问题，进行严密的逻辑推导。
- 代码生成与调试： 理解复杂算法，生成高质量代码，并能更有效地找出和修复代码中的深层错误。
- 问题分解： 将一个宏大或复杂的问题分解成若干个可管理的小步骤，并依次解决。
- 策略制定： 在给定目标和约束条件下，能够初步规划行动策略。

以某老师手绘的“滑雪者下坡”的图片为例，使用Gemini多模态推理能力，能够理解老师混乱的手绘图，并将问题和答案转为数学排版。

（3）极致的多模态理解和生成

Gemini 2.5 能够无缝地理解、推理和生成跨越文本、图像、音频、视频和代码等多种类型的信息。

核心能力：
- 跨模态推理： 例如，同时分析视频画面、音频内容（对话、背景音）和字幕文本，以全面理解视频内容。
- 输入与输出多样性： 可以接受混合模态的输入（如带有图表的文档、有声视频），并能生成特定模态或混合模态的输出。
- 细粒度理解： 能够识别图像中的细微物体、理解视频中复杂的场景互动、听懂音频中的情感和语境。

笔者上传了一个岳云鹏的视频