谷歌新AI工具杀疯了？免费，但有点坑！Gemini CLI 抢先实测

刚刚谷歌发布了一个很有意思的新产品 Gemini CLI，直接把 AI 塞进了终端里。

据官方介绍，这个工具能：

处理大型代码库（高达 100 万的 token 上下文）
有多模态能力：能从 PDF 或草图生成新应用
能自动化运维：帮你查询代码合并请求、处理复杂的代码合并
集成了大量工具：支持连接 MCP 服务器，支持图像、视频、音频生成
还有内置搜索等等

对标 Claude Code，现在还有免费使用额度、而且最好的是代码开源！

听起来就很香，也难怪 1 天的时间就 狂涨 2w star，火箭式涨星：

那这个工具到底是香水还是翔水呢？我来带大家体验一下。

注意，我不是专业的测评者，只是作为普通的程序员用户，说说我自己真实的使用感受。

️ 推荐观看视频版：https://bilibili.com/video/BV1LuKdzjEAc

安装启动

按照官方提供的文档呢，我们要先安装 Node.js 前端运行环境，直接去官网安装就好了，注意版本要 >= 18。然后打开终端，输入一行命令全局安装工具就好：

npm install -g @google/gemini-cli

安装完成后，输入 gemini 命令，做一些基础的设置：

接下来是关键了，需要经过一波账号验证，个人用户选第一项就好。

这里大家可能会遇到 2 种验证失败的情况，第一种是网络原因（这个不好搞），第二种是说账号类型不符合要求，如图：

对于第二种情况，解决方案很简单，进入 Google Cloud 控制台，新建一个项目得到 project_id：

然后在终端输入下列命令设置环境变量，重试就能登录进去了。

export GOOGLE_CLOUD_PROJECT=<你的 project_id>

登陆成功后，我们就可以折腾了~

体验一下

接下来我选了 8 个不同的场景来从多个方面验证它的能力，大家也可以感受下 Gemini CLI 的真实水平到底如何，大家说好才是真的好。

1、基础问答

输入提示词：

你好，请问你能做些什么？有什么优势？

结果没想到，一上来就报错了？而且各种胡言乱语，李在赣神魔？

过了一会儿，终于满屏飘红了，看报错的意思是我没开启 API 权限：

直接访问错误信息中的网址，就能去控制台开启 API 权限了，开一下开一下：

再来！这次 AI 的回复就对味儿了，他说自己是个AI软件工程师，确保操作的透明和安全。结果还可以，就是速度有点小慢啊，这么一个简单的问题花了 20 秒，这也是智能体的一个副作用吧。

2、网页搜索

输入提示词，让 AI 自动上网下载表情包：

请帮我获取 10 张健康的熊猫头表情包，并且下载到当前目录下

结果 AI 给我推荐了几个表情包网站，无法直接下载：

是不是不支持下载工具啊？

我们输入下 / 键，就可以看到 Gemini CLI 支持的命令：

进入查看工具列表，发现好像没有网页资源下载工具，也是难为 AI 了。但是它支持编写 Shell 脚本，所以我们不妨引导 AI 编写脚本来实现资源下载。

提示词：

请帮我获取 10 张健康的熊猫头表情包，并且下载到当前目录下，你可以通过编写可执行脚本来实现图片的下载

这次就可以看到智能体开始自主规划任务了，先创建了一个脚本，然后 “写文件” 操作需要我们确认，这里建议选择仅允许一次，安全一些：

遇到问题它会尝试 重新规划 然后重试，这也是智能体的一个关键能力：

任务执行完后还记得清理脚本，这个很不错。

好了，大功告成，我们看看下载好的文件，这个尺寸是认真的么？果然翻车了，下载的图片根本不对！

3、文件操作

输入下列提示词，让 AI 帮忙处理我本地的表情包文件：

帮我把所有的表情包尺寸放大 1 倍，并且转换为 WEBP 格式，然后将所有表情包组合在一起生成为 GIF

然后应该要指定文件路径吧，不然 AI 可能不知道要处理什么。

结果当我输入 @ 键指定文件路径时，好家伙，输入框直接卡死了？该说不说，这个交互体验不够好，我每次选择文件都会卡，而且选择不了目录。

经过一番折腾，我发现得慢点选择，跟着程序列举出的目录树进行选择，就先选一个图片吧：

好，这次 AI 聪明了，问我是不是要处理多个文件，必须的：

然后 AI 发现无法处理图片，要下载一个图片处理工具，然后它说要利用 Mac 上的软件包管理工具来安装，同意即可：

经过漫长的等待，等了快 10 分钟竟然还没好？！

可能是我自己的网络原因吧，但我实在等不下去了。老实说测到这里，我心态都已经有点崩了，凌晨两点半隔这儿等软件安装？

不是，这玩意你写个简单的 Python 脚本不就搞定了？

感觉这个工具还是得给程序员用，要稍微加一些引导，比如我们让 AI 利用 Python 脚本实现任务：

帮我把所有的表情包尺寸放大 1 倍，并且转换为 WEBP 格式，然后将所有表情包组合在一起生成为 GIF，使用 Python 脚本实现

可以看到 AI 安装了图像处理库，然后创建了一个虚拟环境，你别说它对安全性的考虑还是 ok 的：

然后编写脚本并执行：

任务成功完成，看下效果：

尺寸确实放大了，格式也转换成功了，GIF 也成功生成了。终于顺利完成了一次任务，还不戳。通过这种方式处理本地图片确实是要比网页端的 AI 应用方便很多。

4、生成代码

输入下列提示词，让 AI 帮我做个像素摄影网站：

请帮我制作一个网站，能够调用摄像头进行拍照，并将照片转为像素风，支持下载，要求界面简洁炫酷

这次生成速度还是挺快的，就是过程中得多次进行人工确认：

我们来看下生成的网站效果：

可以调整像素的密度，还可以一键下载照片，效果还是挺不错的，这次任务 AI 也顺利完成了~

5、解释代码

给刚刚生成的项目补充一个学习指南，输入提示词：

帮我生成该项目的学习指南，帮助新开发者快速上手

由于 AI 有上下文，它直接 get 到了我想让他分析哪个项目，然后很快生成了一个项目文档。

然后我让 AI 帮我打开文档文件：

本来是想让 AI 直接打开 Markdown 阅读软件的，但没想到它直接给我输出了一堆无关的内容，我表示不理解。

那我自己打开好了吧，生成的文档内容还是过关的，标准的 GitHub 开源项目文档。

6、生成架构图

好，鉴于刚刚的任务完成得还可以，我们加大难度。让 AI 生成一个项目的分层架构图：

帮我针对当前项目，生成分层架构图

结果就有点乌龙了，AI 给我生成了一个架构设计文档：

你管这纯英文文档叫做架构图？

那我再发挥一下仅存的专业性，让他帮我生成架构图的绘图代码：

帮我针对当前项目，生成分层架构图的 draw.io 代码

这次看着靠谱多了：

来，我们把 AI 生成的架构图代码文件拖到 draw.io 中打开。

不是哥们？你管这叫架构图？

来，同样的任务，我们用 Cursor + Claude 4 试一试。

哎，你看人家 Claude 很有自信，说 “我可以为您生成一个更完整和详细的分层架构图”：

好，看下生成后的效果，是不是高下立判啊！

7、生成可视化图表

让 AI 帮我分析项目的提交记录，输入提示词：

根据当前项目的提交记录，生成可视化图表，便于我来分析项目的发展历程

可以看到 AI 使用 git log 命令查看代码提交记录，然后开始生成图表。

等等？图表在哪儿呢？？？

我的预期肯定是生成一个图片，或者起码是一个字符画，看着像图也行啊，有点为难他了。

8、多模态

等验证到多模态的时候已经是凌晨 3 点，我都已经麻了，唉，最后再坚持试试多模态吧。

输入生成图片提示词：

帮我基于当前目录下的图片，生成一个风格相似的新图片

这次 AI 干脆直接拒绝了，不支持图片创作，你倒是写个脚本啊？！你不用 AI，用个图像处理也行对不对？

那再解释个图片试试，输入解释图片提示词：

帮我解释当前目录下所有的图片

这倒是解释出来了，吐槽一下，竟然还是英文输出，可能跟程序本身的语言设定有关吧，体验没有那么好。

Gemini CLI 背后用的应该是 Gemini 2.5 Pro 模型，是具有原生多模态输入能力的，也就是说能识图，但是并不能创作图片，包括创作音频和视频应该都是通过第三方大模型（或者 MCP 工具实现的）。

最后再让他解释个 PDF 吧，输入提示词：

帮我总结 PDF 的内容，并生成一个新的 PDF

结果出乎我意料了，AI 提示输入超出了 token 限制？

不是号称 100 万 token 上下文么，怎么读个微型 PDF 就超出限制了呢？你无法生成 PDF 我都不觉得奇怪，我这个 PDF 文件就那几个字几张图，为什么？

本来还想让他生成音频和视频的，算了算了，我对这个工具已经有一些自己的判断了。

总结

最后总结一下吧，测试了 8 个维度后，我的感受是 “一言难尽”，可能是我对 Google 预期太高了吧。

不过说实话，我确实没有发挥到 100 万 tokens 上下文的威力，测试的都是短任务，因为在这个小黑框里去跑长任务，执行过程的浏览体验确实不够好。

那先说说优点，终端操作本地文件确实更方便，而且它可以直接一行命令安装，在已有的终端中使用，不用重新下载一个终端软件，这点还是不错的。

但是问题也很明显啊，首先 AI 智能体本身的效果咱就不多说了，大家也都看到了。抛去这个之外啊，非程序员使用它的门槛还是比较高的。终端的交互体验确实是不如网页和客户端的，很难看到思考过程，界面展示和交互效果也就那样。利用 AI 来生成一下终端命令我觉得很棒（比如 Wrap AI），但如果你非要在这个框里使用 AI 来生成内容，我觉得大可不必吧，至少我应该不会这么干。

现在各家都在卷 AI，卷的是什么？易用性、成本、效果。

像我平时生活中会用豆包或者元宝，非常方便，有问题直接语音就能输入；专门编程做项目的时候会用 Cursor + Claude 的组合。那你说 Gemini CLI 的应用场景在哪里？我总不能平时有问题的时候，第一时间打开终端来问吧？用它生成代码也不好直接编辑呀。可能对擅长 Linux 服务器操作的技术大佬还有点用，但是在公司服务器上用这个还是要注意安全性。

所以我觉得中规中矩吧，没有到网上铺天盖地吹嘘的那种程度，现阶段这玩意更适合尝鲜和学习，而不是作为日常提效工具来使用。不过虽然现在体验一般，考虑到 Google 的技术实力、还有开源免费的发展模式，我相信随着版本迭代，这工具也会越来越好的。而且对我们来说多一种工具的选择，总不是坏事。

大家觉得这个工具怎么样呢？欢迎评论区留言。感兴趣的同学也可以体验一下，看看是不是和我的感受相同，还是说有一些正确的使用方式和技巧，也欢迎评论区分享。学编程和 AI 的同学，记得关注鱼皮哦，下期见~