刚刚谷歌发布了一个很有意思的新产品 Gemini CLI,直接把 AI 塞进了终端里。

官方介绍,这个工具能:

  • 处理大型代码库(高达 100 万的 token 上下文)

  • 有多模态能力:能从 PDF 或草图生成新应用

  • 能自动化运维:帮你查询代码合并请求、处理复杂的代码合并

  • 集成了大量工具:支持连接 MCP 服务器,支持图像、视频、音频生成

  • 还有内置搜索等等

对标 Claude Code,现在还有免费使用额度、而且最好的是代码开源!

听起来就很香,也难怪 1 天的时间就 狂涨 2w star,火箭式涨星:

那这个工具到底是香水还是翔水呢?我来带大家体验一下。

注意,我不是专业的测评者,只是作为普通的程序员用户,说说我自己真实的使用感受。

️ 推荐观看视频版:https://bilibili.com/video/BV1LuKdzjEAc

安装启动

按照官方提供的文档呢,我们要先安装 Node.js 前端运行环境,直接去 官网 安装就好了,注意版本要 >= 18。然后打开终端,输入一行命令全局安装工具就好:

npm install -g @google/gemini-cli

安装完成后,输入 gemini 命令,做一些基础的设置:

接下来是关键了,需要经过一波账号验证,个人用户选第一项就好。

这里大家可能会遇到 2 种验证失败的情况,第一种是网络原因(这个不好搞),第二种是说账号类型不符合要求,如图:

对于第二种情况,解决方案很简单,进入 Google Cloud 控制台,新建一个项目得到 project_id

然后在终端输入下列命令设置环境变量,重试就能登录进去了。

export GOOGLE_CLOUD_PROJECT=<你的 project_id>

登陆成功后,我们就可以折腾了~

体验一下

接下来我选了 8 个不同的场景来从多个方面验证它的能力,大家也可以感受下 Gemini CLI 的真实水平到底如何,大家说好才是真的好。

1、基础问答

输入提示词:

你好,请问你能做些什么?有什么优势?

结果没想到,一上来就报错了?而且各种胡言乱语,李在赣神魔?

过了一会儿,终于满屏飘红了,看报错的意思是我没开启 API 权限:

直接访问错误信息中的网址,就能去控制台开启 API 权限了,开一下开一下:

再来!这次 AI 的回复就对味儿了,他说自己是个AI软件工程师,确保操作的透明和安全。结果还可以,就是速度有点小慢啊,这么一个简单的问题花了 20 秒,这也是智能体的一个副作用吧。

2、网页搜索

输入提示词,让 AI 自动上网下载表情包:

请帮我获取 10 张健康的熊猫头表情包,并且下载到当前目录下

结果 AI 给我推荐了几个表情包网站,无法直接下载:

是不是不支持下载工具啊?

我们输入下 / 键,就可以看到 Gemini CLI 支持的命令:

进入查看工具列表,发现好像没有网页资源下载工具,也是难为 AI 了。但是它支持编写 Shell 脚本,所以我们不妨引导 AI 编写脚本来实现资源下载。

提示词:

请帮我获取 10 张健康的熊猫头表情包,并且下载到当前目录下,你可以通过编写可执行脚本来实现图片的下载

这次就可以看到智能体开始自主规划任务了,先创建了一个脚本,然后 “写文件” 操作需要我们确认,这里建议选择仅允许一次,安全一些:

遇到问题它会尝试 重新规划 然后重试,这也是智能体的一个关键能力:

任务执行完后还记得清理脚本,这个很不错。

好了,大功告成,我们看看下载好的文件,这个尺寸是认真的么?果然翻车了,下载的图片根本不对!

3、文件操作

输入下列提示词,让 AI 帮忙处理我本地的表情包文件:

帮我把所有的表情包尺寸放大 1 倍,并且转换为 WEBP 格式,然后将所有表情包组合在一起生成为 GIF

然后应该要指定文件路径吧,不然 AI 可能不知道要处理什么。

结果当我输入 @ 键指定文件路径时,好家伙,输入框直接卡死了?该说不说,这个交互体验不够好,我每次选择文件都会卡,而且选择不了目录。

经过一番折腾,我发现 得慢点选择,跟着程序列举出的目录树进行选择,就先选一个图片吧:

好,这次 AI 聪明了,问我是不是要处理多个文件,必须的:

然后 AI 发现无法处理图片,要下载一个图片处理工具,然后它说要利用 Mac 上的软件包管理工具来安装,同意即可:

经过漫长的等待,等了快 10 分钟竟然还没好?!

可能是我自己的网络原因吧,但我实在等不下去了。老实说测到这里,我心态都已经有点崩了,凌晨两点半隔这儿等软件安装?

不是,这玩意你写个简单的 Python 脚本不就搞定了?

感觉这个工具还是得给程序员用,要稍微加一些引导,比如我们让 AI 利用 Python 脚本实现任务:

帮我把所有的表情包尺寸放大 1 倍,并且转换为 WEBP 格式,然后将所有表情包组合在一起生成为 GIF,使用 Python 脚本实现

可以看到 AI 安装了图像处理库,然后创建了一个虚拟环境,你别说它对安全性的考虑还是 ok 的:

然后编写脚本并执行:

任务成功完成,看下效果:

尺寸确实放大了,格式也转换成功了,GIF 也成功生成了。终于顺利完成了一次任务,还不戳。通过这种方式处理本地图片确实是要比网页端的 AI 应用方便很多。

4、生成代码

输入下列提示词,让 AI 帮我做个像素摄影网站:

请帮我制作一个网站,能够调用摄像头进行拍照,并将照片转为像素风,支持下载,要求界面简洁炫酷

这次生成速度还是挺快的,就是过程中得多次进行人工确认:

我们来看下生成的网站效果:

可以调整像素的密度,还可以一键下载照片,效果还是挺不错的,这次任务 AI 也顺利完成了~

5、解释代码

给刚刚生成的项目补充一个学习指南,输入提示词:

帮我生成该项目的学习指南,帮助新开发者快速上手

由于 AI 有上下文,它直接 get 到了我想让他分析哪个项目,然后很快生成了一个项目文档。

然后我让 AI 帮我打开文档文件:

本来是想让 AI 直接打开 Markdown 阅读软件的,但没想到它直接给我输出了一堆无关的内容,我表示不理解。

那我自己打开好了吧,生成的文档内容还是过关的,标准的 GitHub 开源项目文档。

6、生成架构图

好,鉴于刚刚的任务完成得还可以,我们加大难度。让 AI 生成一个项目的分层架构图:

帮我针对当前项目,生成分层架构图

结果就有点乌龙了,AI 给我生成了一个架构设计文档:

你管这纯英文文档叫做架构图?

那我再发挥一下仅存的专业性,让他帮我生成架构图的绘图代码:

帮我针对当前项目,生成分层架构图的 draw.io 代码

这次看着靠谱多了:

来,我们把 AI 生成的架构图代码文件拖到 draw.io 中打开。

不是哥们?你管这叫架构图?

来,同样的任务,我们用 Cursor + Claude 4 试一试。

哎,你看人家 Claude 很有自信,说 “我可以为您生成一个更完整和详细的分层架构图”:

好,看下生成后的效果,是不是高下立判啊!

7、生成可视化图表

让 AI 帮我分析项目的提交记录,输入提示词:

根据当前项目的提交记录,生成可视化图表,便于我来分析项目的发展历程

可以看到 AI 使用 git log 命令查看代码提交记录,然后开始生成图表。

等等?图表在哪儿呢???

我的预期肯定是生成一个图片,或者起码是一个字符画,看着像图也行啊,有点为难他了。

8、多模态

等验证到多模态的时候已经是凌晨 3 点,我都已经麻了,唉,最后再坚持试试多模态吧。

输入生成图片提示词:

帮我基于当前目录下的图片,生成一个风格相似的新图片

这次 AI 干脆直接拒绝了,不支持图片创作,你倒是写个脚本啊?!你不用 AI,用个图像处理也行对不对?

那再解释个图片试试,输入解释图片提示词:

帮我解释当前目录下所有的图片

这倒是解释出来了,吐槽一下,竟然还是英文输出,可能跟程序本身的语言设定有关吧,体验没有那么好。

Gemini CLI 背后用的应该是 Gemini 2.5 Pro 模型,是具有原生多模态输入能力的,也就是说能识图,但是并不能创作图片,包括创作音频和视频应该都是通过第三方大模型(或者 MCP 工具实现的)。

最后再让他解释个 PDF 吧,输入提示词:

帮我总结 PDF 的内容,并生成一个新的 PDF

结果出乎我意料了,AI 提示输入超出了 token 限制?

不是号称 100 万 token 上下文么,怎么读个微型 PDF 就超出限制了呢?你无法生成 PDF 我都不觉得奇怪,我这个 PDF 文件就那几个字几张图,为什么?

本来还想让他生成音频和视频的,算了算了,我对这个工具已经有一些自己的判断了。

总结

最后总结一下吧,测试了 8 个维度后,我的感受是 “一言难尽”,可能是我对 Google 预期太高了吧。

不过说实话,我确实没有发挥到 100 万 tokens 上下文的威力,测试的都是短任务,因为在这个小黑框里去跑长任务,执行过程的浏览体验确实不够好。

那先说说优点,终端操作本地文件确实更方便,而且它可以直接一行命令安装,在已有的终端中使用,不用重新下载一个终端软件,这点还是不错的。

但是问题也很明显啊,首先 AI 智能体本身的效果咱就不多说了,大家也都看到了。抛去这个之外啊,非程序员使用它的门槛还是比较高的。终端的交互体验确实是不如网页和客户端的,很难看到思考过程,界面展示和交互效果也就那样。利用 AI 来生成一下终端命令我觉得很棒(比如 Wrap AI),但如果你非要在这个框里使用 AI 来生成内容,我觉得大可不必吧,至少我应该不会这么干。

现在各家都在卷 AI,卷的是什么?易用性、成本、效果。

像我平时生活中会用豆包或者元宝,非常方便,有问题直接语音就能输入;专门编程做项目的时候会用 Cursor + Claude 的组合。那你说 Gemini CLI 的应用场景在哪里?我总不能平时有问题的时候,第一时间打开终端来问吧?用它生成代码也不好直接编辑呀。可能对擅长 Linux 服务器操作的技术大佬还有点用,但是在公司服务器上用这个还是要注意安全性。

所以我觉得中规中矩吧,没有到网上铺天盖地吹嘘的那种程度,现阶段这玩意更适合尝鲜和学习,而不是作为日常提效工具来使用。不过虽然现在体验一般,考虑到 Google 的技术实力、还有开源免费的发展模式,我相信随着版本迭代,这工具也会越来越好的。而且对我们来说多一种工具的选择,总不是坏事。

大家觉得这个工具怎么样呢?欢迎评论区留言。感兴趣的同学也可以体验一下,看看是不是和我的感受相同,还是说有一些正确的使用方式和技巧,也欢迎评论区分享。学编程和 AI 的同学,记得关注鱼皮哦,下期见~

更多编程学习资源

谷歌新AI工具杀疯了?免费,但有点坑!Gemini CLI 抢先实测的更多相关文章

  1. 李飞飞确认将离职!谷歌云AI总帅换人,卡耐基·梅隆老教授接棒

    https://mp.weixin.qq.com/s/i1uwZALu1BcOq0jAMvPdBw 看点:李飞飞正式回归斯坦福,新任谷歌云AI总帅还是个教授,不过这次是全职. 智东西9月11日凌晨消息 ...

  2. 软件-客户端管理工具-SourceTree-帮助:免费Git客户端:sourcetree详细介绍

    ylbtech-软件-客户端管理工具-SourceTree-帮助:免费Git客户端:sourcetree详细介绍 1.返回顶部 1. 一.简介:一个用于Windows和Mac的免费Git客户端.Sou ...

  3. TensorFlow?PyTorch?Paddle?AI工具库生态之争:ONNX将一统天下

    作者:韩信子@ShowMeAI 深度学习实战系列:https://www.showmeai.tech/tutorials/42 本文地址:https://www.showmeai.tech/artic ...

  4. 不止ChatGPT,谷歌云 AI 方案早已厉兵秣马!

    近日 ChatGPT 爆火,掀起热议,能聊天能写代码,还能写策划稿,AI 似乎已逐渐变得无所不能. 不过在 AI 对话上,谷歌早在17年就提出了 Dialogflow 这一AI对话平台.相比起 Cha ...

  5. 解放生产力:30+实用AI工具汇总

    除了ChatGPT,还有哪些好用AI工具?带着这个问题,也为了解AIGC已经在哪些场景落地,我体验了30多个AI工具并且分享出来,希望对你有帮助. 文字 ChatGPT -- 解决任何问题地址:htt ...

  6. 打工人都在用的AI工具(第二期)

    更多精彩内容,欢迎关注公众号:数量技术宅,也可添加技术宅个人微信号:sljsz01,与我交流. 上周更新的打工人都在用的AI工具(第一期)收到了小伙伴们的高度好评,于是很多小伙伴们急急忙忙的催更,技术 ...

  7. AI工具导航

    .xe-comment-entry img { float: left; display: block; background: rgba(136, 136, 136, 0.15); margin-r ...

  8. 谷歌联合 Adobe 发布 Noto 字体【免费下载】

    Noto 涵盖了世界上所有主要语言,包括欧洲,非洲,中东,印度语,南亚和东南亚,中亚,美洲和东亚语言.也支持几个少数民族和历史语言.不久前,还发布了针对文.日文.韩文的开源字体——Noto Sans ...

  9. 勒索软件Locky、Tesalcrypt等使用了新的工具躲避检测

    勒索软件Locky.Tesalcrypt等使用了新的工具躲避检测 今天我们发现Locky勒索软件家族使用一种新的工具来躲避检测,并且可能已经感染了很多节点. 自从我们通过AutoFocus智能威胁分析 ...

  10. 谷歌新Logo如何做到只有305字节

    谷歌新旧Logo 谷歌换logo已经有一段时间了,对于更换Logo的问题,大家讨论的最多的是到底新老Logo哪个更好看. 但也有个别同学注意到了一个事实:谷歌的新Logo只有305字节那么大,而老的L ...

随机推荐

  1. Qt/C++开发经验小技巧311-315

    关于流媒体推拉流延时的几点说明. 经常看到一些流媒体相关的程序,号称零延迟,不用怀疑,这肯定吹牛逼的. 搞音视频开发,有个核心的指标就是实时性,也就是延迟多少毫秒,这个问题问的也是最多的. 音视频文件 ...

  2. PHP文件上传封装

    class FileUploader { private $targetDirectory; private $allowedExtensions; private $maxFileSize; pub ...

  3. 阶段升级,zhitan-ems集成建筑能耗支路和分项功能

    升级介绍 自从春节上班后开源以来,zhitan-ems收到了大家很多的赞誉和任何,很多朋友也提出了中肯的意见.感谢大家. 很多朋友的建议里提到建筑能耗功能,依据大家意见,我们加班加点实现了简单的建筑能 ...

  4. tomghost打靶学习笔记(3)

    主要内容 信息收集:ajp漏洞 横向提权:在没有办法立刻提升到管理员权限时,可以试试通过横向的权限提升切换到其他用户再做提权尝试 涉及尝试了前两台靶机没有用过的枚举方法,比如SUID 使用john解码 ...

  5. PandasAI:当数据分析遇上自然语言处理

    数据科学的新范式 在数据爆炸的时代,传统的数据分析工具正面临着前所未有的挑战.数据科学家们常常需要花费70%的时间在数据清洗和探索上,而真正的价值创造时间却被大幅压缩.PandasAI的出现,正在改变 ...

  6. 为什么不推荐在 MySQL 中直接存储图片、音频、视频等大容量内容?

    在MySQL中直接存储图片.音频.视频等大容量内容(通常称为BLOB数据)通常不被推荐,主要原因包括以下几点: 1. 性能问题 存储效率:存储大容量文件(如图片.音频.视频等)会大幅增加数据库的存储负 ...

  7. 2025西安交大集训Day11:排列组合,扩展欧几里得,素数筛,欧拉函数,容斥原理逆元,BSGS,莫比乌斯反演,LUCAS定理

    快速幂 快速幂是我们解决中数论问题的基石让我们能以 \(O(logn)\) 的复杂度计算 \(a^n\) 快速幂的思想简单而言就是将 \(n\) 的二进制中所有的 \(1\) 代表的次幂乘起来比如计算 ...

  8. 原型设计工具Axure墨刀哪个好用?

    一.工具基础特性对比 Axure为本地化安装软件,支持离线操作且数据存储本地,安全性较高,但多端协作需通过云端同步,存在更新延迟:墨刀则为云端在线工具,通过浏览器即可使用,无需安装,便于多端协作与实时 ...

  9. Nacos简介—3.Nacos的配置简介

    大纲 1.Nacos生产集群Web端口与数据库配置 2.Nacos生产集群的Distro协议核心参数 3.Nacos打通CMDB实现跨机房的就近访问 4.Nacos基于SPI动态扩展机制来获取CMDB ...

  10. Unity+MediaPipe虚拟试衣间技术实现全攻略

    引言:数字时尚革命的序章 在元宇宙概念席卷全球的今天,虚拟试衣技术正成为连接物理世界与数字孪生的关键桥梁.本文将深入解析基于Unity引擎结合MediaPipe姿态估计框架的虚拟试衣系统实现,涵盖从环 ...