刚刚谷歌发布了一个很有意思的新产品 Gemini CLI,直接把 AI 塞进了终端里。

官方介绍,这个工具能:

  • 处理大型代码库(高达 100 万的 token 上下文)

  • 有多模态能力:能从 PDF 或草图生成新应用

  • 能自动化运维:帮你查询代码合并请求、处理复杂的代码合并

  • 集成了大量工具:支持连接 MCP 服务器,支持图像、视频、音频生成

  • 还有内置搜索等等

对标 Claude Code,现在还有免费使用额度、而且最好的是代码开源!

听起来就很香,也难怪 1 天的时间就 狂涨 2w star,火箭式涨星:

那这个工具到底是香水还是翔水呢?我来带大家体验一下。

注意,我不是专业的测评者,只是作为普通的程序员用户,说说我自己真实的使用感受。

️ 推荐观看视频版:https://bilibili.com/video/BV1LuKdzjEAc

安装启动

按照官方提供的文档呢,我们要先安装 Node.js 前端运行环境,直接去 官网 安装就好了,注意版本要 >= 18。然后打开终端,输入一行命令全局安装工具就好:

npm install -g @google/gemini-cli

安装完成后,输入 gemini 命令,做一些基础的设置:

接下来是关键了,需要经过一波账号验证,个人用户选第一项就好。

这里大家可能会遇到 2 种验证失败的情况,第一种是网络原因(这个不好搞),第二种是说账号类型不符合要求,如图:

对于第二种情况,解决方案很简单,进入 Google Cloud 控制台,新建一个项目得到 project_id

然后在终端输入下列命令设置环境变量,重试就能登录进去了。

export GOOGLE_CLOUD_PROJECT=<你的 project_id>

登陆成功后,我们就可以折腾了~

体验一下

接下来我选了 8 个不同的场景来从多个方面验证它的能力,大家也可以感受下 Gemini CLI 的真实水平到底如何,大家说好才是真的好。

1、基础问答

输入提示词:

你好,请问你能做些什么?有什么优势?

结果没想到,一上来就报错了?而且各种胡言乱语,李在赣神魔?

过了一会儿,终于满屏飘红了,看报错的意思是我没开启 API 权限:

直接访问错误信息中的网址,就能去控制台开启 API 权限了,开一下开一下:

再来!这次 AI 的回复就对味儿了,他说自己是个AI软件工程师,确保操作的透明和安全。结果还可以,就是速度有点小慢啊,这么一个简单的问题花了 20 秒,这也是智能体的一个副作用吧。

2、网页搜索

输入提示词,让 AI 自动上网下载表情包:

请帮我获取 10 张健康的熊猫头表情包,并且下载到当前目录下

结果 AI 给我推荐了几个表情包网站,无法直接下载:

是不是不支持下载工具啊?

我们输入下 / 键,就可以看到 Gemini CLI 支持的命令:

进入查看工具列表,发现好像没有网页资源下载工具,也是难为 AI 了。但是它支持编写 Shell 脚本,所以我们不妨引导 AI 编写脚本来实现资源下载。

提示词:

请帮我获取 10 张健康的熊猫头表情包,并且下载到当前目录下,你可以通过编写可执行脚本来实现图片的下载

这次就可以看到智能体开始自主规划任务了,先创建了一个脚本,然后 “写文件” 操作需要我们确认,这里建议选择仅允许一次,安全一些:

遇到问题它会尝试 重新规划 然后重试,这也是智能体的一个关键能力:

任务执行完后还记得清理脚本,这个很不错。

好了,大功告成,我们看看下载好的文件,这个尺寸是认真的么?果然翻车了,下载的图片根本不对!

3、文件操作

输入下列提示词,让 AI 帮忙处理我本地的表情包文件:

帮我把所有的表情包尺寸放大 1 倍,并且转换为 WEBP 格式,然后将所有表情包组合在一起生成为 GIF

然后应该要指定文件路径吧,不然 AI 可能不知道要处理什么。

结果当我输入 @ 键指定文件路径时,好家伙,输入框直接卡死了?该说不说,这个交互体验不够好,我每次选择文件都会卡,而且选择不了目录。

经过一番折腾,我发现 得慢点选择,跟着程序列举出的目录树进行选择,就先选一个图片吧:

好,这次 AI 聪明了,问我是不是要处理多个文件,必须的:

然后 AI 发现无法处理图片,要下载一个图片处理工具,然后它说要利用 Mac 上的软件包管理工具来安装,同意即可:

经过漫长的等待,等了快 10 分钟竟然还没好?!

可能是我自己的网络原因吧,但我实在等不下去了。老实说测到这里,我心态都已经有点崩了,凌晨两点半隔这儿等软件安装?

不是,这玩意你写个简单的 Python 脚本不就搞定了?

感觉这个工具还是得给程序员用,要稍微加一些引导,比如我们让 AI 利用 Python 脚本实现任务:

帮我把所有的表情包尺寸放大 1 倍,并且转换为 WEBP 格式,然后将所有表情包组合在一起生成为 GIF,使用 Python 脚本实现

可以看到 AI 安装了图像处理库,然后创建了一个虚拟环境,你别说它对安全性的考虑还是 ok 的:

然后编写脚本并执行:

任务成功完成,看下效果:

尺寸确实放大了,格式也转换成功了,GIF 也成功生成了。终于顺利完成了一次任务,还不戳。通过这种方式处理本地图片确实是要比网页端的 AI 应用方便很多。

4、生成代码

输入下列提示词,让 AI 帮我做个像素摄影网站:

请帮我制作一个网站,能够调用摄像头进行拍照,并将照片转为像素风,支持下载,要求界面简洁炫酷

这次生成速度还是挺快的,就是过程中得多次进行人工确认:

我们来看下生成的网站效果:

可以调整像素的密度,还可以一键下载照片,效果还是挺不错的,这次任务 AI 也顺利完成了~

5、解释代码

给刚刚生成的项目补充一个学习指南,输入提示词:

帮我生成该项目的学习指南,帮助新开发者快速上手

由于 AI 有上下文,它直接 get 到了我想让他分析哪个项目,然后很快生成了一个项目文档。

然后我让 AI 帮我打开文档文件:

本来是想让 AI 直接打开 Markdown 阅读软件的,但没想到它直接给我输出了一堆无关的内容,我表示不理解。

那我自己打开好了吧,生成的文档内容还是过关的,标准的 GitHub 开源项目文档。

6、生成架构图

好,鉴于刚刚的任务完成得还可以,我们加大难度。让 AI 生成一个项目的分层架构图:

帮我针对当前项目,生成分层架构图

结果就有点乌龙了,AI 给我生成了一个架构设计文档:

你管这纯英文文档叫做架构图?

那我再发挥一下仅存的专业性,让他帮我生成架构图的绘图代码:

帮我针对当前项目,生成分层架构图的 draw.io 代码

这次看着靠谱多了:

来,我们把 AI 生成的架构图代码文件拖到 draw.io 中打开。

不是哥们?你管这叫架构图?

来,同样的任务,我们用 Cursor + Claude 4 试一试。

哎,你看人家 Claude 很有自信,说 “我可以为您生成一个更完整和详细的分层架构图”:

好,看下生成后的效果,是不是高下立判啊!

7、生成可视化图表

让 AI 帮我分析项目的提交记录,输入提示词:

根据当前项目的提交记录,生成可视化图表,便于我来分析项目的发展历程

可以看到 AI 使用 git log 命令查看代码提交记录,然后开始生成图表。

等等?图表在哪儿呢???

我的预期肯定是生成一个图片,或者起码是一个字符画,看着像图也行啊,有点为难他了。

8、多模态

等验证到多模态的时候已经是凌晨 3 点,我都已经麻了,唉,最后再坚持试试多模态吧。

输入生成图片提示词:

帮我基于当前目录下的图片,生成一个风格相似的新图片

这次 AI 干脆直接拒绝了,不支持图片创作,你倒是写个脚本啊?!你不用 AI,用个图像处理也行对不对?

那再解释个图片试试,输入解释图片提示词:

帮我解释当前目录下所有的图片

这倒是解释出来了,吐槽一下,竟然还是英文输出,可能跟程序本身的语言设定有关吧,体验没有那么好。

Gemini CLI 背后用的应该是 Gemini 2.5 Pro 模型,是具有原生多模态输入能力的,也就是说能识图,但是并不能创作图片,包括创作音频和视频应该都是通过第三方大模型(或者 MCP 工具实现的)。

最后再让他解释个 PDF 吧,输入提示词:

帮我总结 PDF 的内容,并生成一个新的 PDF

结果出乎我意料了,AI 提示输入超出了 token 限制?

不是号称 100 万 token 上下文么,怎么读个微型 PDF 就超出限制了呢?你无法生成 PDF 我都不觉得奇怪,我这个 PDF 文件就那几个字几张图,为什么?

本来还想让他生成音频和视频的,算了算了,我对这个工具已经有一些自己的判断了。

总结

最后总结一下吧,测试了 8 个维度后,我的感受是 “一言难尽”,可能是我对 Google 预期太高了吧。

不过说实话,我确实没有发挥到 100 万 tokens 上下文的威力,测试的都是短任务,因为在这个小黑框里去跑长任务,执行过程的浏览体验确实不够好。

那先说说优点,终端操作本地文件确实更方便,而且它可以直接一行命令安装,在已有的终端中使用,不用重新下载一个终端软件,这点还是不错的。

但是问题也很明显啊,首先 AI 智能体本身的效果咱就不多说了,大家也都看到了。抛去这个之外啊,非程序员使用它的门槛还是比较高的。终端的交互体验确实是不如网页和客户端的,很难看到思考过程,界面展示和交互效果也就那样。利用 AI 来生成一下终端命令我觉得很棒(比如 Wrap AI),但如果你非要在这个框里使用 AI 来生成内容,我觉得大可不必吧,至少我应该不会这么干。

现在各家都在卷 AI,卷的是什么?易用性、成本、效果。

像我平时生活中会用豆包或者元宝,非常方便,有问题直接语音就能输入;专门编程做项目的时候会用 Cursor + Claude 的组合。那你说 Gemini CLI 的应用场景在哪里?我总不能平时有问题的时候,第一时间打开终端来问吧?用它生成代码也不好直接编辑呀。可能对擅长 Linux 服务器操作的技术大佬还有点用,但是在公司服务器上用这个还是要注意安全性。

所以我觉得中规中矩吧,没有到网上铺天盖地吹嘘的那种程度,现阶段这玩意更适合尝鲜和学习,而不是作为日常提效工具来使用。不过虽然现在体验一般,考虑到 Google 的技术实力、还有开源免费的发展模式,我相信随着版本迭代,这工具也会越来越好的。而且对我们来说多一种工具的选择,总不是坏事。

大家觉得这个工具怎么样呢?欢迎评论区留言。感兴趣的同学也可以体验一下,看看是不是和我的感受相同,还是说有一些正确的使用方式和技巧,也欢迎评论区分享。学编程和 AI 的同学,记得关注鱼皮哦,下期见~

更多编程学习资源

谷歌新AI工具杀疯了?免费,但有点坑!Gemini CLI 抢先实测的更多相关文章

  1. 李飞飞确认将离职!谷歌云AI总帅换人,卡耐基·梅隆老教授接棒

    https://mp.weixin.qq.com/s/i1uwZALu1BcOq0jAMvPdBw 看点:李飞飞正式回归斯坦福,新任谷歌云AI总帅还是个教授,不过这次是全职. 智东西9月11日凌晨消息 ...

  2. 软件-客户端管理工具-SourceTree-帮助:免费Git客户端:sourcetree详细介绍

    ylbtech-软件-客户端管理工具-SourceTree-帮助:免费Git客户端:sourcetree详细介绍 1.返回顶部 1. 一.简介:一个用于Windows和Mac的免费Git客户端.Sou ...

  3. TensorFlow?PyTorch?Paddle?AI工具库生态之争:ONNX将一统天下

    作者:韩信子@ShowMeAI 深度学习实战系列:https://www.showmeai.tech/tutorials/42 本文地址:https://www.showmeai.tech/artic ...

  4. 不止ChatGPT,谷歌云 AI 方案早已厉兵秣马!

    近日 ChatGPT 爆火,掀起热议,能聊天能写代码,还能写策划稿,AI 似乎已逐渐变得无所不能. 不过在 AI 对话上,谷歌早在17年就提出了 Dialogflow 这一AI对话平台.相比起 Cha ...

  5. 解放生产力:30+实用AI工具汇总

    除了ChatGPT,还有哪些好用AI工具?带着这个问题,也为了解AIGC已经在哪些场景落地,我体验了30多个AI工具并且分享出来,希望对你有帮助. 文字 ChatGPT -- 解决任何问题地址:htt ...

  6. 打工人都在用的AI工具(第二期)

    更多精彩内容,欢迎关注公众号:数量技术宅,也可添加技术宅个人微信号:sljsz01,与我交流. 上周更新的打工人都在用的AI工具(第一期)收到了小伙伴们的高度好评,于是很多小伙伴们急急忙忙的催更,技术 ...

  7. AI工具导航

    .xe-comment-entry img { float: left; display: block; background: rgba(136, 136, 136, 0.15); margin-r ...

  8. 谷歌联合 Adobe 发布 Noto 字体【免费下载】

    Noto 涵盖了世界上所有主要语言,包括欧洲,非洲,中东,印度语,南亚和东南亚,中亚,美洲和东亚语言.也支持几个少数民族和历史语言.不久前,还发布了针对文.日文.韩文的开源字体——Noto Sans ...

  9. 勒索软件Locky、Tesalcrypt等使用了新的工具躲避检测

    勒索软件Locky.Tesalcrypt等使用了新的工具躲避检测 今天我们发现Locky勒索软件家族使用一种新的工具来躲避检测,并且可能已经感染了很多节点. 自从我们通过AutoFocus智能威胁分析 ...

  10. 谷歌新Logo如何做到只有305字节

    谷歌新旧Logo 谷歌换logo已经有一段时间了,对于更换Logo的问题,大家讨论的最多的是到底新老Logo哪个更好看. 但也有个别同学注意到了一个事实:谷歌的新Logo只有305字节那么大,而老的L ...

随机推荐

  1. pg获取tree完整的数据

    一个表: DRGCode DRGParend DRGName 这样一个tree表结构. 任意查询string,希望得到一个查询完整的tree.怎么做? SELECT * FROM "DRG& ...

  2. study Python3【2】导入模块

    import 与 from...import 在 python 用 import 或者 from...import 来导入相应的模块. 将整个模块(somemodule)导入,格式为: import ...

  3. 2021年扩展DevOps的6种方法

    2021年扩展DevOps的6种方法 加强devops流程的自动化 为了满足快速.高质量应用程序交付的需求,现代软件团队需要一种超越常规性能测试的方法.在这里,以devops为中心的方法可以提供更快. ...

  4. Audio DSP boot 过程

    在智能手机或智能手表等SoC上通常有一块专门的audio DSP(简称ADSP)来做音频处理.要做音频处理,ADSP首先要被boot起来.本文以CEVA BX2为例来讲讲ADSP的boot过程. 在上 ...

  5. PriorityBlockingQueue 的put方法底层源码

    一.PriorityBlockingQueue 的put方法底层源码 PriorityBlockingQueue 的 put 方法用于将元素插入队列.由于 PriorityBlockingQueue ...

  6. nginx禁止IP访问,仅供域名访问(域名访问限制不严格漏洞)

    域名访问限制不严格漏洞解决 nginx添加相关配置 通过default_server,在http中最前面加上该配置 server { listen 80 default_server; server_ ...

  7. ESP-IDF教程2 GPIO - 输入、输出和中断

    1.前提 1.1.基础知识 1.1.1.GPIO 分类 ESP32 系列芯片按照 GPIO 特殊的使用限制分类,可以将其分为如下几类: GPIO PIN GPI PIN Strapping PIN S ...

  8. 揭秘AI编排爆火真相:从"人工智障"到"真正智能"的关键一跃

    当行业还在追捧大模型参数竞赛时,领先团队早已转向新战场: AI编排(Agent Orchestration)-- 这个方向是 AI 技术"从聊天到做事"的关键突破口. 1.为什么说 ...

  9. SkyWalking服务监控简单配置【Windows版本】

    SkyWalking是什么 skywalking是一个可观测性分析平台和应用性能管理系统专为微服务.云原生架构和基于容器(Docker.K8s.Mesos)架构而设计. 下载 官网:https://s ...

  10. 一个开源、经典的 WPF 控件、组件和实用工具集合,值得参考学习!

    前言 今天大姚给大家推荐一个开源.经典的 WPF 控件.组件和实用工具集合,对于想要自己编写 WPF UI 界面的同学可以参考借鉴学习:Extended.Wpf.Toolkit. 项目介绍 Exten ...