Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

实测 GPT-5.2 :价格暴涨能力微涨,凭什么反击 Gemini

By: 张子豪
12 December 2025 at 14:03

要吊打 Gemini 的 GPT 5.2 在今天凌晨正式发布了,向所有用户推出。

上个月刚刚退订掉 ChatGPT Plus,转到 Gemini,这次需要因为 GPT-5.2 再回去吗?

看完下面这些网友真实的体验分享,还有 APPSO 的上手实测,或许能有个答案。

▲这次终于没把表给画错了

GPT 5.2 这次其实是更新了 3 个模型,GPT-5.2 Instant、Thinking、以及 Pro 模型。如果你习惯了 Gemini 3.0 Pro 里,每次问答都会经过思考;那么上手 GPT-5.2 Thinking/Pro 时,你会发现 ChatGPT 思考速度的变慢了,比以往所花的时间要更长。

这也是目前大多数获得提前体验的用户,在社交媒体上分享的心得。即 GPT-5.2 对比 5.1 在各个方面都有了提升,且 GPT-5.2 Pro 非常适合去做一些专业推理工作,需要长时间来完成的任务,但是,就等待结果的过程变得更漫长。

例如有用户分享,输入提示词「帮我绘制一张 HLE 测试成绩的图表」,GPT-5.2 Pro 硬是花了 24 分钟才得出这张表。

▲图片来源:https://x.com/emollick/status/1999185755617300796/photo/1

但好在所有的信息都是准确的,即便图表上最好的结果,显示的还是 Gemini 3.0 Pro。

这也得益于 GPT-5.2 的知识截止日期来到了 2025 年 8 月,要知道 GPT-5.1 的知识截止日期还是 2024 年 9 月,而上个月刚发布的 Gemini 3.0 截止在 2025.1。

当我们使用 GPT-5.2 Thinking,让它生成一张 OpenAI 的模型发布历史的图表,倒没有花太长的时间,信息也比较准确。如果是简单的任务,用 Thinking 模型所花的时间,和用 Pro 模型,差别会非常大。

▲提示词:generate a chart graph of OpenAI model release over time

凭借着「超高强度」的推理,以及最新的世界知识,结合图像的多模态理解和推理能力,GPT 5.2 很快也在大模型竞技场上飙升到第二名。GPT-5.2-High 在 WebDev(网页开发)项目中排名第二,GPT-5.2 排名第六。作为对比,Gemini 3.0 Pro 排名第三,第一仍然是 Claude。

LMArena 官方也给出了一段实测视频,他们使用 GPT-5.2 完成了一系列的 3D 建模工作,完成度非常高。但还是有网友在下面评论说,「现在是还在 2003 年吗?」

▲视频来源:https://x.com/arena/status/1999189215603753445

这种利用 three.js 实现的 3D 效果,非常需要模型的多模态理解和推理能力,以及在编程开发、程序设计上的优化;GPT-5.2 也很对得起这 0.1 的升级。

目前网友分享大量测试,基本上都集中在构建这些完整的 3D 引擎,GPT-5.2 表现的也都很不错。像是也有用 GPT-5.2 Thinking 的高难度推理模式,同样在单页文件里,构建了一个支持交互控制、还可以导出 4K 分辨率的 3D 雪天冰块王国模型。

▲ https://x.com/skirano/status/1999182295685644366

还有使用 GPT-5.2 Pro 实现的 3D 波涛汹涌哥特城市建筑。

▲提示词:create a visually interesting shader that can run in twigl-dot-app make it like an infinite city of neo-gothic towers partially drowned in a stormy ocean with large waves.|来源:https://x.com/emollick/status/1999185085719887978?s=20

关于 3D 理解和推理能力,我们也用了 Ian Goodfellow 上次在 Gemini 3.0 Pro 发布之后使用的提示词,即上传一张图片,然后告诉模型根据这张图片,生成一个漂亮的体素艺术 Three.js 单页程序场景。

▲ 由于 ChatGPT 没有在画布内为我生成,所以复制它在对话框生成的代码,在 HTML View 中打开,如右图所示。

这个差别还是挺明显,ChatGPT 虽然也读取到了上传图片的内容,一棵粉红色的书,一块绿地和灰色的下沉,还有白色的水流,但是它生成的 3D 动画,对比 Gemini 3.0 Pro 是有些简陋了。

我只能说,奥特曼发出这个「红色警报」,说明了 Gemini 的真材实料。

检验编程能力的测试,必然少不了经典的六边形小球物理运动。有博主加大了小球运动的难度,全部使用闪着光的红色 3D 小球。效果看着很酷炫,很多网友都在问这是如何做到的;但也有网友指出来,这些小球,好像并不受重力控制。

接着有网友回复说,这是在模拟太空。

▲视频来源:https://x.com/flavioAd/status/1999183432203567339

还有 SVG 代码测试,骑自行车的鹈鹕。

▲ 图片来源:https://arena.jit.dev/

也有网友分享自己用 GPT-5.2 做了一个森林火灾的模拟器,能够调节速度、片区大小、和火焰燃烧范围等等。

▲图片来源:https://x.com/1littlecoder/status/1999191170581434557?s=20

我们做了一个星球信号的网页,跟这个森林火情可视化的网页,布局是如出一辙,大概就是左边显示的内容,星星点点换成了太空星球。

▲提示词:Create an interactive HTML, CSS, and JavaScript simulation of a satellite system that transmits signals to ground receivers. The simulation should show a satellite orbiting the Earth and periodically sending signals that are received by multiple

我们也用之前 Gemini 3 做的拍立得,来考验一下 GPT-5.2。输入同样的提示词,要它开发一个复古拍立得风格的网页相机应用。

▲提示词:开发一个具有复古拟物风格的单页相机应用。页面背景请设计为软木板或深色木纹材质,左下角固定一个纯 CSS 或 SVG 绘制的拟物化拍立得相机模型,其镜头区域实时显示用户摄像头画面;交互逻辑上,当用户点击快门按钮时,播放快门音效,并让一张带有白色边框的相纸从相机顶部缓慢吐出;请利用 CSS 滤镜让滑出的照片初始状态为高模糊且黑白,在 5 秒内平滑过渡到清晰全彩状态;最后,所有显影完成的照片必须支持自由拖拽,允许用户将其随意摆放在页面任意位置,且照片要有随机的微小旋转角度和阴影,点击某张照片时应将其置顶,从而形成一个逼真的自由照片拼贴墙。

有点意外,一次成型,ChatGPT 也能做拍立得了。

之前我们测试 Gemini 3.0 Pro 时,它最强大的能力一方面是编程,另一方面是不需要我们输入太多的提示词,只是把一个截屏或视频丢给它,告诉它要复刻,Gemini 就能做到。

这次我们同样丢给它一个视频,要求它复刻这个古诗词生成的网页。

▲ https://chatgpt.com/canvas/shared/693b6d1b8fa881919c6298a4aed05581

对比之前 GPT-5.1 完全不知道我上传视频的配色方案,这次它算是学到了。不过,由于 Gemini 生成的网页可以直接添加 AI 功能,通过使用 Gemini 的 API 实现。但是 ChatGPT 还没有把 AI 引入这些生成的网页,所以这里的诗歌,同样只能是已经写好的那几首。

除了经典的编程能力测试,和单纯地做一个单页的 HTML 文件,也有网友用它来编写 Python 代码。

网友输入的提示词是「write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate.」(编写一个 Python 代码,模拟单行道交通灯的工作原理,并可视化随机速率进入的车辆)。

他同时测试了 GPT 5.2 Extended Thinking 和 Claude Opus 4.5,结果显而易见。只能说,经常有读者问我们最好的编程模型是哪个,Claude 能被这么多开发者青睐,并不是没有原因。

▲ 下边是 GPT-5.2,来源:https://x.com/diegocabezas01/status/1999228052379754508

而且,之前 Claude 模型最大的缺点,可能就是贵,Claude Opus 4.5 输入每百万 Token 是 5 美元,输出是 25 美元。现在 GPT-5.2 的价格也跟上来了,对比 GPT-5.1 ,整体基本上贵了 40%,GPT-5.2 Pro 的输入是 21 美元,输出是 168 美元。

在官方的发布博客里面,OpenAI 提到 GPT-5.2 在图像的能力也有了提升。

GPT-5.2 Thinking 是我们迄今为止最强大的视觉模型,在图表推理和软件界面理解方面的错误率降低了大约一半。

并且它给出了一个例子,是给一块看起来很模糊的主板,用 AI 加上一些带有方框的标记;对比 GPT-5.1,GPT-5.2 虽然也会犯错,但是标记了更多的地方。

可是 Nano Banana Pro 呢,有网友用 Nano Banana Pro 去掉了图片上的标注信息,然后重新要求它打上新的目标定位方框,你觉得哪个好。

▲从左到右依次为 GPT-5.1、GPT-5.2、Nano Banana Pro|图片来源:https://x.com/bcaine/status/1999212747213656072

我的感受是,ChatGPT 为什么要在别人擅长的领域上「自取其辱」,Nano Banana 做这些关于图片的工作,现在完全可以说就是断层第一,即便 GPT-5.2 标注的信息更多了,但很多检测框定位都不准确。

编程、图像对比前代 GPT-5.1 有了大幅提升,如果你一直以来都是 ChatGPT 的用户,应该能直接感受升级后带来的差别。但如果和其他模型对比,编程和图像,体验下来,仍然是没有像 Nano Banana 推出时一样,做到遥遥领先。

在关于审美的网页设计上,也有网友分享了他用 GPT-5.2 做的一些前端网页,大家可以看看这次,前端程序员是不是又要被拉出来「杀」一遍。

▲图片来源:https://x.com/secondfret/status/1999235822034547011

和之前烂大街的渐变紫,GPT-5.2 的设计水平确实上来了,但就像博主自己说的一样,GPT-5.2 好像特别喜欢在屏幕上画方框,到处都是层层叠叠的网格。

关于设计能力,也有一个专门的榜单,GPT-5.2 突飞猛进,从之前排在十名开外的 GPT-5.1,一跃来到了第三名,不过得分最高的还是 Gemini 3.0 Pro。

▲ 图片来源:https://www.designarena.ai/leaderboard

我们也给 GPT-5.2 一些要求做出「高大上」的网页,给一家 AI 公司做首页。结果是,GPT-5.2 很喜欢用方框是真的;还有渐变紫怎么又给我碰上了。

▲提示词:You are the top 0.1% designer and developer for the world’s cutting-edge innovation on front-end design and development. You are tasked to create a full landing page with {Dither + Shaders} using {WebGL + ThreeJs} in the styling of an uploaded image for the AI company. – Focus mainly on the design part, not the development. Import all necessary files and libraries: Three.js、WebGL、GSAP、Any other animation libraries related to 3D development.

最后关于写作,根据一些获得超前体验的用户反馈,GPT-5.2 开始有能力,完成一些长篇幅小说的创作。

例如,当 ChatGPT 被要求生成 50 个情节创意时,它会全部完成,而不是像其他模型那样只生成一部分。而被要求写一本 200 页的书时,ChatGPT 也没有直接说做不到,而是真的尝试了,不仅构建了整本书的结构,甚至还生成了 PDF 文件。

网友说,尽管书页本身比较薄弱,篇幅也短……毕竟它目前不可能,一口气写出一本可以出版的小说,但能开始真的去做,给 50 个创意,写 200 页书,说明它有足够的思维深度。

GPT-5.2 最引人注目的地方在于它能够很好地遵循指令……不是基本的按照我说的做,而是真正完成我描述的整个任务。

现在 GPT-5.2 应该已经逐步推送到所有用户了,你的上手实测体验怎么样。

GPT-5.2 的升级,不足以让我从 Gemini 转过来。虽然看着又是刷新了很多榜单,无论是自己发布的榜单,公开的测试,都拿到了不错的成绩。但是具体的上手,在生成 3D 程序那部分,代码报错是常有的事,而整体的审美风格也没能有大的突破,还这么贵。

▲ 网友锐评

Gemini 那边也没有停下来,继续给奥特曼压力。今天凌晨,虽然没有发布新模型,但重新设计了 Gemini Deep Research,并且可以通过 API 来访问它,未来还将 Gemini、Google 搜索、NotebookLM 中升级。

全新的 Gemini 深度研究 Agent 在人类最后的考试(HLE),用 46.4% 击败了刚刚发布的 GPT-5.2 Thinking(45.5%),并且在 Google 自己推出的 DeepSearchQA 测试,和 BrowseComp 测试中取得了不错的结果。

奥特曼的红色警报,大概是还得再亮一阵子了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


硅谷商战变厨艺大赛?小扎曾亲手煮汤挖人,OpenAI 说不慌都是演的

By: 张子豪
3 December 2025 at 15:40

鹬蚌相争,渔翁得利。有时候还挺希望我们用户就是那个渔翁,模型厂商打得越厉害,我们就有机会越快用到更好的模型。

2022 年 12 月 22 号,在 ChatGPT 发布三周后,为了应对 OpenAI 的威胁,Google 成了第一个发布「红色警报」的科技巨头。

昨天,在 Gemini 3 发布两周后,因为 Gemini 3 模型出现了大幅增长,OpenAI 发布了首个「红色警报」。

看到消息的时候,我就觉得 OpenAI 是不是有点过度反应了,很快就看到了一些评论说「骄兵必败」、还有「胜败乃兵家常事」。但转念一想,所谓的「红色警报」也许就是给投资人看的,毕竟 OpenAI 如果真的做不到第一,那个 2030 才能盈利的时间,只会拉得更长。

▲ Gemini 的 App 下载量快要追上 ChatGPT

根据最新透露的消息,OpenAI 在下周即将推出一款新的推理模型,内部评估表现要比 Gemini 3 更好。此外,他们还计划通过一个代号为「Garlic」的模型,来进行反击。

但更现实的情况,是 OpenAI 必然会发布比 Gemini 3 更好的模型,而 Google 也还有 Gemini 4、Gemini 5。

其实,回看过去这一年来硅谷的新闻,完全算得上是一出跌宕起伏的抓马大戏。年初被 DeepSeek R1 的横空出世而感到压力;年中则是小扎开启的疯狂「抢人模式」,天价薪酬刷新着所有人对 AI 人才的认知;到了年尾,又再次卷回到了朴素的模型比拼赛场。

在 OpenAI 研究主管 Mark Chen 的最新播客采访中,硅谷的战争更是进化到了魔幻的程度,他说小扎为了挖走 OpenAI 的核心大脑,甚至开始做汤,真的能喝的汤,然后亲自把汤送到研究员的家门口。

除了这些八卦,他也谈到了 OpenAI 对于 Gemini 3 的看法、Scaling 是否已经过时、还有 DeepSeek R1 对他们的影响、以及公司内部的算力分配、实现 AGI 的时间表等。

Mark Chen 的背景非常有意思,数学竞赛出身,MIT 毕业,去华尔街做过高频交易(HFT),2018 年加入 OpenAI,跟着 Ilya 一起做研究。和奥特曼更偏向于商人属性的特点不同,这些经历,让他身上也有一股非常明显的特质,极度厌恶失败,且极度信奉数学。

他坦言自己现在,完全没有社交生活,过去两周每天都工作到凌晨 1-2 点。

我们整理了这场长达一个半小时的采访,总结了下面这些亮点,或许能更好的看清硅谷这一年来的各种「战争」、以及 OpenAI 会做些什么努力,来继续保持自己在 AI 时代的第一。

关于 Gemini 3,我们真的「不慌」

OpenAI 真的怕 Google 吗?Mark 的评价很客观但也很犀利。他肯定了 Gemini 3 是个好模型,Google 终于找对路子了。但是他说看细节,比如 SWE-bench(这也是 Gemini 3 刷榜那张图片里,唯一一个没有拿到第一的基准测试)数据,Google 在数据效率上依然没有解决根本问题。

▲Gemini 3.0 Pro 在 SWE-Bench 上的表现,比 GPT-5.1 还差了 0.1%

而他自己则是非常自信的表示,OpenAI 内部已经有了针对性的应对模型,而且他们有信心在数据效率上做得更好。

Mark 甚至说,奥特曼前几天发那个说大家都要感到压力的备忘录,去吓唬大家,其实更多的是为了注入紧迫感,他说这是管理层的惯用手段,备忘录的目的在于管理层激励团队,而不是真的感到慌了。

我觉得Sam的工作之一就是要注入紧迫感和速度感。这是他的责任,也是我的责任。

 

作为管理者,我们的部分工作就是不断给组织注入紧迫性。

▲此前 The Information 报道,奥特曼在 Gemini 3 推出时,在公司内部发备忘录,提到会给 OpenAI 带来困难

他们目前最大的问题,还是算力分配。作为 OpenAI 的研究主管,他的一项工作就是决定如何将算力分配到公司内部不同的项目。

他和 Jakub Pachocki(OpenAI 首席科学家)一起,负责制定 OpenAI 的研究方向,同时决定每个项目能拿到多少算力。为了这件事,他们每隔 1–2 个月,都会做一次盘点。

他们把 OpenAI 所有在做的项目,放进一张巨大的表格里,大概有 300 个;然后努力把每一个项目都看懂,给它们排优先级;再根据这个优先级表去分配 GPU。

▲英伟达和 OpenAI 的百万 GPU 合作

他也提到,真正要用掉大部分的 GPU 的,甚至并不是训练那个最重要发布的模型,而是他们内部在探索下一代 AI 范式的各种实验。

所以,在他的眼里,Gemini 3 发布了、某家开源模型刷榜了、某个思考模型又拿了新高分了;这些你追我赶的 benchmark 赛车一点都不重要。反而,最应该避免的,恰恰是被这场竞赛牵着走。

他说,现在的模型发展,我们随时可以靠一点「小更新」,就在榜单上领先几周或几个月但如果把资源都砸在这些短线迭代上,就没有人去寻找下一代范式。而一旦有人真的找到了,整个领域后面十年的路线,都要沿着那条新路走。

小声哔哔几句,预言 OpenAI 下周要发布的模型,我想就是在计划之外,做了点小更新,然后刷新了几个榜单而已吧,就这还没慌吗。

提到榜单的时候,他说他有自己的一套私房题,用来测试模型是不是真的具备了顶级数学直觉。他举了一个 42 的数学难题,说目前的语言模型,包括 o1 这种思考模型能接近最优解,但从来没有完全破解它。

你想创建一个模 42 的随机数生成器。你手头有一些质数,是模数小于 42 的质数的随机数生成器。目标是,以最少的调用次数,组合出这个模 42 的生成器。

除了谈到 Gemini 3,主持人也问了他对于 DeepSeek 的看法。

和 Gemini 3 一样,Mark 承认 DeepSeek 的开源模型曾让他们感到压力,甚至怀疑自己是不是走错了路。

但结论是坚持自己路线,不要被对手的动作打乱节奏,专注自己的路线图。OpenAI 不会变成一个跟风的公司,他们要做的,就是定义下一个范式。

Ilya 的 Scaling 里面还有很多潜力,OpenAI 需要大规模预训练

近期关于 Scaling 失效的讨论纷纷扬扬,Ilya 先是在播客采访里面说,Scaling 的时代已经结束了,后面又在社交媒体上澄清,Scaling 会持续带来一些改进,并不是停滞不前。

所谓的 Scaling Law,就是按经典老故事走向,这几年建了巨大的算力基建,模型每 10 倍算力,本该有一波明显跃迁。但从 GPT-4 到 GPT-5,外界并没有看到预期中那种「质变式」的提升,所以才会有「Scaling Law 失效了」的讨论;而 Ilya 前段时间的访谈,则是进一步放大了这种观点。

Mark Chen 对这个观点,给出了坚决的反驳,「我们完全不同意」。他透露,过去两年 OpenAI 在推理上投入了巨量资源,导致预训练这部分稍显退化。之前关于 GPT-5 遇到了预训练的问题,其实也是因为他们把重心放在了推理上,而不是 Scaling Law 已死。

工作就是分配算力资源的他,再次重申算力永远不会过剩,如果今天多 3 倍算力,他可以立刻用完;如果今天多 10 倍算力,几周内也能全部吃满。对他来说,算力需求是真实存在的,看不到任何放缓迹象。

▲ OpenAI 的计算成本,计划到 2030 年花费约 4500 亿美元租用服务器,红色为推理计算成本、蓝色为研发(不包含现金业务)、黄色为可盈利的计算

他也提到,过去半年,他和 OpenAI 首席科学家 Jakub Pachocki 已经将重心重新拉回,要开始重塑预训练的统治力

他明确说他们会继续做规模化模型,而且已经有一批算法突破,专门就是为了让 Scaling 更划算,在相同算力下挖出更多性能,在更高算力下保持数据效率。

小扎的送来的真汤,抵不过 OpenAI 的鸡汤

最后就是访谈里提到的八卦了,Meta 今年没有别的新闻,媒体渲染了一整个季度的「OpenAI 人才/Apple 人才/Google 人才大量流失到 Meta」,Mark Chen 在播客里正面回应了这个话题,细节简直有点「颠」。

他说小扎真的很拼,为了挖人,小扎不仅手写邮件,还亲自去送鸡汤。人才战打到最后,居然演变成「谁煮的汤更好喝」的 Meta 游戏。

▲ Meta 花大价钱挖人组建的超级智能实验室名单

不过,在他的直接下属中,Meta 曾试图挖角一半的人,结果全部选择继续留下来。为什么不走?不是因为钱,因为Meta 给的钱显然更多,而是因为信仰

Mark 说,即使是那些跳槽去 Meta 的人,也没有一个人敢说「Meta 会比 OpenAI 先做出 AGI」。留在 OpenAI 的人,是因为他们真的相信这里才是 AGI 的诞生地。

他也提到自己从华尔街和玩扑克的经历里面学到,真正要守住的是核心人才,而不是每一个人在搞清楚,必须留下的是哪类人后,再把资源和关注度,全部压在这部分人身上。

他说他最强烈的情绪,其实就是想「保护研究的本能」。在 Barrett(OpenAI 研究副总裁)离职那阵子,他甚至直接睡在办公室睡了一个月,只为把研究团队稳住。

▲ Barret 目前和 Mira(OpenAI 前 CTO) 都在 Thinking Machines

那么 OpenAI 所信奉的 AGI 又是什么,主持人问他,Andrej Karpathy 在最近的一个播客里面说,AGI 大概还要 10 年,你是怎么想的。

Mark 先是调侃了一番 X 现在「惊」的各种文案,一下子是「AI 完了」、一下子又是「AI 又可以了」。他觉得,每个人对于 AGI 的理解都不同,即便在 OpenAI 内部,也很难有一个一致的定义。但他相信的是,OpenAI 在 AGI 道路上设置的目标。

  • 一年内: 改变研究的性质。现在的研究员是自己在写代码、跑实验。 一年后,研究员的主要工作是管理 AI 实习生。AI 应该能作为高效的助手,承担大部分具体工作。
  • 2.5 年内: 实现端到端的研究自动化。这意味着:人类只负责提出 Idea(顶层设计),AI 负责实现代码、Debug、跑数据、分析结果,形成闭环。

从 Copilot 到 Scientist,Mark 强调,OpenAI for Science 的目标不是自己拿诺贝尔奖,而是建立一套工具,让现在的科学家能一键加速,哪怕这需要重构整个科学评价体系,因为未来可能很难分清是人还是 AI 做的发现。

2 年半的时间很快,但这对于现在看来,是以周为单位迭代的 AI 行业来说,又是一场漫长的马拉松。

▲ 预测市场给出的,到 2025 年底前最好的 AI 模型会来自哪个公司,Google 排在第一名

无论是扎克伯格那锅真金白银的鸡汤,还是 OpenAI 想要定义未来的理想主义鸡汤,这场硅谷的「煮汤大戏」还远未结束。Mark Chen 播客里表现出来的从容,或许能消除一部分外界的焦虑,但用户还是会用脚投票,好的模型自己会说话。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Gemini 3一句话打造拍立得应用刷屏!全网最火8个玩法都在这,看完秒上手

By: 张子豪
20 November 2025 at 17:51

都在说 Gemini 3 这次炸翻天,年度最强,未来模型,除了拿下榜单第一,Gemini 3 到底能做点什么。

体验了一波之后,我发现最大的好处,是不需要到处去问,「你这个的提示词是什么?」

看到好玩的案例,无论是视频还是截图,统统丢给 Gemini 3,加一句「帮我做一个一模一样的出来」,Gemini 3 立刻就能复刻一个同款。提示词的时代,真的慢慢过去了。

就像这个在 X 很火的拍立得相机,它是用 Gemini 3.0 Pro 生成的一个项目,能调用设备的摄像头,然后生成一张拍立得风格的照片,在相纸上印有文案和拍摄日期。

▲ 体验地址:https://www.bubbbly.com/app/retro-camera.html|图片来源:X@ann_nnng

这种能直接和现实生活交互的效果,确实打破了之前 AI 一味的,只知道做一个单页应用的乏味。

当我们把这个视频直接发给 Gemini 3.0 Pro,它竟然也可以很快,就生成一个同款。并且在 Canvas 里面,还支持添加 Gemini 功能,因此我们这个拍立得,还有了 AI 识别摄像头画面,主动生成文案和选择滤镜的功能。

▲我输入的提示词只有让它增加多几种胶片模拟的风格。直接点击右下角的 Gemini,它会自动寻找,可以使用 Gemini 来完成的内容。

还有网友用 Gemini 3 直接做了一个诗歌探索器,让它每天提供一首诗,鼠标悬停时会解释每一行,并提供一些建议问题来进一步探索诗歌。

▲图片来源:X@raizamrtn

我特别喜欢这个简洁大方的设计,同样地,把这个录屏丢给 Gemini,当看到生成的效果时,我觉得 Gemini 3.0 Pro 太酷了。

▲提示词:上传已有视频,并加上「这是一个诗歌探索器,它每天提供一首诗,鼠标悬停时会解释每一行,并提供一些建议问题来进一步探索主题。然后我需要你根据这个视频,参考它的交互逻辑,UI 设计等等,帮我复刻一个同款诗词探索器,不过我要的是中国的古诗文、诗词歌赋。」

打开代码页,你还会惊喜地发现,Gemini 不仅搞定了前端 UI,甚至连调用 API 的系统提示词(System Prompt)都帮我们写好了。

你是一位博学的中国古文学家和美学鉴赏家。你的任务是为用户推荐一首中国古诗词(范围包括唐诗、宋词、元曲、诗经、楚辞、汉乐府等)。请不仅限于最著名的《静夜思》之类,多推荐一些意境深远、耐人寻味的佳作。

在这个过程中我们还可以同步让它进行修改,Gemini Canvas 有一个强大的功能,除了提到的「Add Gemini Feature(添加 Gemini 功能)」,还有一个是「Select and Ask(选择并提问)」,我们可以直接框选预览页面的某个组件元素,然后提问,Gemini 会自动修复这一部分。

这里我们让它添加一个分享生成照片的功能,以及修复之前点击我的收藏没有反应的问题。

▲使用的生图模型是 Imagen 3/4

这已经不是单纯的单页 HTML 文件,它需要 Gemini API 来同步完成诗歌的选择推荐,以及图片内容的生成。我相信这是目前无论哪个 AI 编程工具、或者 ChatGPT,都无法实现的强大功能。

Gemini 3 能创造的东西真的太多了,优雅的前端完全不必多说,这样的诗歌探索网页,色彩的搭配使用,元素的布局,放在哪里都是一流的设计。后端的能力,Gemini 不需要构建繁琐、有限的诗歌数据库,而是直接利用 AI 来获取不同的诗词。

而且,在对话里,我没有提到要求响应式设计,即手机、平板、和 PC 多种显示比例的同步,Gemini 3 还是帮我做到了,我们也可以在手机里直接看古诗文,同样调用 Gemini API。

▲ 手机上同样能点开网页,AI 发现新的诗歌,和生成图片

我们把同样的视频和提示词交给 ChatGPT,严重怀疑 ChatGPT 5.1 根本就没有看视频,而是完全依靠我输入的提示词来完成。无论是整体 UI 的风格,还有提示词里没有提到要写作者简介,ChatGPT 生成的内容就没有作者简介。

更大的问题,这不是一个能直接使用的产品,它生成的数据库里只有《静夜思》和《登鹳雀楼》两首诗,它也没有办法使用 OpenAI API 来完成诗歌的搜索获取。

当我提到「这个诗不应该是放在数据库里的,而是应该用 ChatGPT 自动搜索,不然我每次打开都是那几首诗诶」,整个项目就报错了,因为它需要我填入真实的 API

总而言之,如果用 ChatGPT,一个好的提示词还是少不了。

网上更火的 Gemini 3.0 Pro 测试,是有一个博主,在 Gemini 里面输入一句「Design a Capcut(设计一个剪映)」,然后只花了 239 秒,就复刻了一个能真实使用的剪映。完全不需要我们再打磨提示词,去详细列出应该做哪些功能,交互逻辑是如何,配色方案等;直接一句话搞定。

▲图片来源:X@lepadphone

还有相当一大部分的案例,是网友们都在谈的前端,即 Gemini 3.0 Pro 生成的网页,不仅摆脱了 AI 编程之前常见的渐变紫,还带来了耳目一新的大胆设计,就像是有个设计师在后台帮用户画初稿一样。

▲诸如此类「前端已死」的说法,在 Gemini 3.0 发布之后,X 上随处可见。

下面这些是网上热度比较高,由 Gemini 3.0 Pro 生成的前端页面例子。

一家人工智能公司的完整落地页。

▲提示词:You are the top 0.1% designer and developer for the world’s cutting-edge innovation on front-end design and development. You are tasked to create a full landing page with {Dither + Shaders} using {WebGL + ThreeJs} in the styling of an uploaded image for the AI company. – Focus mainly on the design part, not the development. Import all necessary files and libraries: Three.js、WebGL、GSAP、Any other animation libraries related to 3D development.|图片来源:X@natatatataat

下一代 AI 公司该有的美学追求和品味。

▲ 图片来源:X@eter_inquirer

一个双栏的响应式布局个人首页。

▲提示词:Create a hero section with a two-column responsive layout: left side has a large bold heading with orange accent highlights and star symbols, a tagline row with uppercase tags, and two CTA buttons (primary black, secondary white with border). Right side features a 3D animated orange star using React Three Fiber with slow rotation and float animations, orbit controls, and a subtle background glow. Include a top navigation bar with logo, menu items, and a “Let’s talk” button. Use Tailwind CSS for styling with a light gray background, generous spacing, and smooth hover transitions.|图片来源:X@karaan_dev

这些案例有的分享了提示词,当我们把这些提示词,通过 ChatGPT、Kimi、MiniMax 这些模型来处理时,得到的效果,都还是停留在我们的想象之中。

也有很多网友,趁着大家都在夸 Gemini 3 的前端,把一些自己设计的网页,包含复杂的动画效果和字体设计,也营销称是 Gemini 3 完成的,获得了一波流量之后,再去评论区留言说「没有提示词,这是我们团队手工做的。」

Gemini 3 + 前端,这一波热度谁都想蹭。在这些 Gemini 3.0 Pro 生成的前端精美、设计高级、交互友好的网页里面,大部分都用到了 3D 的效果,即使用 Three.js 库来完成网页设计。

深度学习经典花书的作者,Ian Goodfellow 在 Gemini 3.0 Pro 发布后,也是直接上传一张图片,生成一个 3D 的体素艺术场景,通过 Three.js 来测试它的多模态推理能力。

▲ 提示词:我提供了一张图片。请根据这张图片编写一个漂亮的体素艺术场景。使用 Three.js 编写单页应用程序。体验地址:https://aistudio.google.com/apps/bundled/image_to_voxel

他提到与 Gemini 2.5 的结果相比,Gemini 3 强大的多模态理解,和 3D 推理能力,大幅提升了生成内容的保真度

得益于内容保真度的提高,很多 3D 项目,现在都可以通过 Gemini 3.0 Pro 来完成。像这个完全交互式的 3D 地球仪,我们可以探索和收听,来自世界各地的广播电台。

▲图片来源:X@sahilypatel

眼尖的网友立刻就发现了,这不就是经典的 Radio.Garden 吗?作者也坦言确实在提示词中,提到了这个网站,要求复刻。但让我们惊讶的是,Gemini 3.0 Pro 只靠简单的几句指令,就完美重现了这个复杂的 3D 交互体验。

还有一些经典的 3D 单页项目,例如这个酷炫的 3D 魔方。

▲提示词:make me a spinning rubiks cube in threejs with a dark background. add exquisite amounts of realism and detail.|图片来源:X@aryanvichare10

以及各种需要 3D 图形和动画引擎的小游戏。

▲图片来源:X@TomLikesRobots

现在再看到这些有意思的项目,也不需要愁找不到提示词了,拿起手机录个屏,或者截几张图片,丢给 Gemini,要求它复刻,成功的几率大大提升。

毫不夸张地说,Gemini 3.0 Pro 展现出的能力,已经把其他模型彻底甩开了一个身位。

做程序员,它懂代码;做设计师,它审美时刻在线;做产品经理,它逻辑缜密。从 2D 到 3D,从模仿到创造,现在的 Gemini 3.0 Pro,已经不再需要我们用复杂、冗长的提示词,去引导它理解了,而是通过强大的多模态理解和推理能力,读懂并实现我们的需求。

这种「所见所想就能有所得」的震撼,确实配得上「年度最强」这个称号。

更让人按耐不住的是,据说今晚 nano banana 2、Gemini 3.0 Flash 也要来了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Google 年度最强 AI 偷跑!一个电风扇动画引发疯传,Gemini 3要给GPT-5.1上强度了

By: 张子豪
17 November 2025 at 14:41

前几天 nano banana 2 的泄漏版本,正在网上被疯狂转载,奥特曼眼看着流量不能被 Google 再抢了去,一点预告都没有,直接就发布了 GPT-5.1。

现在,GPT-5.1 都来了,Gemini 3.0 还会远吗。

Google CEO Sundar 和 Google AI Studio 负责人 Logan,都回复了一则关于 Gemini 3 的帖子,内容显示 Gemini 3 在预测市场的发布时间,有 69% 的用户买入了这个月 22 号的时间。

Google CEO 回了意味深长的思考 emoji,毕竟在预测市场 Polymarket 上,Gemini 3 的发布时间从 8 月 31 号到年底,都有人买入,而现在除了本月 22 号,月底 30 号更是累计有三百多万美元。

▲ 图片来源:https://polymarket.com/event/gemini-3pt0-released-by?tid=1763343187680

种种迹象显示,Gemini 3.0 很有可能就在最近这周发布,并且还有机会和 nano banana 2 一起发布。它们一个是在编程、智能体、写作等通用智能上更上一层楼,另一个是延续图像编辑的强大一致性和长文本渲染。

不敢想象年底的 AI 模型更新会有多激烈。

我们之前也汇总过关于 Gemini 3.0 和 nano banana 2 的爆料,那时的 Gemini 3.0 是出现在 Google AI Studio 的 A/B 测试中,能直接给我们生成一个 macOS 的云电脑,点开 Safari 还可以直接访问网页。

▲瑞典风格的网页设计,图片来源:X@RDeepl

而最近这段时间爆出来 Gemini 3.0 的料,一个比一个厉害。指令的理解能力更强,在编程项目中展示了丰富的世界知识,还有生成的网页,风格更多元也更大胆,更实用。

大模型竞技场上的神秘模型

在大模型竞技场上,又多了一个编号为 riftrunner 的神秘模型,有网友在 battle 对战模式下,刚好测试到了它的效果。用它生成的 SVG 动画,一个比一个厉害。

下面这个能调节风速档位的电风扇,在 X 上被疯狂转载,大家都不相信 AI 有这么聪明,只用一句提示词,就能做出精美的 SVG。

▲图片来源:X@lepadphone

他还用这个编号为 riftrunner 的模型,生成了一个能同步真实时间,切换表盘颜色的手表动画 SVG。

和之前 nano banana 一开始出现在模型竞技场一样,网友们都在怀疑这个 riftRunner 就是 Google 马上要发布的 Gemini 3.0。

要想体验到它,我们不能手动选择,必须在竞技场 battle 模式中随机获得。battle 模式会给我们两个不同的答案,投票后才能知道型号名称。

为了减少反复尝试的痛苦,Flowith 的创始人还发 X,分享了通过设置浏览器 Agent 来自动投票,更快找到 riftrunner 的方法。

我们也在 LMArena 里面测试了多次,都没有碰到过 riftrunner,大概是运气都在我抽 nano banana 那会儿花光了。

继续在网上找了更多网友的分享,有人说 riftrunner 不失所望,是唯一一个解出下面这道数学难题的模型。

▲图片来源:X@Abasiono_Mbat

还有人在竞技场不断测试,做一个狐狸模型,得到了 riftrunner(Gemini 3)、Claude 4.5、以及 GPT-5 的三种对比。

▲图片来源:X@k0tovsk1y

还有应该选 both are bad,两个都很差的蒙娜丽莎 SVG 画像,即便是 riftrunner 看着也很怪,但至少又比 Claude 有更多关于蒙娜丽莎的元素。

▲左图为 riftrunner,右图为 Sonnet 4.5;图片来源:X@petergostev

以及 riftrunner 生成的,一只骑自行车的鹈鹕的 SVG。

▲图片来源:X@synthwavedd

藏在了手机端 Gemini App 的 Canvas 功能里

还有网友说,现在 Gemini App 里面的 Canvas 功能,使用的模型就已经是 Gemini 3.0 了。因为在网页端的 Gemini 和手机端,输入同样的提示词,得到的输出,质量差距很大。

▲图片来源:https://www.reddit.com/r/Bard/comments/1ovvmjo/not_hype_posting_gemini_3_is_rolling_out_to/

于是一大波网页版和手机端的对比,纷纷出现在评论区,大家都认可了,手机上的 Canvas 真的是使用了更先进的 Gemini 3.0。

最直观的例子是这个 3D 宝可梦的动图,在 Web 端生成的 3D 动图背景简单,宝可梦的形象也很抽象;手机端的色彩、背景都做的更好。

▲图片来源:X@AiBattle_

还有网友做的 Gemini 和外星人入侵的对抗的 SVG,网页版继续一如既往的简陋,而在手机上的 Canvas 明显元素更多,更丰富。

▲左图为网页版,右图为手机应用版。图片来源:X@Lentils80

以及拿手机应用中的 Canvas 和 Claude 4.5 Sonnet 来对比,输入的提示词都是,一个 3D 宝可梦精灵球。

▲图片来源:X@ctgptlb

还有人拿 Xbox 手柄 SVG 图来做测试,iOS 手机应用里的 Canvas 和 浏览器里的网页版,是完全不同。

▲左边是手机应用,右边是网页版;图片来源:X@MaximilanS638

不过,也有用户分享自己 Gemini 手机端和网页端,出来的结果是一模一样的。

▲左图为网页版,右图为手机应用版。图片来源:X@Medeenatee

我也尝试输入「生成一个 Xbox 的手柄 SVG 图」来看看两遍的结果,但是都很不理想。要不是根本不像一个手柄的图,要不然就是键位这些全部错乱。

只能说模型会出现幻觉,我们人类也可能有幻觉。大模型竞技场的神秘代号模型,还有这种靠着观察输出差异的怀疑,都不能确定是否来自 Gemini 3.0。

更确定的信息是,有网友发现,Gemini 3.0 Pro 已经出现在 Gemini Enterprise 的 Agent 模型选择器中。

▲图片来源:X@testingcatalog

不过 Gemini Enterprise 也是不对一般的用户开放,但至少可以说 Gemini 3.0 真的距离发布不远了,或者说已经准备好了。

回看过去这一年来,几家大模型公司的发布记录,GPT-5 因为营销太多被诟病,发布后网友们表示熬了这么久,「就这」;还有在社交媒体一直没什么水花,但模型广受好评的 Claude 系列;现在是后发制人,凭着 nano banana 重新回到大家视野的 Gemini。

甚至在想,如果没有 nano banana,会不会还有人只记得它之前的名字,叫 Bard。

SimilarWeb 在前几天了公布了,各个大模型网页流量的统计数据,一年前 OpenAI 的网页访问流量占比是 86.6%,到了今天虽然还稳居首位,但是已经被瓜分走了相当一部分,只剩下 72.3%。

而被分走的流量基本上全去到了 Gemini,Gemini 从一年前只有 5.6%,在 nano banana 发布之后,冲到了现在的 13.7%,直接翻倍。

要是 Gemini 3 和 nano banana 2 能稳住,再接着这波流量,下个季度的柱状图,Gemini 的颜色可能还要占据更多。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


不仅仅是编程,使用 Gemini CLI 日常指南!

By: Anonymous
26 June 2025 at 21:54

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

前几天最近随着 Claude Code 这个命令行 AI 代码工具的火爆,谷歌也耐不住寂寞推出了自己的同类产品 Gemini CLI,而且完全免费,非常顶。

不仅仅是编程,使用 Gemini CLI 日常指南!

下面会教你用 Gemini CLI 实现哪些能力:

首先他们是没有界面的,所有的操作都是在终端以命令行的方式展示。

然后就是也是 Agents 可以自动执行任务处理本地文件,同时内置了非常多的工具,比如谷歌搜索、阅读文件、查找文件、搜索文字、写入文件、保存记忆等,你输入 /tools 然后回车就可以让他列出目前支持的工具。

另外 Gemini CLI 也是支持 MCP 的,你可以安装其他的 MCP 工具帮助模型扩充上下文。

很多朋友说命令行是不是很复杂啊,我不会编程是不是会很难用。

其实并没有,如果你的网络环境正常,能够正常登录 Gemini CLI 的话,跟使用 Cursor 没有本质区别。

因为核心交互的时候还是主要为提示词输入框,命令行又不用你写,Gemini 写就行。

从这里开始我所有的演示都基于 Mac OS 的自带终端进行,Windows 大部分操作都是通用的,但是可能出问题概率比 Mac 复杂。

首先要做的第一步就是进入到我们的启动台,搜索终端两个字,搜到之后打开。

这时候你就看到一个空白界面里面写了些你看不懂的字,不要担心。

这里我建议我们想好要进行的任务之后,新建一个文件夹把需要的任务素材扔进去,然后按住 option 按键鼠标右键选择“将 XXXX 文件夹拷贝为路径名称”,这时候你就快速获得了这个文件夹的路径。

然后我们回到我们的终端窗口,输入 cd + 空格 + 你刚才复制的路径,接下来你终端的所有操作都只会影响这个文件夹的内容,不用担心把电脑搞坏。

到这一步我们终于开始安装 Gemini CLI 了,非常简单,你只需要输入下面的内容然后回车就行。

安装成功你就会看到这个界面,应该会先让你选择命令行的颜色主题,然后让你选择登录方式。

这里需要注意:终端的操作大部分时间需要用上下左右方向键来操作选项,选中之后按回车确认。

你只需要选择一个自己喜欢的主题之后,选择正常的谷歌账号登录,在拉起网页登录后关掉就行。

我这个这里已经登录了,所以没有这些选项,然后你就能看到提示词输入框了。

恭喜你到这里,你已经完成了 Gemini 的安装。

由于用的 NPX 的安装方式,所以你以后每次关掉终端重新使用 Gemini CLI 的时候都需要输入开始的那个命令,不过不用登录了,直接就能用。

另一种方法是输入下面这个命令,但是对于不会编程的人来说很麻烦,启动就是少输入点东西,输入 Gemini 就能启动。

最后由于命令行本身都是英文的,可能很多人会望而却步,这个时候你可以装个 Bob 这个翻译软件,支持划词翻译,看不懂的选项直接选中划词翻译就行。

装好之后我们可以来点基础用法了。

由于 Gemini 可以看到你的文件并且操作,而且它还有生成能力,本身模型还是多模态的,所以即使只用本身的工具也可以有很多用法。

首先是 Gemini CLI 本身支持谷歌搜索,你可以让他搜索指定内容给你写成文档,也可以对你本身的文档进行编辑。

当然搜索工具经常会限额,这个有点恶心,比如让他搜索歸藏的信息并且整理一个介绍文档。

你也可以让他分析你保存在本地的文章之后进行改写,生成新的文章。

比如我这里就让他把 Karpathy 的软件 3.0 文章改写成适合发布的博客文章,同时生成对应的推特发布版本,也可以对于会议总结之类的文档进行分析和处理。

记得我之前写的用 Curosr 这种 IDE 帮助分析 Obsidian ,把 Obsidian 当做本地知识库的方法吗,Gemini CLI 也可以,甚至更加强大。

你可以找到你的 Obsidian 文件夹打开之后启动 Gemini CLI,然后让 Gemini CLI 查找相关的内容。

比如我这里就让他检索我所有的剪藏文件,找到 MCP 相关的文章,然后给我生成一个带反向链接的《MCP 剪藏内容索引》文档,可以看到他完成的很好。

每个无序列表都有文件标题以及文章的总结,最后还有链接可以直达那个文章。

提到反向链接了,就不得不提 Obsidian 的一个知识图谱的功能,它可以把所有有反向链接的相关文档都链接起来,形成你自己的网状笔记网络,方便你学习和回顾。

但是反向链接需要你自己手动加,大部分人都没这个毅力,现在有了 Gemini CLI 问题解决了,可以让他帮你给你文件夹中的相关文档加反向链接。

不过这个需要的时间比较长,如果内容多的话可能得等一段时间。

由于本身 Gemini CLI 是多模态的的,所以你的图片也可以让他帮忙处理。

比如我打开了一个全是图片的文件夹,里面的图片名字乱七八糟的,这时候就可以让他分析图片内容之后根据图片内容给图片重新命名。

再重新命名之后我们也不能浪费他分析的图片内容。

我们都知道在训练图像模型或者 Lora 的时候需要对图像进行标注,大部分训练工具都是把标注放在一个跟图片命名一样的文本文件里,现在我们就可以让 Gemini CLI 来做这件事了。

可以看到他执行的非常完美,以往这些你还得找对应的工具,而且不好自定义要求,现在提示词就行。

Gemini CLI 除了可以读取文件和修改文件外也是可以控制系统设置的。

比如我们就可以写好自己日常对于软件和系统设置在不同工作时间的喜好,需要的时候一键完成所有操作的更改。

这里我就让他给我关掉浏览器,然后打开 Obsidian,降低系统音量,直接进入工作模式。

更进一步让他把操作写成脚本,之后你就可以直接双击脚本完成系统设置了。

我们肯定也有很多时候桌面或者文件没有整理乱七八糟。

这个时候就可以让 Gemini CLI 新建文件夹进行分类和整理。

但是这里得注意,不要让他整理过大的过于重要的文件夹,不然误删了就痛苦了。

这里我就让他把刚才的图像和标注文件新建了两个文件夹分别整理了。

上面都是些基本用法,你最近可能也看到了一些。

但是我发现结合一些本地软件,Gemini CLI 能实现对各种文件更加高级的处理,比如视频转 gif、youtube 视频下载、加水印、文档格式转换等。

这些就非常牛皮了,而且我们日常内容创作大部分都非常需要。

前面我们有了文档了,但是很多时候演示的时候总不能真给人看 Markdown 文档吧,能不能生成 PPT 呢?

可以的,朋友,必须可以,比如我这里就把前面我那个 MCP 索引文档的内容直接转换为 PPT 了。

这个依赖一个叫 Slidev 的项目,它可以用类似 Markdown 文档的格式将内容变成带有丰富样式的 PPT。

你不需要知道这个项目的细节,直接用我下面的提示词生成文件之后,复制文件到这个页面(https://stackblitz.com/github/slidevjs/new?file=slides.md)预览就行。

上面的 Slidev 不需要本地安装直接预览就行,接下来我们介绍一些需要本地安装的项目,这些本地的软件,非常强大,但是由于本身他们是没有界面的,阻碍的很多用户使用。

但是有了 Gemini 之后一切都解决了,提示词可以直接转换为驱动他们的命令行,也可以用提示词直接安装他们,你直接用就行。

首先先介绍一下 ffmpeg 这个项目,给予他你可以实现非常强的视频编辑能力,理论上剪映之类的视频编辑软件都是基于这个完成的。

你可以对本地的视频进行拼接、剪辑、增加文字、转换格式、转换分辨率、增加音乐,基本上你能想到的视频编辑能力他都能做到。

首先我们需要大概你需要处理视频的的文件夹,然后启动 Gemini CLI 第一个命令是让他安装 Homebrew。

然后安装完成后,让他用 Homebrew 帮你安装 ffmpeg。

看到没,跟网页哪些乱七八糟的要求都没关系,你只需要说两句话,就全部安装了。

然后我们就可以爽用了,先给我们指定的视频加个水印试试。

可以看到新的视频右上角果然有了一个水印,这种言出法随的感觉谁不喜欢,你不需要了解原理,你就只需要知道所有的视频编辑他都能帮你搞定。

然后我想要给视频配乐也可以,你只需要告诉他视频文件和音乐文件的名字就行,我甚至让他给音乐加上了淡入和淡出。

他先是获取了一下视频的时长,然后就开始操作了,然后搞定了,非常完美,严丝合缝,淡入淡出也加上了,可以看剪映界面预览的频谱。

我们很多时候需要把视频转换为序列帧,然后拿其中一帧进行处理,或者处理所有的帧,以前你是不是还得到处找这种工具,而且转换效果不一定好。

Gemini CLI 一句话就能搞定,处理的又快又好,而且节省了用网页工具上传下载的时间。

另一个常见的任务就是视频转 gif,尤其公众号有 10 个视频的限制,很多时候迫不得已得转成 gif 发布。

Gemini 捕捉到了高品质这个关键词还制作了调色板保证颜色还原度,最后处理的非常完美。

像 ffmpeg 这种宝藏项目还有很多,比如 yt-dlp 这个项目跟 ffmpeg 配合几乎可以下载你能想到的所有视频平台的视频。

我们还是可以让 Gemini CLI 帮我们安装 yt-dlp 这个项目就行。

然后直接提供视频链接他就会帮你下载,甚至可以批量下载多个视频或者一起连封面和视频一起下载,再也不需要忍受那些工具的垃圾网速了。

处理视频我们有 ffmpeg 这种项目,当然图片也有。

ImageMagick 是一个极其强大的工具集,你可以用它来转换格式、缩放、裁剪、旋转、添加滤镜、组合图片等等。

依然是老一套,先让 Gemini 帮我们安装

先来一个常见任务,我们设计师做外包经常用,在没结款之前给甲方低分辨率和带水印的图片,现在就可以直接批量完成。

这里我让他把所有图片宽边调整为 800 PX,然后统一加上带“内部资料”文字的水印。

中文的水印有些问题,后来改成英文就 OK 了,而且出错之后他自己开始用多模态能力检查修改后的图像了,发现 10% 不透明度的文字不明显,又自己重新改了一下,太聪明了。

然后再来一个常见的图像拼接需求,这种在媒体上发消息的时候经常需要,尤其是推特。

搞得不错,这几张图比例不同,所以没有对齐,可以在命令上加上统一比例这种要求就行。

文档格式转换也是常见的需求,相当多的公司工作文档还是 word,很多时候我发过去 .md 文件那边都不知道怎么办。

首先还是让 Gemini CLI 帮我们安装。

这个时候我们就可以利用 Pandoc 这个项目进行各种文档格式之间的互相转换,当然批量转换也是可以的。

可以看到转的很好,Markdown 的一些基本格式也都迁移了,不管是加粗还是无序列表有序列表。

好了教程到这里就结束了。

你可以用 Gemini CLI 控制这些已经非常成熟的命令行项目,基本上你所有的需求都能找到对应的项目。

不是只有 MCP 才能做 Agent,这些传统工具在有了 LLM 加持之后会更加强大。

看到这里,你可能会突然意识到:原来那些让我们望而却步的专业工具,其实一直都在那里等着我们。

史蒂夫·乔布斯说过的一句话:”技术应该是隐形的。” 今天的 Gemini CLI,正是让那些强大的命令行工具变得”隐形”——你不需要理解它们的工作原理,只需要说出你的需求。

更重要的是,这种改变不仅仅是效率的提升,而是创作门槛的彻底消失。

所以,如果你还在犹豫要不要试试 Gemini CLI,我想说:别让”我不会编程”成为你探索新世界的借口。 因为在这个新世界里,你需要的不是编程能力,而是想象力。

那些曾经高高在上的专业工具,现在都在静静等待着你的一句话。而你要做的,就是勇敢地说出你的需求。

因为最好的工具,是让你忘记它是工具的工具。

白嫖Gemini_API搭建个人AI助理

By: wayen
8 March 2024 at 20:19

白嫖Gemini_API搭建个人AI助理

发表于|更新于|实用教程
|字数总计:443|阅读时长:1分钟|阅读量:

说明

本次搭建过程分为两步,第一步获取Gemini_API_Key,第二步搭建适用Key的程序,不考虑Key泄露第二步完全可以省略。
示例: https://chat.xml.wiki 访问码: xml.wiki(输入访问码即可直接试用)

Gemini_API_Key

ChatGPT-Next-Web

有许多程序可以使用Gemini_API_Key,在此只介绍ChatGPT-Next-Web的搭建。事实上你也可以直接使用别人搭建好的,在不输入访问码时将自己的Key填入设置即可。ChatGPT-Next-Web可以使用Vercel、Docker和CloudflarePages三种不同的方式搭建,见官方教程,本节复述CloudflarePages搭建教程。ChatGPT-Next-Web也提供了桌面版本,下载点击安装即可使用。

  • 打开https://dash.cloudflare.com,点击左侧Workers和Pages下的概述
  • 点击创建应用程序后点击Pages连接到Git
  • 链接你的Github账号,选择你Fork的项目后开始设置
  • 项目名称和分支一般默认即可,其他未提及项默认即可
  • 框架预设选择Next.js,构建命令填写npx @cloudflare/next-on-pages@1.5.0
  • 点开环境变量(高级),挨个复制以下内容
    1
    2
    3
    4
    5
    6
    7
    CODE = xml.wiki    #访问码,即登录使用的密码
    CUSTOM_MODELS = -all,+gemini-pro #选择使用的模型
    GOOGLE_API_KEY = ****************** #Gemini_API_Key
    NEXT_TELEMETRY_DISABLE = 1
    NODE_VERSION = 20.1
    PHP_VERSION = 7.4
    YARN_VERSION = 1.22.19
  • 点击保存并部署后立即取消部署
  • 来到你部署的这个项目的设置->函数->兼容性标志
  • 分别在配置生产兼容性标志配置预览兼容性标志两项中填写nodejs_compat
  • 点击部署选择重新部署即可,等待部署完成即可访问
文章作者: wayen
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Wayen

评论
数据库加载中

❌
❌