Reading view

There are new articles available, click to refresh the page.

用ChatGPT新功能修了张图发朋友圈,结果私信全在问怎么做到的?

在今天凌晨 OpenAI 发布新一代文生图功能的时候,大家还不是很清楚它的实力,还以为是跟在 Gemini 后头,带来一些迟到的升级。

GPT 不语,只是一昧地让用户案例震惊全场。

在最新的迭代中,OpenAI 带来了文生图功能上,突破性的指令遵循和一致性表现。只需最简单的文字 prompt,就可以实现高精度的图片细部微调——一切修改只需要在会话当中进行,无需任何按钮、笔刷等额外操作。

魔法不用笔刷,只用咒语

和 Gemini 类似,这次 OpenAI 的更新,重点不在于能做多写实、多复杂的图片,而在于指令遵循和一致性,并且是在只使用自然语言指令的前提下。

先来看一组比较入门级的食物照片,prompt 也非常简单:generate an image of coffee and bread。

随后,在原图的基础上要求改成冰咖啡、涂果酱。

除了杯柄之外,该加的加,该留的留,指令遵循非常出色。

涉及到人像的图片,也有稳定的表现。

仔细看的话,还是有一些小地方是在变动的,但最关键的人体动作、衣服皱褶、表情,都没有瑕疵。

在这组图的时候,碰到了内容风控,报错称不符合政策要求。不过,它理解到了原指令的意图,提出了修改方案。

这最后一张,也是生成效果最好最自然的一张。

画面内容简单的任务自然是手拿把掐,那么复杂一点的呢?

之前在 Gemini 的生图测试中,我们出过一张城市街头景象,效果非常惊人,再看一遍:

同样的 prompt,给 ChatGPT 执行,在画面效果上稍微差了一点,尤其是到夜晚这张,几乎已经看不到人群细节了。

当然这个问题比较偏向于是审美不同,在对关键元素的识别上是没问题的,甚至能捕捉到「茑屋书店」这样小的细节,字体生成也挺稳的。

除了直接用文字生成,还可以上传图片进行修改——这里,最震撼的一集来了。

在上传了 png 格式的 APPSO 标志之后,第一步简单的变个 3D 立体。

效果还可以,阴影方向不一致,但符合光线本身即可。接下来再做点调整。

震撼!这两次调整的 prompt,不过是二十来个字而已。

(甚至默认数码产品都是 Apple 的,一些没有说的属性真是偷偷藏不住呀。)

随后的小角度微调也很准确。

▲ Prompt:调整角度,使红色logo变成正面,其余保持不动

细节微调是这次更新非常大的亮点,能够准确将指令与相对应的细部关联起来,从而完成精确的局部修改。

▲ Prompt:调整角度,镜头从右前方拍摄,整体光线变暗,一束强光从右侧打亮机器的一部分,旁边搭配咖啡豆

指令中包含了光效、镜头角度、元素增补等关键内容,模型能够准确识别,而且整体性地进行调整。指哪改哪四个字,都已经说倦了。

这次的更新中,最意外的应该是在同一个会话中,生图和生文迅速切换的能力。

比如在下面这张图中,最早的指令是生成一个礼物包装指南。

首先给出来的是一个图文版——不算是错,我没有指明是要做图文版,还是文字版,指令是很模糊的。

在生成文字版之后,ChatGPT 主动询问是不是要做图文版,在收到确认的答复之后,给出了图文并茂的版本。

这意味着模型的准确反应,不仅体现在理解单一指令上,也体现在领悟用户潜在意图上,比用户「多想一步」

实际上,这也是此前 Deep Research 发布时就展现出来的能力。OpenAI 的深度检索,是少数会主动向用户询问、明确任务执行细节的模型。

类似的能力,这次迁移到了生图当中,从使用感受而言,比在 Deep Research 上的更直观可感。

例如可以用来制作日常的告示说明,图文一锅都「端」了。

 

整体来看,这次最惊人的肯定要属一致性和指令遵循的同步到位。

按照惯例,每次测评都应该有一些「使用指南」——这次真的没有发现什么注意事项,一切只要按照自己的想法,敲击键盘,输入文字,就行了。没有什么「技巧」或者「窍门」。

通过 prompt 生图及改图的一致性,是文生图非常关键的问题,它既跟模型能力相关,又和工程能力相关。在指令遵循和一致性有这么大的进步之前,主要是通过 prompting 来解决的,压力是在用户这一边

所以会有各种各样的 prompt 模版、攻略,教大家怎么「跟模型打交道」。但那不是自然语言交互应该有的状态,模型在面对人的时候,接受的就是用户最直接的指令——让人先学一通怎么写 prompt,着实很劝退。

Gemini 和 OpenAI 近期的更新,让热度有所降低的生图赛道又重新热闹了起来。它们也展示出了同一个共同点:一些修图改图产品,通过增加按钮、入口,来增加生图的可操控性,以此来对抗模型幻觉的日子,已经远去了。

一致性的问题解决的并不仅仅只是图片生成的问题,更加是「使用图片生成功能」过程中的小麻烦。某种意义上,也是一种工程层面的优化。

修改、生成都是可以用模型对文字指令的准确理解来实现——在这个层面上,「模型即产品」仍然成立。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


三个亿砸广告不如下乡刷墙?别再问为啥你奶也玩上AI了

前阵子 Manus 出圈的时候,邀请码制度引发了一阵对于 AI 产品营销的讨论。再往前,还有过「国产 AI 的钱都花在投放上」的讨论。

正当所有人都在讨论花钱投放值不值的时候,元宝,以一种截然不同的姿态站了出来:


这就到了开始走下沉路线的时候了……?

看上去很像整活儿(实际可能也是整活),但要说不说,下沉路线并非想象中的那么离谱。

斯坦福大学最近发布了一项研究结果,分析了 2022-2024 间,多达上百万条数据集。这也是 ChatGPT 发布之后,大语言模型快速走入生活的两年,在各个人群中都快速渗透。

其中,撰写产品和服务投诉是一个 AI 可以发挥大用处的场景。斯坦福的研究人员调用了一个公开数据库,里面是美国消费者金融保护局维护的投诉数据,专门收集针对金融产品和服务的投诉。

研究人员发现,受教育程度较低的地区,有更多消费者借助 LLM 工具撰写投诉内容。虽然整体的采用率,还是城市地区更高(18.2%,对比农村地区的 10.9%),但是相比之下,受教育程度较低的用户,更倾向于使用 AI(19.9%,对比受教育程度更高地区的 17.4%)。

元宝的下沉路线投放,说不定是 next level,站在大气层也说不定呢?

曾经的 AI 营销:大力出奇迹

AI 产品在营销上,或多或少都有些「土味」操作。比如曾经投放力度冠绝群雄的 Kimi,就尝试过各种类型的推广。

比如电梯里的视频广告,暴力循环,洗脑型推广。

小红书网友锐评:被 AI 省下的脑力,终归是要还的。

还有官方下场打捞由用户做的动态视频。

Kimi 的推广风格跟它的产品定位分不开,主打城市白领人群,而且非常强调年轻、整活。

这种思路更多是利用了用户对「与非人类」交互的本能好奇,把聊天机器人人格化,把生成式算法包装得既有实用价值,又能提供情绪价值。

使用这样一款产品,就成了一种「身份标识」。思路不算新,但配合大规模大手笔的投放,曾经还是横扫了一大批用户的。

不过,论推广,没有谁比背靠鹅厂的元宝更无孔不入。短短的两周,曾经存在感一般的元宝,被一下子捧到了台前,而且是用尽一切方法的强捧。

从看广告下,下 App,拿奖励。

到开屏弹窗。

再到把下载链接放在微信搜索框里、朋友圈里、公号推荐流里,只有你想不到没有它做不到。路人被轰炸到要问一句:到底什么是元宝?

这一波投放,据说两周内花了三个亿,调动的腾讯系 app 不计其数——去农村刷墙,小菜一碟啦。

没有需求,就创造需求

在元宝上,我尝试问了一些农作场景的简单问题,比如「种植水稻,遇到强降雨怎么应对?」以及「母猪的产后护理有哪些注意事项?」


看上去还挺全面,但究竟是不是对的,只能专业的养殖户才能看得出来。就像让它做 excel 表格、word 修订这些我特别懂的任务,我一眼能看出问题来。但对于不够了解的领域,只能将信将疑。

这和模型的能力并不完全相关。元宝接入了 DeepSeek 之后,提高了生成的质量,并且提供了清晰的思维链过程,引用链接这些也更清楚了。

农作是一件相当依赖经验的事,对天气、季节、虫害的处理经验,很多并不是写在网上,而是记在农民脑子里。

2016 年时,安卓操作系统上有 561 个与农业食品相关的应用程序,iOS 操作系统上有 589 个。那时候就有不少大公司希望能给农业生产提供帮助,拜耳在德国推出过一款应用程序能识别不同农作物中两百多种有害生物和疾病,还能提供有效的控制措施。巴斯夫在英国推出了杂草识别,主打功能是鉴定出 140 种杂草。

可以看到,图像识别和深度学习等技术,进入农业生产的时间,比大众想象的要早很多。然而这实在是一个依赖经验的领域,农民真的会在种植水稻的时候,萌发去「问下 AI」的需求吗?很难想象。

然而这些技术手段,是不是真的能造福下沉市场,并不是重点。

斯坦福的研究里发现,受教育低的地区,使用 AI 的频率更高,乍一看很「反直觉」,但并不难理解:其它数据没有明显差异的情况下,它意味着这样一群用户,更容易依赖 AI。

在研究里对比了几个不同维度的数据,在 2023 年年初,城市地区和农村地区的差距并不大,但越往后,城市地区的均衡水平为 18.2%,城市化不高的地方仅为 10.9%。

也就是在城市地区,有更多的人使用 AI 工具,而农村地区相对较少——可是他们的使用频次高。

将地区与州平均水平的学士学位获得率进行比较,教育程度较低的地区到了 2024 第三季度,使用频次依然稳定在约 19.9%的水平。

看来是真好用,一用就放不下了——这可能才是刷墙的真正用意,所谓的占领用户心智。

元宝可能也很清楚这一点:现阶段的 AI 产品推广,只能通过符号化营销,凭空「创造需求」。「农村包围城市」的路线,对于 AI 应用的营销策略而言,未必就有效,只是需要这种方式打出声量。

技术复杂性,一定程度上让符号化成为必要手段。早期智能手机推广时,会把「移动设备」简单转化为「能看电影的手机」。毕竟要解释前者的话,得浪费不少口舌,可能还吃力不讨好。

对尚未体验过的服务,用户是缺乏需求想象力的。尤其在生成式 AI 身上,相比于工具化的软件、应用,效率的提升好量化,现阶段 AI 的「智能」程度缺乏普世度量标准,更缺乏具象的需求想象。

符号化的营销方式,主动建构、填补需求空白,从而让用户和产品建立关系。这是目前 AI 应用推广的「基础操作」,每一步既是因也是果。

不过这里有一个因素没法被左右:技术本身。去年上半年,谁能预计到年尾会闯出一个 DeepSeek,直接杀死了比赛。

到底能不能真正让产品和用户建立关系,冲破时间和使用习惯,只能由技术本身的进化决定。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


「工程的胜利」不仅在 Manus 自身,而是让整个智能体生态真正走上舞台

自从发布以来,Manus 经过了一个堪比过山车的传播历程。

从一开始的惊艳,到被加速捧至高点,再到遭受套壳、营销的批评,一切都发生在短短一周内。

在各种各样的声音当中,我们找到了和 Manus 最为相关的一群人:正在参与 agent 以及配套设施的开发者们,聊了聊他们眼中的 Manus——不讨论营销和争议,仅仅是技术层面。

结论并不复杂:Manus 无疑是一款优秀的产品。以「套壳」为理由来否定 Manus,是它的无妄之灾。

同时,「缝合」一词,也并不公允。一个通用型 agent 的能力和潜力,不仅体现在链接了多少工具,更在于对于 agent 本身的认知。

那些围绕营销和套壳展开的争议,指向的是一个问题:Manus 的价值到底是什么?

横空出世的「全球首个」

快忘了上周盛况的朋友们,这里有一个快速回顾:3 月 5 号深夜,Manus 上线内测,在官方展示的视频中,放出了好几个原本只在 PPT 中才会出现的精彩使用案例,无一不展现出 Manus 独特的任务理解和执行能力。

老实说 Agent(智能体)并不新鲜,但 Manus 打出「全球首个通用型智能体」的说法,掀起了前所未有的讨论浪潮,也让「通用型 agent」走到台前。

由于内测使用需要申请邀请码,且发放速度慢,一时间造成了哄抢的局面——用例有多惊艳,用不上的人就有多焦虑。

这种邀请码的机制,阴差阳错地把 Manus 推到一个近乎诡异的热度,甚至被称为「又一个 DeepSeek 时刻」。

DeepSeek 是模型,Manus 是智能体,是截然不同的两种产品。然而某种程度上,二者的历程,确实有相似之处。

DeepSeek 做的是模型,但它并非是从零开始,而是在一系列已有的开源工作上,实现了工程上的胜利。

类似地,Manus 实际上并非第一个做通用型 agent 产品,在 2023 年同类产品就涌现过一轮。Manus 本身也从大量开源工作中获得帮助,团队此前曾经打造过 monica,一款集成式 AI 助手,积累了丰富的 agent 工程经验。因此,Manus 也同样被视为一种工程上的胜利。

工程上的胜利究竟是指什么?

这个问题必须回到「通用型 agent」是什么这个根本源头上。

人跟动物之间的区别在于制造和使用工具,这句话,放在 agent 身上也成立——普通 agent 和通用型 agent 的区别在于,后者能够主动调用工具。

「很多人觉得 agent 就是原来的对话机器人,接上数据库,就叫做 agent。实际上,一直以来 agent 的定义都是需要能使用工具,能真正的有所行动。」 William Lee 解释道,他从去年开始和创业团队一起开发针对 agent 的中台系统 ACI.DEV,就是在为 agent 类产品提供尽可能便捷的 API 调用服务。

在具体的产品使用上,工具调用能够把 agent 的能力边界,再推得更推远一些。活跃在 agent 开发社区的坚白,见识过 Manus 在执行上的能力:剪视频。

「剪的效果怎么样另说,但是它可以去做到,可以完成,不会拒绝你。」

原理并不复杂:剪辑的动作,可以在一定程度上以代码的方式来实现。又或者,一些在线工具可以被调用出来,完成剪辑的动作。

这样完成的剪辑当然是粗放的,成品跟人工剪辑无法相提并论,但就像坚白所说,Manus 不会拒绝这个要求,而是会主动寻找工具完成。「在过去的应用里,agent 可能会推荐给你一个剪视频的网站或者工具,但没有这样端到端的结果。」

他认为这反应了 Manus 团队的认知,是在一种更有高度的位置上。「我认为他们把代码,包括整个代码的运行环境,更多作为工具,而不是目标。」

曾经一些类似的项目,给出一段代码或者设置虚拟机,就已经是最终目的。而 Manus 的理解是,设计虚拟机跑代码,只是实现方式,它们是为了完成某种目的而存在

「我觉得是他们在认知上有领先」,坚白说,「大家都在说要把 agent 当成人看,但他们真的是认真思考了 agent 如何作为一个主体。」

Key differentiation

那么,虚拟机是那个让 Manus 脱颖而出的设计吗?

「虚拟机不是一个 creative 的设计,」同样是在做通用型 agent 产品的郑浅解释。

郑浅所在的公司 Convergence.ai,在 1 月时推出了同样属于通用型 agent 的产品 Proxy,在 webvoyage 基准测试中险胜 OpenAI。

不久前 Proxy 登上 Product Hunt 榜单,郑浅忙着带领工程团队应对突然涌来的流量。他们面对的是海外市场,可见通用型 agent,在海内外都是被寄于厚望的 agent 形态。

「OpenAI Operator 就是虚拟机,Manus 是给 browser use 之后,加了一个 coding execution,然后放到一个虚拟机里面去实现。」

Browser use,是一个在 Github 上获得了 4 万星的开源项目,它相当于把网页浏览器放在了 agent「眼」前结合了大语言模型以及视觉识别。用户只需要通过自然语言,就能让智能体对网页上的元素进行实际操作。

早期 Proxy 也尝试过类似 browser use 的路线。「通过这种方式帮用户做点击、拖动等等的动作。整体是比较简单直接的,只需要用户给一个任务,它一步一步去执行。」

这个形态比较线性,无法胜任更复杂的任务。或者说,当任务的复杂程度上升,需要用户给出更有细节的指令,反而成了对用户的挑战。

「我们公司算开始得比较早,跟 OpenAI 和 H Company 他们也比较多交流,后来 OpenAI Operator 出来,agent 一下就变火了。大家很快就往一个新的东西上面去靠拢,就是 agent orchestrator。」郑浅非常明确,「可以说 general agent 真正的区别,不在于缝合了多少工具。」

建设一个普通的 agent,可以用「缝合」简单粗暴地概括。但是要建设一个 general agent,必须是一个系统工程。

「你可以把 agent 想象成一个人,最复杂的部分在于核心决策系统——就是大脑和神经传输。其次复杂的是执行构建,比如说相当于人类的四肢与末端。至于你刚才提到的生成报告、浏览器交互、代码执行等功能模块,本质上属于工具链层面的能力。」

人并不是生下来就会走路的,婴儿只会胡乱挥舞手脚,然后会爬、会站,磕磕绊绊地学会走路,最后学会精准地控制自己的四肢。

整个学习的过程,也是大脑逐渐成熟的过程。Proxy 的绝大多数工作都在围绕这个「大脑」展开,具体而言,是 planner agent 所负责的动态规划。

「有一个调侃是,规划不能预测未来:规划可以做的很好,但你不知道未来会发生什么。放在 agent 上面也是一样的,比如说它浏览某个网站,碰到无法打开的情况,比如改版啊或者域名过期,或者直接关停等等,那这时候 agent 该怎么做,这就需要动态规划。」

▲ Manus 实测中,碰到网站登录及验证问题

一个典型场景是验证码,Proxy 和 Manus 可以解决一些简单的验证码,但太复杂的还是需要交回给用户,也可能被直接跳过。

郑浅解释难度藏在细节里,「都是细节,而且情况非常多样。如何在规划上去实现复杂任务,同时又能回传——用户基数一大,做什么千奇百怪的事情都有,如何覆盖各种各样的场景是很大的难点。」

现阶段 Manus 并非尽善尽美,但它足以作为一个工程启示录。「它主要的成功之处,确实就是在工程上面」Wiilliam 非常认同这一点,「它结合了市场上已有的模型,很好的跟工具做了对接,然后让用户第一次看到,真正可以调用工具的 agent 到底能做出什么样的效果。这样子我觉得百分之百是工程上的胜利。」

真正的胜利属于生态

Manus 正像是那个正在学走路的幼儿,它能够造成巨大的讨论,并不在于它已经能走多远、跳多高,而在于展示出了足够的潜力。

这或许才是它最大的贡献:Manus 的走红,让一系列与 general agent 类的应用,乃至基础建设的工作,都渐渐浮出水面。

最新的进展是 OpenAI 推出了 Responses API,这是一个面向开发者,而且就是 agent 开发者的新发布。

在开发者社群里,Manus 更加是激发了许多想法。坚白正在做和 agent 记忆相关的项目,Manus 的出现让他开始重新思考记忆储存相关的范式。

记忆储存对于 agent 的实际工作至关重要,这不仅影响着 agent 能否从过往任务里学习到经验并沿用,也影响着能否形成关于用户使用习惯的记忆,真正做到个性化。

另外,通用型 agent 在理论上有着最大的自由度,可以链接和调用任何工具——在延迟、接口标准化等方面足够好的前提下。这正是 ACI 这类中台型产品,所想要提供的服务。

这可能是 Manus 最成功的一点:它作为现阶段通用型 agent 最出圈的案例,为一系列配套设施打开了想象和探索的空间

「其实通过 Manus 可以看到,现在模型已经跑在工程的前面很多了。」William 认为工程方面还有很多可以探索的空间,「我们还可以在工程上面继续做点什么,来拉高这种 AI agent 产品的效能。我个人的看法是现在 agent infrastructure 这一端的话都还是挺不成熟的,包括像我们这种工具调用平台,或者是说这种 memory layer,这些在工程方面都还有很多方向是可以优化的。」

这也是我们跟开发者社群接触下来最大的感受:他们感到兴奋与跃跃欲试。「通用」两个字所包含的可能性,前所未有的生动

Proxy 马上要基于新的 parallel agent 思路,推出迭代的版本。郑浅一直在观察社群的反馈,他看到许多用户把 Proxy 用出了自己根本没想过的方式,不断被挖掘出新的可能。

「大多数产品最后的使用目的,都不太会是一开始开发的目的,可能后面是由用户来发现我们没有发现的用途,我们也在等待那一个 moment 的到来。」

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌