Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

豆包手机助手让海外炸锅,歪果仁:这是第一款真正意义上的智能手机

By: 李超凡
8 December 2025 at 17:00

没想到在华为 Mate 80 系列、三星首款三折叠接连发布的一周里,最火的会是搭载豆包手机助手技术预览版的中兴 nubia M153。

发售即售罄就不说了,首批工程机在二手平台上普遍加价数百元转卖。相比官方 3499 元的定价,市场需求确实旺盛。

尽管豆包手机助手官方多次强调,目前的技术预览版并不面向普通的消费者。其定位更像是一个技术展示和生态探索的实验田,吸引开发者和技术发烧友参与体验。

但这根本挡不住大众体验的热情。除了点外卖发帖子这些基操,还有网友用它 10 分钟投了 30 份简历。

不过争议也随之而来,微信、淘宝等一众 App,开始通过「环境异常检测」等门槛把豆包手机助手拦在门外。

官方目前也调整部分 AI 操作手机的能力,官方表示希望「推动形成更清晰、可预期的规则」,避免一刀切否定用户合理使用 AI 的权利。

罗永浩则发文力挺,称这是谁都拦不住的技术革命,将来人们会记住这历史性的一天。荣耀表态欢迎,而魅族厂商则表示期待深入合作,打造更繁荣的生态。

而在国内出圈后,豆包手机助手甚至火到了海外,在 X 平台上,一堆老外都在疯狂讨论这事,甚至有人直接给它冠上了「另一个 DeepSeek 时刻」的称号。

海外网友:第一款真正意义上的智能手机

这评价,可不是随便给的。

雪牛资本(Snow Bull Capital)CEO 泰勒·奥根(Taylor Ogan)直接在平台上发了一长串体验报告,兴奋劲儿都快从屏幕里溢出来了。

他的评价很直白:这是全球第一款真正意义上的智能手机。

在豆包手机助手的协助下,AI 能完全控制手机——能「看懂」界面、自己选应用或下载 App、点击按钮、输入文字、拨打电话,甚至还能执行一整串多步骤任务链。

拿到手机后,他整了不少花活儿。比如随手拍张蔚来换电站问「这是啥」,AI 秒答。

拍个酒店门口,豆包不仅能识别出是哪家酒店,还能根据 Ogan 的需求预定房间,并查询宠物政策。

打辆无人驾驶出租车去公园,豆包能够规划好路线,用最近的上车点完成预约。Ogan 全程只需要用语言表达意图,其它都交给豆包。

用它下单两杯饮料后,外卖无人机很快就把订单飞送到附近储物柜。

走在街上, Ogan 拍了家新开的店,问它是不是本地的品牌,豆包也能查询工商和商标信息,然后果断回答:「是的」。

全程 AI 自己干活,人就负责躺平。

一顿丝滑操作下来,海外网友们大为震惊。

随便翻翻评论区,清一色的点赞声。有网友感慨:「此刻,操作系统变成了管家,手机变成了执行者,而不再只是工具。」有网友猝不及防地表白:「我本来就喜欢豆包,现在更爱它了。」

还有网友直接化身「哇塞哥」:

这是下一级别的东西。我在企业级见过类似的东西,Agent 控制你的 PC 并执行任务,但在手机上有这种技术真的很有意思。想象一下,当谷歌开始在 Pixel 设备和几乎所有 Android 手机上这样做时会发生什么……

Pixel 内心 belike,不对劲,怎么感觉有人在点我?

当然,质疑声也有。有人问:「但它真的智能吗?这模型能在设备上本地运行吗?」Taylor Ogan 的回应是:「它太智能了。你可以选择在设备端运行或云端运行。」

在 Reddit 平台上,讨论同样火热。

有网友表示:「只要这些功能是设备本地的(不使用云服务),并且使用是可选的,我就支持这个。」还有网友一针见血地点出了 AI 的真正意义:「这就是 AI 应该做的事情,为个人节省时间,而不是试图消除个人的价值。」

有一说一,在豆包手机助手发布之后,网友分享在 X 平台上的玩法,也是一个比一个「邪修」。有用豆包点咖啡,也有让豆包 AI 操作安卓机,模拟人手滑页面,主打一个全流程自动化。

还有网友用豆包手机助手下单买了个椰子,由于没够起送价,豆包贴心地帮博主选了一个 1.99 元的一包食用盐来凑单。

APPSO 在之前对豆包手机助手的体验提到,我最直观的感受是,手机变「薄」了,它把各个 App 的能力都「拍扁」了,交互更加自然、直观和高效。

问题来了,这是怎么做到的?这和「phone use」智能体又有什么不同?

在用了一周豆包手机助手后,APPSO 也扒出了背后更多的技术细节。

我扒出了豆包手机助手操作手机的秘密

在豆包手机助手发布之前,手机行业其实已经折腾 AI+ 好一阵子了。

手机硬件厂商试图通过系统层级的 AI 能力,打破应用间的壁垒,实现「一句话办事」。比如华为、小米、vivo、荣耀等主流手机厂商的 AI 智能体,都曾在不同场合展示过自动发送消息、执行多步骤任务等功能。

这些演示虽然在具体场景和实现方式上略有不同,但核心逻辑都是一致的:通过 AI 大模型理解用户意图,并结合模拟用户操作,从而实现跨应用的自动化任务执行。

听着挺玄乎,但实际体验嘛……咳咳,还是有不小的提升空间。

而豆包手机助手的下场,进一步掀起了全网的讨论。更重要的是,根据我之前的体验,豆包手机助手的确是真正意义上把 AI 操作手机这件事做到了可用级别,不局限于几个场景,而是能够流畅自然地通过图形界面操作完成长任务、复杂任务。

APPSO 在知名预印本平台 ArXiv 发现了一篇由字节团队发布的技术报告,里面的信息或许能解释其中的关键原理。

附上地址:https://arxiv.org/abs/2509.02544

豆包手机助手的图形界面操作能力,来自字节跳动 Seed 团队开发的 UI-TARS 模型。它把屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一起,其开源版本是目前最受欢迎的开源多模态智能体模型。

根据 UI-TARS 2.0 技术报告,这个模型的厉害之处在于,它不是简单的模块化拼凑,而是采用了端到端的学习方式,将感知、推理、行动和记忆整合在一起。

数据不会骗人,在 GUI 基准测试中,UI-TARS-2 的成绩相当能打:

  • Online-Mind2Web 得分 88.2,
  • OSWorld 得分 47.5,
  • WindowsAgentArena 得分 50.6,
  • AndroidWorld 得分 73.3

这些成绩不仅明显优于前一代模型,还在多个场景中超越了 Claude 和 OpenAI 等强劲基线模型。其中 AndroidWorld 的 73.3 分更是比 OpenAI CUA-o3 模型高出 20 多分,展现出强大的竞争力。

在游戏环境中,UI-TARS-2 在 15 款游戏组成的测试集中取得了平均标准化得分 59.8,约为人类水平的 60%。相比 OpenAI CUA 和 Claude Computer Use,UI-TARS-2 的表现分别提升了 2.4 倍和 2.8 倍。

这是什么概念?就是 AI 打游戏已经快接近普通人类玩家水平了。

在 LMGame-Bench 中,它依然能与当前最前沿的闭源模型掰手腕,进一步证明其在长时序游戏推理中的稳健性。

更厉害的是,UI-TARS-2 不仅能处理 GUI 任务,还能通过 GUI-SDK 扩展能力,与系统级资源(如终端和外部工具)集成。在信息检索任务(BrowseComp 29.6 分)、软件工程任务(Terminal Bench 45.3 分、SWE-Bench Verified 68.7 分)上都有竞争力。

一个模型走天下,这就是通用性的体现。

值得一提的是,通过接近豆包团队的人士透露,豆包手机助手用的 UI-TARS 是私有模型版本,性能比开源版更强,还针对手机场景做了专门优化。这或许也解释了为啥豆包手机助手实际体验这么丝滑。

豆包手机助手,确实有点技能在身上的。

写在最后:科技产品的「异类」可以多一些

作为一个长期关注科技产品的编辑,今年令我十分感慨,在这个恨不得把「万物皆塞入手机」的行业,却出现两个异类,分别在设计与交互的维度上,走向了极致

一个是 iPhone Air,当 Pro 系列不可避免地走向堆料的终局,这种对轻薄的偏执,在参数党眼中或许别无他用,甚至让人一时分不清这是倒退还是进化,直到你把它握在手里,原来,轻盈本身就是一种功能。

而豆包手机助手则站到了交互界面的另一个极端,它不要你去找服务,而是让服务来找你。甚至要掀了 GUI (图形用户界面)的桌子,有一天那块屏幕可能都不是必需的。

一个是硬件,一个是软件,但它们殊途同归。iPhone Air 削减了物理上的累赘,豆包手机助手剥离了交互上的繁琐。

你会发现,当 AI 公司参与到硬件的设计中,他们对交互设计的思路都和传统硬件厂商有所不同。

OpenAI 也正在和前苹果传奇设计师 Jony Ive 打造 AI 硬件,Sam Altman 就曾透露这块设备希望重新定义交互:不需要一堆 app,而是 AI 作为主界面与操作层。

当然,历史告诉我们这类新技术落地必然面临阵痛:适配、隐私、生态……还有各方利益的博弈。先进技术和广泛应用的「双向奔赴」尚需时日,但也是大势所趋。

OpenAI 联创 Andrej Karpathy 前段时间也表达了自己对交互未来的预判:

人机深度协作的时代,那些用户界面(UI)极其复杂(有大量滑块、开关、菜单)、不支持脚本、并且建立在不透明的、自定义的二进制格式上的产品,注定是死路一条(ngmi)。

未来,AI 在理解和操作人类图形界面(UI/UX)方面会越来越强(比如像 Operator 这样的前沿项目),但我怀疑,那些只想坐等这一未来实现,而不主动与当前技术发展水平「双向奔赴」、做出改变的产品,它们的下场不会太好。

敢于吃螃蟹这件事本身,就已经算是值得瑞思拜了,我们也希望看到更多「异类」出现在科技行业。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


亚马逊云科技最强 AI Agent 阵容发布,设计火箭也不在话下

By: 彭海星
5 December 2025 at 16:24

顾名思义,re:Invent 不仅是亚马逊云科技年度峰会的名字,更是其每年向外界传达的核心:在这个行业,唯一不变的就是不断推翻过去的自己。

如果说过去十年的 re:Invent 是关于如何将计算资源「重塑」为像水电一样唾手可得的基础设施,那么今年则释放了一个截然不同的信号:云计算的下半场,竞争焦点已从「提供资源」重塑为「提供能力」。

在拉斯维加斯,亚马逊云科技以 10 分钟发布 25 个新品的极高密度,试图回答一个困扰行业的问题:为什么大模型热闹了两年,企业级应用的大爆发却迟迟未到?

亚马逊云科技向世界给出的答案是:属于企业的 Agentic AI 时代已经到来。

📃「太长不看」版:
Frontier Agents 家族登场:推出 Kiro Autonomous Agent、Security Agent 和 DevOps Agent 三款前沿 Agent,将软件开发、安全和运维带入自动化新范式。
自研芯片再进化:正式推出 Amazon Trainium3 UltraServers,性能提升 4.4 倍。同时预告了下一代性能更强的 Trainium4 芯片。
自研模型家族全面升级:发布 Amazon Nova 2 模型家族,包含 Lite、Pro、Sonic(语音)、Omni(多模态)四个核心模型,覆盖从轻量到复杂的全场景需求。
Amazon Bedrock 拥抱中国大模型:Amazon Bedrock 平台进一步扩容,首次纳入Kimi、MiniMax、Qwen等多个中国顶尖大模型。
模型定制化革命:推出 Amazon Nova Forge,首创「开放式训练模型」理念,允许企业将自有数据融入基础模型的预训练阶段,创造深度定制的专属模型。
Agent 行为治理:发布 AgentCore Policy 和 AgentCore Evaluations,用自然语言为 AI 代理设定行为边界,并持续评估其工作质量,解决企业应用 AI 的可信度与可控性难题。
云边界的消融:发布「Amazon AI Factories」,将亚马逊云科技的 AI 基础设施直接部署到客户自己的数据中心。

生产力重塑:把 AI 从「工具」变成「同事」

过去两年,我们习惯称呼企业生产环境中的 AI 为 Copilot,但在亚马逊云科技看来,这还不够。Copilot 或者说传统的 AI「助手」,需要你时刻紧盯,并根据其任务和表现随时调节指令;但企业真正渴望的,是能够领受目标、独立思考并调用各种工具完成任务的 Agent。

因此,近几年亚马逊云科技的叙事核心,正从提供工具转向提供「工作者」。在本届 re:Invent 上,我们能看到亚马逊云科技将大部分时间都留给了 AI Agent,并带来了有史以来最大规模的 Agent 部署战略。

AI Agent 的价值在于「行动」,它们是区别于 AI 助手的全新物种,被赋予了自主规划、长期运行和并行执行复杂任务的能力。
——亚马逊云科技 Agentic AI 副总裁 Swami Sivasubramanian

AI Agent 大规模部署的第一步,就是设计出各怀本事的「数字员工」。

作为这一理念的具象化, Frontier Agents 正式发布。其中 Kiro autonomous agent(虚拟开发者)、Amazon Security Agent(安全顾问)和 Amazon DevOps Agent(运维专家)等 Agent 已经在多家企业「试岗」,表现出了极佳的效率。

例如,虚拟开发者 Kiro autonomous agent 可以连接上 Jira 和 Slack,领会团队的业务逻辑和协作规范,以符合标准的方式昼夜不停地完成跨库变更和 bug 修复等琐碎工作,让团队成员可以更专心于关键的创新部分。

在亚马逊云科技内部的一个案例中,一支 6 人团队利用 Kiro,在短短 76 天内做完了原计划需要 30 人耗时 18 个月才能完成的架构重构工作。期间 Kiro 自主分析了 15 个微服务,在几乎全程「无人驾驶」的状态下测试和提交代码。

和亚马逊关系紧密的蓝色起源(Blue Origin),更是大胆地将这套流程引入到了航空系统设计:从细化需求、物料沟通到更高技术力的系统架构和物理仿真,蓝色起源通过内部的 BlueGPT 平台调用了多个 Agent 来支持研发,让总体交付速度提升了 75%。

Agent 行动力升级的背后,是模型「大脑」的升级。支撑各种 Agent 的 Amazon Nova 模型家族全面升级至第二代,包含主打高性价比的 Amazon Nova 2 Lite、亚马逊最强智能模型 Amazon Nova2 Pro、专注类人语音对话的 Amazon Nova 2 Sonic,以及行业首个真正统一的多模态模型 Amazon Nova 2 Omni。亚马逊云科技坚持「没有一个模型能统治一切」的哲学,多样化的模型家族为的是让 Agent 更听话、更能干活。

为了让企业敢于将这些强大的 Agent 引入核心工作流,亚马逊云科技打造了 Amazon Bedrock AgentCore——这是为 Agent 构建平台 Bedrock 附加的全套行为治理体系。

通过 AgentCore Policy 功能,管理者可以用「禁止向金额超 1000 美元的客户退款」这样的大白话,为 Agent 设定不可逾越的「红线」,避免 AI 的错误行为造成公司重大损失;AgentCore Evaluations 功能则提供了 13 种内置评估器,像绩效考核一样持续监测 Agent 的工作质量;而全新的 AgentCore Memory 功能则引入「情景式记忆」,让 Agent 能从过往经验中学习,记住用户的偏好和上下文。

值得一提的是,亚马逊云科技还展现出了极大的生态包容性。在 Amazon Bedrock 平台上,我们发现了 DeepSeek、Kimi、MiniMax和 Qwen 的身影。这意味着,企业可以在亚马逊云科技的全球基础设施上,无缝调用中国最顶尖的 AI 模型能力,比如擅长推理和调用工具的 Kimi K2 和专注 Coding 的 MiniMax M2。

很显然,亚马逊云科技下一步的愿景,是将企业的生产力单元从个人升级为「人+Agent」的混合团队,让人类只处理那些真正有价值的问题,彻底解放生产效率。

成本重塑:算力降本增效,击穿价格底线

将 AI 做成像水电一样的基础设施,向来是业内最感兴趣的话题之一。但相信不少人注意到了,现在的「算力费」似乎太贵,贵到足以扼杀大多数企业的创新驱动。

而亚马逊云科技的核心竞争力刚好在于,它总能以完整体系和极致的工程能力,强行把价格「打下来」。

在首日的 Keynote 中,亚马逊云科技首席执行官 Matt Garman 宣布推出云端首款 3nm 工艺 AI 芯片 Trainium3,还顺势公开了以其为基础的 Amazon Trainium3 UltraServers,为企业提供 AI 训练和推理所必须的算力。

最多可将 144 块 Trainium3 芯片整合到同一系统中的 Amazon Trainium3 UltraServers,相比起上一代,算力提升了 4.4 倍,内存带宽提升 3.9 倍,更关键的是,能效提升了 40%。这意味着,在同样的电力消耗下,企业能获得 5 倍的 token 产出。

自研芯片,是亚马逊云科技对抗昂贵 GPU 的底气,也是向企业做出的一种承诺:让 AI 训练和推理不再是巨头的特权。包括 Anthropic、理光和 Splash Music 在内的客户,已经通过 Trainium,将训练成本降低了 50%。

更进一步,亚马逊云科技已经预告了下一代芯片 Trainium4,其 FP4 计算性能将再提升 6 倍,内存带宽提升 4 倍,以超越摩尔定律的提升速度,满足全球最大的模型训练需求,并降低企业的成本焦虑。

除了提升硬件能效,如何在软件端减少算力消耗,也是企业「精打细算」的重要部分。在这方面,亚马逊云科技来了一手漂亮的「软硬协同」:

亚马逊云科技认为,企业不总是需要用最大的模型,因此最新推出的 Amazon Bedrock Model Distillation(模型蒸馏)允许企业用大模型(老师)来教导小模型(学生),最终用 1/10 的成本实现相似的高性能。配合 Amazon S3 Tables 和 Aurora DSQL 等存储和数据库技术对海量数据的专项优化,亚马逊云科技正在系统性地挤掉 AI 成本中的水分。

一切上层应用的创新,都离不开底层基础设施的支持。只有当算力像水电一样廉价且唾手可得时,AI 应用的爆发才具有了现实基础。

边界重塑:「送货上门」,打破云能力的地点限制

长久以来,公有云和私有数据中心之间隔着一堵无形的墙。出于数据主权、低延迟或合规的要求,许多企业敏感部门的关键业务无法上云,也无法运用上述的 AI 能力。

亚马逊云科技决定推倒这堵墙。

全新发布的 Amazon AI Factories 提供了一种极具想象力的「曲线救国」方案:如果你不能上云,那我就把云搬到你家里。

换句话说,亚马逊云科技可以将包含 Trainium 或 NVIDIA 芯片的全套服务机柜,直接「快递」部署到客户的数据中心。这里卖的不光是服务器,还有一整套由亚马逊云科技管理的、与公有云体验一致的算力环境。

对于像沙特阿拉伯主权财富基金(PIF)控股的人工智能公司 HUMAIN 这样的主权级客户,或金融、医疗等强监管行业,AI Factories 尤其契合需求。他们利用现有的机房空间和电力,就能立刻接入先进的 AI 基础设施。

同时,亚马逊云科技还推出了Amazon Interconnect,首发与 Google Cloud 合作,打破了云厂商之间的物理隔阂。这显示了他们的务实姿态:承认「多云」是现实,并主动打通经脉。

至此, 亚马逊云科技完成了从「云服务商」到「泛在算力基础设施提供商」的身份转换。云的定义不再局限于亚马逊云科技的机房,而是延伸到了客户需要的任何角落。

体验重塑:消除「技术负债」,回归创造本源

技术的终极目标是什么?是让人类从繁琐中解脱,去从事真正的创造活动。

理想很美好,但在现实中,很多人不得不将时间花在对付那些年纪比自己还大的古老系统上。城市规划领域有一个词叫「基建诅咒」,它指的是早期的大规模基建,会在日后造成巨大的维护成本,并将组织资源「绑架」在维护老旧资产上,无法投入新技术、新线路或更新换代。

类似地,全球企业每年在维护旧系统、修补过时代码等「技术负债」上的花费高达 2.4 万亿美元,程序员和运维工程师厌恶这些重复性的「脏活累活」,却又囿于现实深陷其中。

在 re:Invent 上,亚马逊云科技宣布,要用 AI 砍掉这些「无用功」。

最新发布的 Amazon Transform 升级版,就是为了铲除这些技术负债。利用 Agentic AI ,它能将将陈旧的代码(如 COBOL、旧版 Java)自动升级为现代化语言,甚至能完成 Windows 应用向 Linux 的迁移。比起人力更新,其现代化改造速度可提升 5 倍,时间和成本减少 80%。

能够减轻企业负担的,还有 Amazon Nova Forge。它引入了「开放训练模型」的理念,允许企业在模型的预训练阶段就将自有数据(如产品设计文档、失败案例)与亚马逊云科技的通用数据集融合,训练出深度理解自身业务的专属模型 (Novella),从根源上解决传统微调的「灾难性遗忘」问题。Reddit 已成功运用这一技术,训练出能精准识别违规内容的专属模型,大幅简化了部署运维工作。

在这里,亚马逊云科技所做的事情就是打破诅咒,借助 AI 的能力实现低成本更新维护,并将旧资产中有价值的部分,融入企业专有的 AI 知识库。

只有感受不到「基建」的沉重,企业才能全情投入到业务创新之上。

云计算步入下半场,亚马逊云科技的规划才刚刚开始

如果说云计算的上半场,是将计算、存储、网络变成了像水和电一样的「基础设施革命」,核心是「资源的民主化」,那么以 AI Agent 为核心的下半场,云计算正在开启一场「能力的民主化」革命。

亚马逊云科技的云正在试图告诉市场:AI 时代的竞争,不再是看谁的模型参数更大,而是看谁能把 AI 的使用门槛降得更低、成本控得更好、边界管得更严。

这一转变意味着,未来企业数字化转型的重心,正从相对简单的、将业务搬上云端的「流程管理」,迁移到将业务目标托付给无数个自主运行 AI Agent 的「能力委托」问题上。

而帮助企业应对这一转型挑战,正是亚马逊云科技在 re:Invent 2025 上传递的核心价值:将 AI 时代巨大的技术复杂性和不确定性,转化为企业确定性的竞争优势。

当 Matt Garman 在十分钟内如数家珍般发布 25 项基础设施更新时,他宣示不只是亚马逊云科技堪称恐怖的工程效率,更是一套严密、务实且强大的工业化 AI 体系。从自研芯片到全模态模型基座,从打破物理边界的数据中心到自主工作的「数字员工」,亚马逊云科技将过去只有少数科技巨头才能企及的、构建复杂 AI 系统的能力,转变为一种所有企业都可以按需取用的标准化服务。

在这种叙事中,企业可用的 AI 工具只会越来越丰富,门槛只会越来越低,那么相应地,运用 AI 让企业生产效率骤升的「价值时代」,也正在快速步近。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌