Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

AI 不是来当员工,而是来当老板的| 46 个 AI「金句」

By: 杜晨
4 April 2025 at 19:18

毫无疑问,我们处在一个 AI 的大变革时代。

每天都有新的 Agent 发布,新的模型开源。每天都有小 AI 公司正在变成巨头,而巨头们也在拿到越来越多的,甚至令人难以置信的钱。

或兴奋,或恐惧,或担忧。在所有的大变革时代,我们都难免多想。

在中国,APPSO 关注 AI 的同事们经常因为大洋彼岸的新闻而「夜半惊醒——而在美国,看起来从业者们也同样会因为 AI 的日新月异而睡不着觉。

投资网红 Greg Isenberg 就是一个经常多想、辗转反侧的人。他参与创办了上百个项目,目前是投资机构 Late Checkout 的 CEO 和 The Startup Ideas 播客的主播。

昨天,Isenberg 在他的 X 账号上发布了一条长文,说自己半夜睡不着,想出了 46 条和 AI 有关的「金句」。

其中大部分是他的个人观点,甚是有趣。我们将这条长文编译分享出来,并且展开聊聊其中的部分思考。

原文地址🔗

1. GPT-4o 的图像生成功能与 ChatGPT 发布一样震撼,将会催生上千个百万至亿级美元的垂直领域软件商机。

chatgpt 4o image gen is as big as the chatgpt launch. probably will birth 1000+ $1-$100m/year vertical software businesses.

2. 当前的 AI 生成内容,就像数字音乐早期的「MP3-Napster」时代。数百万创作者并没有意识到,他们的作品未来将成为打败他们的武器。

we’re in the “mp3 napster era” of content. millions of creators don’t realize their entire back catalog is being weaponized into their competition because of AI. 

3. 在三年内,日历、邮件和 CRM 工具将经历根本性重构——不是渐进式的AI升级,而是范式级的重新设计。

every calendar, inbox, and CRM will be rebuilt from scratch in the next 3 years. not “AI-enhanced,” fully rethought.

4. AI 不是来当员工,而是来当老板的!首批具备管理人类能力的 AI 系统将彻底重构劳动力市场,其影响力将远超工业革命。

i thought ai was creating digital employees. but it’s more like digital employers. the first ai systems that can manage human workers will cause a restructuring of labor markets more significant than the industrial revolution.

5. 如果你的工作是招聘人→训练系统→系统替代人去做招聘工作,那么你不是 HR,而是一个程序员,正在编写卸载自己的程序。

if your job is interviewing people who will train ai systems that will replace people who do interviews, you’re just a step in a weird recursive extinction.

6. AI 将难以规模化的服务生意,转变为兼具产品利润和服务溢价的新生意。能用 AI 做 80% 工作的产品化解决方案,将成为新的独角兽企业。

ai is turning “service businesses that don’t scale” into “product businesses with service margins.” the new unicorns will be productized services with ai doing 80% of the work.

7. 不要痴迷于打磨产品。社群运营更难,更决定生死。大部分创业公司死掉是因为没人在乎。

building communities is harder than building products but everyone pretends it’s the reverse. the reality is most startups fail because nobody cares.

8. 威尔·史密斯吃意面?那是 739 天前的 AI 水平。想象一下再过 739 天,生成式 AI 会进化到什么程度?

it’s been 739 days since the will smith spaghetti video. imagine what could happen to gen ai in 739 more days?

APPSO 的延展思考:在图像/视频的生成式 AI 方向,上一次重大破圈事件是3 月的「OpenAI 吉卜力风格迁移生成」,而两年前的威尔·史密斯吃意面是上上次。

这两次事件有异同之处:相同的是都和知名文化现象/符号有关,从而很容易地导致了破圈;不同则在于最初版本的吃意面视频过于粗糙,十分「魔性」。这种失真感不但没有影响人们对 AI 强大的预期,反而显著加强了这个梗的病毒传播。

9. 开发 AI 助理的人,大多没用过真人助理。真正的助理懂背景、记历史、重关系——而 95% 的聊天机器人,三者皆无。

people building “ai assistants” have never actually had assistants. real assistants need context, history, and relationship. 95% of chatbots have none of those.

APPSO 的延展思考:不需要用过助理,大多数用户已经觉得 AI 助理很蠢了。有给它交代上下文、打磨提示的工夫,还不如自己去干了。

10. 3年内,连最高级的客诉处理都将被 AI 取代,包括你现在认为必须人工的复杂客诉。

most customer support will be automated within 36 months. not just tier 1 tickets, complex, multi-step resolution that previously required senior support staff.

11. 创业最危险的结局不是归零,而是被卡在「生存线」上——足够温饱,永远不够自由。该止损还是加注?我总在思考这个困境。

the worst thing that can happen to your startup is mediocre success. enough to keep you going but not enough to change your life. most founders are trapped there. thinking about this a lot with respect to shutting down or doubling down on projects. 

12. 反抗AI的不只是失业者——每个发现自己的数字痕迹被擅自用作AI养料的人,都会加入抵抗。

the ai backlash won’t just come from replaced workers, it’ll be from everyone who realizes their entire digital identity is being converted into training data without consent. 

13. 没人会看用户条款。

no one has ever read a terms of service ever

14. AI 真正的颠覆在于「草图经济」:设计无门槛,审美和创意才是硬通货。

the “sketching economy” is the real ai revolution. when anyone can turn rough sketches into production-ready designs, taste and ideation become the only scarce resources. 

APPSO 的延展思考:作为文字和视觉的工作者,APPSO 对于这一观点深深赞同。AI 能生成看起来非常有「思考」味和「设计」感的内容,用于非严肃场景是可以的,一旦放在商业和专业场景,生成结果的破绽,以及审美的同质化、大中华是个很大的问题。

究其根本,审美和创意是一种非常「个人化」和「人性化」的概念。创作是创作者个人的行为,但也是和观者的一次交流。这种交流需要双方有着类似的人生经验、相近的认知水平。

一种极端但往往正确的观点是:大众的审美水平永远趋向降低。所以真正的审美和创意一定会成为稀缺资源。

看看现实吧,AI 并不是取代了能深度思考的人,而是让本来就懒得深度思考的人更不需要思考了。审美和创意也是一样,AI 在这方面的能力,只会让更多人彻底失去掌握这些能力的必要。

15. AI 创业的真金白银,藏在吃透行业痛点的垂直应用里——不是在提示里加两个行业黑话就行的。

i dont know how else to say it, the money (and opportunity for the avg joe) is in ai startups is in vertical-specific applications that actually understand industry context. no, adding industry terms to your prompts isn’t the same thing. 

16. 消费移动设备又复兴了。从桌面→移动→AI 优先,我们已进入 AI 原生时代——下一批独角兽,必是深度整合 AI 的移动应用。

consumer mobile is back in full swing. we went from desktop-first apps to mobile-first apps to now ai-first mobile apps. the next wave of $100m/year apps will start mobile-first with ai baked in from day one. 

17. AI 「套壳」大战才刚打响。介于底层大模型和终端行业之间的中间商,将收割最大红利。而模型和行业应用本身终将沦为廉价商品。

the ai middleman boom is just starting. companies that sit between foundation models and specific industries will capture most of the value while both ends get commoditized. 

APPSO 的延展思考:这个观点很有趣,但也有一定的讨论空间。行业里有另一种主流观点,和它几乎完全相反:未来所有的模型都将产品化,而 wrapper 等纯工程层面的公司,不会比真正掌握底座大模型研发能力的公司走得更远。因为工程能力谁都可以拥有,但买得起卡,训练的起大模型才是真正的杀手锏?

当然,这两种观点都比较极限。现实很有可能是折中的。即便大模型公司有再多的钱,它也不会比小公司小团队更敏捷、更理解所处的垂直行业。千行百业不能一家独霸,大概就是这个道理。

18. 我们正在目睹新工种的诞生:AI 流程设计师将成为新一代金领,专精于把人类流程转化为 AI 增强的工作流。

we’re witnessing the birth of a whole new job category: ai workflow designers. people who can map human processes into ai-augmented workflows will be the highest-paid consultants of the next decade. 

19. AI 加速「赢家通吃」的局面:垂直行业的龙头之争,窗口期仅 6-12 个月,错过即出局,要么再等十年。想到这我彻底失眠了😂

ai is creating winner-take-most markets overnight. the window to establish yourself as the go-to solution in a specific vertical is maybe 6-12 months before it closes for a decade. this isn’t helping my sleep lollll. 

20. 创业金点子:用AI重塑传统行业产品——这就是你的杀手锏。找一个已被验证的非 AI 产品,用 AI 思维彻底重构,再找行业 KOL 引爆卖点。这把稳赢。

really smart strategy to rebuild traditional products with ai as your unfair advantage, hiding the complexity behind familiar interfaces. basically, just look at proven apps that have no ai, make them ai-first (if it adds a ton of value to end customer). use ai features (don’t sell ai) in creator-led marketing. this is the playbook. 

21. 直达用户的渠道是唯一的护城河。你的产品、技术、团队都可以被复制,渠道不能。

distribution is the only moat left. your product, tech, and team can all be replicated. your direct connection to customers cannot. 

22. 临界点就快到了:对小企业而言,定制 AI 工具将比雇佣员工更划算。

we’ll soon hit the tipping point where custom ai tools are cheaper than hiring humans, even for small businesses. 

23. 很少有人在讨论这件事:AI 正让曾经「无人问津」的企业变得抢手。当业务能自动化运转时,收购逻辑也变了,投资人会追逐那些「买来就能自动赚钱」的公司。

nobody’s talking about how ai is making previously “un-acquirable” businesses suddenly attractive targets. when you can automate operations, the owner-dependent business problem disappears. 

24. 续上条:即将到来的中小企业收购潮,会比 2021 年的科技泡沫更夸张。当 AI 把运营成本砍掉了 60%,小企业会成为现金流机器。

the coming smb acquisition frenzy will make the 2021 tech bubble look tame. when ai drops operating costs by 60%, every small business becomes a cash flow engine. 

25. 如果「氛围编程」(AI 写代码)是一个千亿美元的机会的话,那么「氛围营销」的市场会有多大?。

if vibe coding will be a $100B opportunity, how big of an opportunity is vibe marketing? (you can follow my co-founder @boringmarketer for more on that) 

APPSO 的延展思考:上面这几条和中小企业、创业方向有关的思考都非常值得参考。当然不是说直接跟着他走,而是如果你的企业正好符合他的描述,你应该考虑更积极地拥抱 AI,探索 AI 工具和自动化能否为你提高效率,甚至让你可以对行业里的既得利益者和巨头们发起挑战。

当然,不要因为过度使用 AI 而让你的核心员工和老员工们对你失望。如果你因为 AI 逆天改命,也应该让他们从中分得一杯羹。

26. 游戏工作室将会两极分化:一边是 AI 智能体驱动的「内容农场永动机」,可以批量生成无限的素材;另一边是专注核心玩法的「精品工作室」。无法转型的中间层将被淘汰。

Video game studios will separate into two distinct types: agent-driven content farms that generate infinite assets, and boutique studios focused on core mechanics. The middle will disappear entirely.

APPSO 的延展思考:看看过去几年最受欢迎的游戏和背后的工作室就知道了。前者是你在短视频里经常见到的那种,素材千变万化但机制万变不离其宗的放置、射击,以及羊了个羊等消消乐类,杀时间的游戏。它们不招你待见,但市场巨大。后者是小岛的《死亡搁浅》、战马的《天国:拯救》、雾影的《二人成行》等发布即封神的大作,也是《Only Up!》、《Getting Over it with Bennett Foddy》、《Get To Work》这样的机制魔性、折磨到让人砸手柄的独立游戏。

27. 企业可能更愿意花每月几十美元订阅 AI 工具无限生成素材,而不是 2000 美元/天雇一个商业摄影师。商业摄影赛道凉凉。

Corporate photography is effectively dead. No company will pay $2K for a stock-style photoshoot when they can generate unlimited perfectly on-brand imagery for the cost of a subscription. 

28. AI 能够颠覆企业销售模式:它能精准识别最佳销售时机,锁定买家,并自动触发销售流程。

enterprise sales is being completely inverted by ai. using ai to identify exactly when and how to talk to the right buyer, and set off automations. ill probably talk about this more on a pod soon. 

29. 我在思考:AGI 是否会从相互连接的智能体网络中「涌现」出来?这些智能体网络可能自己涌现出意料之外的特性,而我们正在不知不觉中构建着它们的「神经网络」。

i wonder if AGI will emerge from interconnected agent networks that develop emergent properties nobody designed? we’re building the neural connections without realizing it. 

30. 虽然生成式 AI 看似将成就万亿级市场,真正的「隐形金矿」其实在预测式 AI 领域。预知未来的价值,永远高于创造内容。

while genai looks to be the $1T category, many quiet fortunes will be built in predictive ai. knowing what will happen is more valuable than generating new content. 

APPSO 的延展思考:目前的生成式 AI,生成的是它自己认为将会发生的东西。基于大语言模型的 AI 会遵循文本的规则和概率的规则。而预测式 AI(比如天气、地质、金融、社会工程学的垂类 AI)需要遵循现实规则。后者是不是大语言模型,也说不定,可能是基于,或者从大语言模型精修特调的的专家模型。

当然,如果大语言模型发展太快、太普及,甚至成为实际的权威和统治者——那么将会发生什么,也是大语言模型说了算……

31.所谓的「AI 泡沫」,不过是 VC 们因为分不清 API wrapper 和真·创新而交的学费。

the “ai bubble” is actually an excise tax on vcs who can’t tell the difference between genuine innovation and repackaged openai apis. 

32. 人机交互即将迎来「人格化革命」。当每个工具都能与你对话时,AI 的氛围和腔调,将会决定用户信任、忠诚、留存率。

interfaces will become personalities. when every tool can talk back, vibe and tone will drive trust, loyalty, and retention. It’s why I’m investing more in our design firm for the AI age @meetLCA (you can follow for more insights on designing/taste/brand that will stand out) 

33. AI 将杀死传统首页。未来的入口界面会因人而异、因需而变、因时而动。

ai will kill the homepage. interfaces will get replaced by entry points that change based on who you are, what you need, and when you show up. 

34. 用户不为「AI」买单,只为结果付费。

no one will pay for “ai”, they’ll pay to solve a $10,000/hour problem in 3 clicks. sell outcomes, hide the ai. 

35. Google 的万亿帝国可能被 AI 拆解:旅游搜索、商品比价、本地服务等等,每个细分领域都是待掘的金矿。

ai is unbundling google. every vertical search engine, directory, and comparison tool is a billion-dollar opportunity in disguise. 

36. 未来的小企业标准配置:1个创始人+5个 AI 员工组成的「影子团队」,自动搞定财务、销售、营销全流程。

every small business will get a “ghost team.” automated bookkeepers, sales agents, marketers—run by one founder and 5 bots. 

37. AI 生成内容导致了文化的同质化危机,当全球共享同一套模型,我们得到的将是无限重复的「数字回声」。具有原创性人类思考将会成为最终级的附加值。怪异会成为卖点,请保持怪异。

ai-generated content is creating a monoculture of ideas. when everyone uses the same models, we get the same outputs. original human thinking is becoming the ultimate premium. be weird. weird will sell. 

APPSO 的延展思考:不只人过度依赖 AI,就连 AI 自己也在不断加强对自己的依赖。

机器学习的经验指出,过度依赖生成的数据再次训练,有可能会发生「过拟合」现象 (overfitting),甚至导致模型工作机制熵增,使得生成的结果变得更加不可靠,违背常理,失去代表性。

这可以类比为生物学上的近亲繁殖,对同族遗传资源(基因/数据)的过度利用,更有可能导致错误的因素在生成结果中纯合。只是这种 AI 的「近亲繁殖」结果不像生物学那么容易一眼看出来。事实上大部分人不具备分辨能力,而这会导致 AI 生成的错误结果被更多采纳和再利用,最终形成一种脱离现实的逻辑闭环。

38. AI  不会颠覆学校,而是实现教育的「去中介化」。未来的神童们将绕过传统教育体系,通过直接获取受众、实践验证的方式来快速成长。今天的孩子都当 KOL,而创业者才会是 Z 世代孩子的理想职业。

schools won’t be disrupted by ai. they’ll be disintermediated. smart teens will skip formal education, build audiences, run experiments, and learn faster. kids say they want to become creators but creators are becoming entrepreneurs. entrepreneurship becomes the most popular profession. 

39. AI 创业泡沫的结果:18 个月后,八成的 AI 创业公司将会像劣质小广告一样无人搭理,而剩下的两成会晋升为数字基建。

in 18 months, 80% of the “ai startup” category will look like spam. the rest will become infrastructure. 

40. A/B 测试没意义了。当 AI 能在一夜之间完成200次迭代实验,何必再争论一个按钮该用什么颜色?

conversion rate product debates are obsolete. Why argue over 2 button colors when AI focus groups can test 200 variations overnight? 

41. 传统营销即将被 AI 接管,营销专员必须向上游迁移。讲述品牌故事、营造独特氛围、传递品牌能量——才是未来营销人的核心竞争力。

most of what we call “marketing” is about to be done by ai. humans will move upstream into storytelling, vibes, and brand energy. 

42. 今年最明智的招聘策略?聘请一位 AI 运营总监,一个能搭建 AI 工作流、整合工具链,并交付实际成果的人才。

the best hiring decision you can make this year? a head of ai ops. someone who can build workflows, glue tools, and ship outcomes. 

43. 第一头估值十亿的 AGI 独角兽,初看必定像个玩具。所有改变世界的东西都是这样。

the first $1b AGI startup will look like a toy at first. all world-changing interfaces do.

APPSO 的延展思考:忘了哪个投资人好像说过类似的话。

「当你的孩子拿着一个玩具说它什么都懂的时候,赶快查查背后公司的估值。」

44. AI 驱动的渠道大于 AI 驱动的产品。二流产品一流分发,好过无人问津的一流产品。AI 驱动的分发能力 > AI驱动的产品力。在注意力经济时代,二流产品加上顶级流量 > 顶级产品却没有流量。

ai-powered distribution > ai-powered product. a mid product with elite reach will beat a great product with no attention every time. 

45. 用户对订阅制的反感仍然存在,而为有效结果付费的模式尚处于蓝海。率先采用后者的企业将获得碾压传统 SaaS 巨头的绝对优势。

people still hate monthly subscriptions. outcome-based pricing is still in early days. implementing this will be a competitive advantage for lots of companies. large saas wont be able to compete with you. 

46. 我们正处在商业规则全面重写的黄金时代,它会持续多久我不清楚。但明确的是:那些率先驾驭新工具、构建受众社群的人,拥有绝对竞争优势。

i don’t know how long this window stays open, but we’re in a moment where all the rules of building businesses are being rewritten. for the people playing with these new tools, creating audiences and communities, you’ve got an unfair advantage. 

 

写在最后:

生前何必久睡,死后自会长眠?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


你的荣耀手机学会「点屏幕」了,为什么笨 AI 也有未来?

By: 杜晨
10 March 2025 at 14:23

在移动世界通信大会 MWC 2025 上,我们看到荣耀和订餐订位产品 OpenTable 做的一次演示:用户用语音命令手机 AI 助理找家西班牙餐馆订个位,接着就看到手机屏幕被「接管」,一通自己操作。

这个 MWC 版本的演示,其实和荣耀去年 Magic 7 Pro 发布会上策划的那次「行为艺术」,是同一件事。

当时在深圳的发布会上,时任荣耀 CEO 的赵明指挥 AI Agent YOYO 打开美团。他的手没动,而是 YOYO 自己在屏幕上点来点去,一家店点了几十杯饮料,支付,循环到下一家,继续点,再循环,重复操作——直到最后下单了总共 2000 杯左右。

一通操作过后,深圳发布会场地周边的瑞幸门店纷纷「爆单」,门店咖啡师忙到崩溃,接到订单的骑手更是在门店排起长队。

这次效果显著却略带荒诞意味的事件营销,一定程度上让公众忽略了荣耀试图展示的核心技术:「基于 GUI 的个人 AI 智能体」

时至今日,AI Agent 功能确实已经不新鲜了。而这个技术的关键点,在「GUI」这三个字上。

GUI 全称 Graphical User Interface,图形用户界面。作为一个基于 GUI 的 AI Agent,YOYO 不再依赖传统的 API 接口,而是有了一只虚拟的「手」,直接在代替用户进行图形界面操作。整个代行操作不在「后台」,而是直接在「前台」,在用户的眼皮底下实时发生。

需要澄清的是:Magic 7 Pro 市售机型用户的体验可能会与发布会演示存在差异。据财联社报道,当时现场演示用的测试机权限更高,能够自动免密支付和循环点单,这才不停地点出了2000杯饮料。至少在目前,市售机型需要用户明确告知点单细节(例如品牌、品名、杯型、温度等),并且在支付环节需要用户接管确认。

这个细节确实重要,但也不至于抹杀这项技术的存在意义。正相反,我们认为,「基于 GUI」是个很另类,很有趣,颇具试验性的 AI Agent实现路径。

AI Agent 交互的「前台」新路

荣耀 YOYO 的核心是多模态模型,GUI 交互的本质是语言+视觉的理解。

  • 自然语言处理 (NLP):理解「点一杯冰美式」的指令;
  • 屏幕状态感知:识别当前界面中的内容,找到正确的按钮、输入框等界面元素;
  • 拟人化操作:像人类一样点击按钮、输入信息;
  • 循环操作:在新的界面中持续解析内容、定位和点击界面元素。

关于 GUI 的操作部分,这最后一步具体是怎样实现的,荣耀方面没有明确透露。一种稳妥的猜测是:它能够获得手机的无障碍功能 (accessibility features) 或类似的底层权限,从而控制屏幕点击事件。

这最后一步并不是什么难事,甚至比前面几步都简单得多。但除了此前智谱的 AutoGLM 等极少数之外,确实很少有其它第三方开发者和终端厂商在走 GUI 交互的路径。

在过去,虚拟助理控制软件和智能硬件的方式主要是通过 API 调用以及物联网协议。这可以理解为一种纯数字 (digital) 的通讯方式。

今年一月,谷歌在三星的指定机型上激活了基于 Gemini 2.0 的 AI Agent 功能。这次合作也是通过 API 或类似方式实现的(谷歌称之为 Gemini 扩展),初期仅支持 Gmail、谷歌地图、三星日历、三星时钟等第一方应用,以及 Spotify 等极少量第三方应用。

想要做到规模化,扩充支持的应用,需要开发者做一定量的 API 接入工作,同时也需要用户许可使用 Gemini 扩展。

▲Gemini 控制手机演示   图源:Google

谷歌依赖 API 调用后台接口,而荣耀通过 GUI 模拟前台操作,二者在实现逻辑上形成了明显区别。后者的好处,在于可以规避 API 调用这一常规方式,绕过了其背后的商业博弈和数据成本,也可以更快、更容易地扩充支持的应用,实现规模化并改善用户体验。

成本是个关键问题。一方面是云服务费用,因为无论是 API 提供方还是调用方都需要运行服务器来进行操作。另一方面,通过 API 交换的数据也具有价值,因此具有更高数据价值的 API,往往收费也更高。

以美团举例,其订单服务在内的基础 API 收费标准为每百次调用0.15元(前百万次免费)。这还只是基础类 API,如果涉及价值更高的管理类 API,调用收费提高到每百次0.3元,且无免费额度。

另外,API 的使用也暗含着一些隐性的商业竞争要素。调用方获得了数据,同时也在向提供方发送数据,而不排除在特定条件下,双方都不希望肥水流向外人田。

而在基于 GUI 的方案下,至少就目前的演示效果来看,荣耀既不需要向美团支付 API 费用,双方也无需担心数据的归属,包括与之关联的隐私安全等问题。

AI Agent 只是在「模仿人类」点击屏幕,多么原始却有效的交互方式。

回归模拟,返璞归真

这种「返祖」式技术路径,让人联想到谷歌在2018年推出的 AI 电话助手 Duplex

Duplex 的思路在当时同样有点脑洞清奇:谷歌合成了一个 AI 语音,替用户给餐馆打电话订位。这个 AI 语音听起来并不生硬,甚至能够模仿真人的口音、语速、语调,以及加入「嗯」、「you know」 之类的填充词。

▲Duplex 技术演示 图源:Google

今时今日,AI 生成语音已经彻底「污染」了电销和客服行业,让人感到厌烦。但至少在当时,用顶尖的 NLP和语音合成技术,通过「打电话」这种模拟人类的方式订餐,这种另类的,从数字到模拟 (analog) 的交互方式,确实令人耳目一新。

目前荣耀正在推进的基于 GUI 的 AI Agent,在我看来同样属于一种从数字到模拟的实现方式,用原始与先进相结合的思路,带来了全新的可能性。

基于 GUI 不一定是实现手机 AI Agent 的最佳路径,但不可否认它确实很有趣,甚至有点「硬来」的意思。

  • 对于用户来说,使唤这样的 AI Agent没有学习成本,不需要研究提示语法;
  • 而对于第三方应用和服务平台来说,也几乎不需要额外的开发成本就可以接入。甚至反过来看,它们也无法拒绝被「接入」,因为压根就没有发生真正意义上的「接入」行为。至少以 Android 目前的沙箱机制来看,应用层不太能够「抵抗」系统底层的行为。

基于 GUI 的 AI Agent,既是一种对传统人机交互的致敬,也为 AI Agent 的落地和体验提升,提供了一种降低门槛、提高兼容性的路径。

有时候,最趁手的工具,真就只是一根干净简洁的大棒。

大模型与人机交互结合,「笨」AI 也有未来

在今天用户的主要需求场景上,有两种 AI Agent。一种是高智商型,能够解答复杂问题,完成困难的工作,比如 DeepSeek、Claude、以及前几天大热门的 Manus。这也是现在最流行最受关注的 AI Agent/Chatbot种类。

但我们同样需要另一种懂事能干的 AI Agent,它对用户的使用技巧没有很高的门槛,用户只要输入一两句简单直白的命令,它就能理解,并且把各种并不复杂的事给办好。

今天可以点外卖,将来它还能够帮你挂机放置类游戏,给指定好友的朋友圈点赞,甚至自动把刚拍下的一张照片修改一下发到社交网络。只要是用户能做的,基于 GUI 的 AI agent一样能做。门槛低,上限高,适应性强,用起来更顺手,可能是这一类 AI Agent的主要特色。

这类选手不需要成为理解世界的大学者,只当好执行任务的工具人就足矣。

2013年的电影《云端情人》(Her),曾经赋予人们展开无限的遐想。当时也正值 NLP 技术大爆发,许多优秀的语音场景产品和技术涌现出来。一些研究者和从业者笃信,自然语言对话将会成为 AI 交流的最主流方式。

然而去年昙花一现的硬件产品 AI Pin,以及开发它的 Humane 公司越走越黑的路,不禁令人怀疑《云端情人》设想的乌托邦是否那般美好,语音究竟是不是 Chatbot/Agent的终极答案。

飞书文档 - 图片

▲Humane AI Pin 图源:Humane

进入触屏时代,交互的门槛显著降低,以至于幼儿也能轻松地掌握。按照 AI 开发者们经常采用的比喻,大模型们的「智力」也恰如儿童。那么让 AI 通过触屏界面学习人类行为,听上去上还是很有希望的。

毕竟,你的伴侣不一定需要一首 AI 写的诗,却可能需要你按烂屏幕去抢一张周杰伦的演唱会门票。

前几天 Manus 刷屏,再次佐证了我们曾做出的一个预测:大模型将成为智能手机新的操作系统,自然用户界面 (Natural user interface, NUI) 将逐步替代现有的 GUI。

至少在目前看来,历经半个世纪发展的 GUI 仍会是人机交互的绝对主流。不过,大模型与 UI 结合,对人机交互进行一次前所未有的重新定义,甚至成为新的操作系统——这样的未来,的确越来越清晰了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


DeepSeek 浪潮下,端侧AI 的创新催化剂

By: 李超凡
6 March 2025 at 12:00

在柏拉图的《理想国》中有一个洞穴隐喻的故事,一群囚徒从小就被锁在一个洞穴里面对墙壁,身后有一堆火,囚徒们一生所见只有映在墙壁上的影子,便以为这些影子就是真实的世界。

大模型也曾被类似的「影子」误导,一度将大力出奇迹的预训练奉为圭臬。直到 2025 年初 DeepSeek R1 展现的推理能力,AI 从仅仅观察影子的阶段,转向以自省和辩证的方式探寻真知。

DeepSeek 让模型走出「洞穴」,也在改变智能终端的范式。

DeepSeek 蒸馏模型在问世不到两周内便实现在搭载骁龙平台的商用终端上的运行,AI 硬件将不再只是提升估值的「性感故事」,而是已经具备实际的应用价值和商业潜力。

高通最新发布的白皮书《AI 变革正在推动终端侧推理创新》指出,DeepSeek 的推出标志着 AI 进入推理创新时代,训练成本下降、快速推理部署和针对边缘环境的创新,正在推动高质量小模型的激增,加速 AI 跨边缘终端的部署。

清华大学副教授、面壁智能联合创始人兼首席科学家刘知远也提出,这种从「规模至上」到「效率优先」的转变,为端侧 AI 提供了重要启示:通过模型压缩、参数优化和算法创新,可以在保持模型性能的同时,大幅降低计算资源需求,使其适合在终端设备上运行。

使用 DeepSeek 蒸馏后的 Qwen-7B 模型,已经能够在性能上与去年所推出的且当时最为先进的 GPT-4o 云端模型持平。

这也意味着,过去很多只能在云端运行大规模参数的模型,能部署到随身的终端设备中,在本地完成复杂的推理过程,甚至可能实现满血运行。同时,在端侧 AI 的新浪潮下,我们正见证智能终端的又一次关键转折——从单纯的功能性设备到具有自主理解和行动能力的智能体(Agent)。

端侧 AI 的技术拐点:从「规模至上」到「推理创新时代」

两年前,比尔·盖茨发布了一篇博客,称在有生之年见证了两次革命性的 Demo ,第一次是在 1980 年看到了图形用户界面(GUI)——现代操作系统的前身,另一次则是在 GPT-3.5 前几个月看到 AI 的回答方式。

然而作为普通用户,对这种改变的感知显然没那么强烈,因为交互的变革的载体离不开智能终端,就像 iPhone 将功能机时代的按键操作转变为触控交互,进而重塑了整个智能手机生态。

那么在 AI 时代这个载体是什么?

或许未必是一个全新形态的终端,而是智能终端带来的全新体验形式——从应用驱动向智能体驱动。

就像高通 CEO 安蒙在去年年底提到的新趋势,AI 是新的用户界面(UI)。端侧 AI 的落地将改变传统的交互逻辑。

用户无需打开特定应用,AI 智能体可通过多模态输入(语音、图像、视频)直接执行任务。这些功能背后其实离不开边缘侧 AI 支持。

比如荣耀 Magic7 系列中 YOYO 智能体的许多交互功能就需要终端侧 AI 处理能力的支持,骁龙 8 至尊版搭载的高通 Hexagon NPU 为终端侧提供了足够强 的 AI 算力,可以在手机本地完成推理和理解等 AI 任务。

过去端侧 AI 受限于硬件性能,而大模型的计算需求却在快速增长,虽然此前搭载骁龙 8 至尊版的智能手机已经能在端侧运行 7B 规模的模型,但针对一些复杂的生成式 AI 用例和高质量图像生成等任务,还是需要结合云端算力。

不过现在端侧 AI 的技术拐点已经出现,《AI变革正在推动终端侧推理创新》白皮书中指出了加速端侧 AI 落地的四大趋势:

  1. 当前先进的AI小模型已具备卓越性能,通过模型蒸馏和新型网络架构,性能已经超越一年前仅能在云端运行的更大模型
  2. 模型参数规模正在快速缩小,先进的量化和剪枝技术使开发者能在保持准确性的同时减小模型体积
  3. 开发者能够在边缘侧打造更丰富的应用,如文本摘要、编程助手和实时翻译
  4. 让 Agent 成为新交互入口,个性化多模态AI智能体将简化交互

高通技术公司高级副总裁、技术规划和边缘解决方案业务总经理马德嘉告诉爱范儿,随着模型规模不断地下降,日后 10-20 亿参数规模的模型将会占用更少的运行内存,更好地适配 8-12GB 内存设置的终端。

异构计算架构:端侧 AI 的硬件基础

高通技术公司拥有三大业界领先的处理器单元,这些处理器对于端侧 AI 的发展非常重要。

马德嘉表示,「我们有业界领先的定制高通 Oryon CPU,并已经应用于我们的 PC、移动和汽车平台。」

高通 Adreno GPU 能够满足终端侧 AI 运行所需要的众多功能需求;此外,高通 Hexagon NPU 完全面向处理生成式 AI 工作负载而设计。

这三大处理器单元必须都具备业界领先的能力且能够协同工作,才能实现异构计算,满足生成式 AI 的发展需求,而在这一领域高通有着非常强大的优势。

端侧 AI 的落地对芯片架构提出了更高的要求,高通的做法是,将 NPU、GPU 和 CPU 集成到终端中的异构计算架构,从而在更低功耗下输出更高算力,且满足不同场景的 AI 处理任务需求。

这一架构的核心是三大处理器单元之间,如同一支交响乐队般的协同合作:

  1. 高通自研 Oryon CPU:最新的第二代 Oryon CPU 采用台积电 3nm 工艺,最高主频达 4.32GHz,超大缓存设计(业界最大 24MB 二级缓存)显著降低 AI 推理时延。
  2. 高通 Adreno GPU:满足终端侧 AI 运行的多样化功能需求,特别在并行计算和图像处理方面表现出色。
  3. 高通 Hexagon NPU:专为处理生成式 AI 工作负载而设计,让骁龙 8 至尊版上实现了45% 的 AI 性能提升和 45% 的 AI 能效提升。

其中 Oryon CPU 在手机与汽车芯片中的复用。这意味着这些终端设备可以采用共通的底层架构,有更好的兼容性,互相之间的互联互通也会更加通畅。

这种异构计算架构在最新发布的众多骁龙 8 至尊版旗舰手机上已经有所体现, iQOO 13 利用骁龙 8 至尊版的 AI 算力,打造了 AI 电竞信号引擎,通过 AI 智能优化网络,实现多任务场景下时延更低,可以边玩游戏边视频或直播。

REDMI K80 Pro 则将 AI 技术应用于连接体验,带来了小米星辰 AI 多网融合,可以进行智能信号预测,让网络自动优化。在地铁场景下,微信视频卡顿率降低 31%,短视频卡顿率降低 29%。

如果说智能终端已经进入 Agent 时代,那么异构计算架构就是智能体的「中央神经系统」,不仅处理各种感官信息,还能协调「思考」与「行动」,保证端侧 AI 高效、流畅、稳定地运行。

软件也是释放端侧 AI 潜能的关键

正如高性能赛车不仅需要强劲的引擎,还需要精密的调校和优秀的赛车手一样。端侧 AI 的实现不仅仅依赖于强大的硬件算力,同样离不开高效、完善的软件工具支持。

对开发者来说,其实不需要知道硬件端的具体设计细节,更重要的是软件工具库支持,让他们能够按照自己所需,非常自由、灵活地选择所需的框架、runtime 和工具,面向任何操作系统设计 AI 应用和智能体。

在提供硬件基础的同时,高通也在构建 AI 软件栈,包括库(libraries)、SDK 和优化工具,可简化模型部署并提升性能。

开发者可以利用这些资源,面向高通平台高效进行模型适配,缩短 AI 赋能应用的上市时间。无论端侧 AI 的算力有多强大,也只有通过应用来释放出来,最终才能转化为用户体验。

在实际应用中,你可以拿起手机识别你将用于烹饪的食材,成功识别后,让手机帮你生成对应的菜谱,还能让手机给你一些低卡路里菜单组合。

烹饪完成后,你可以通过摄像头,向手机询问这些食物所包含的卡路里。凭借智能手机如今对多模态 AI 能力的支持,这个用例可以完全在终端侧实现。

这种场景正是智能体作为新平台的典型应用——用户不再需要打开多个应用,而是通过自然交互直接完成复杂任务。

这种以开发者为中心的策略,大大简化了在消费和商用产品中集成先进 AI 特性的过程,也在加速 AI 推理创新在端侧的应用。

AI Hub 正成为开发者的百宝箱

目前已经有众多智能手机、PC、汽车厂商在终端设备中接入 DeepSeek,开始了利用高质量小模型在终端侧升级AI体验,或是打造全新 AI 应用的实践。边缘侧 AI 应用的创新蓄势待发。

如果你是一个开发者,对不同细分领域的芯片平台的 AI 部署也有了更迫切的需求。高通去年发布的高通 AI Hub 跨出了一大步,让开发者选择相应平台和开发模型、编写应用,最后在不同类型的移动终端上进行部署。

高通 AI Hub 包含超过 100 个预优化的 AI 模型,如Llama、Allam 3B、通义千问、OpenAI 等厂商模型,支持在搭载骁龙平台的终端上无缝部署,发布一年以来,目前已有超过 1500 家企业在使用,进一步推动了端侧 AI 应用的普及。

AI Hub 覆盖的终端也不断增加,马德嘉向我们介绍,高通 AI Hub 可支持移动、PC、IoT、汽车,甚至 Wi-Fi 联网终端平台,比如第二代高通机器人 RB3 平台这一面向 IoT 领域的机器人平台。

高通正在成为端侧 AI 生态构建者,通过与全球 AI 模型厂商的积极合作,不仅提供了强大的计算平台,还开发了完整的软件栈和开发工具,使开发者能够更轻松地将 AI 模型集成到应用程序中。

智能终端的 Agent 时代真正到来之前,这个行业需要先构建完整的端侧 AI 生态系统。

高通,正在成为端侧 AI 的首席架构师

在中国隋朝,曾诞生了一个名留千史的建筑工程专家宇文恺,他不仅规划了贯通南北的水道网络,更创新性地设计了船闸系统,解决了不同水位间船只通行的技术难题。用「通则兴,塞则衰」的系统思维,将分散的河道整合成一个互联互通的交通网络。

这与高通为端侧 AI 提供的统一而高效的计算基础颇为相似。正如大运河的修建需要克服地形、水文等诸多挑战,端侧 AI 所面对的,是来自不同终端设备、不同应用场景的更加多样化和复杂的需求。这其中不仅包括了硬件性能的限制,还包括了模型大小、功耗、延迟等多重约束。

而要让 AI 真正融入到这些多样化的终端中,正如宇文恺当年规划大运河一样,需要一位「首席架构师」来进行顶层设计,打造出强大的底层架构来支撑其高效运行。这个架构不仅要能处理海量数据,还要能灵活适应各种应用场景。

这种从具体到抽象、从工程到技术的递进,实际上也反映了人类文明发展的基本脉络。

人类文明的传承本质就是信息蒸馏的过程。从中世纪一字一句地誊抄、信息时代的系统化结构,到 AI 推理时代,信息的提炼呈现出新的形态——模型通过强化学习来发展推理能力,像婴儿通过不断的自我探索来认识世界。

像前面提到的高通 AI Hub ,它构建的预优化模型库,使开发者能将适应终端设备的模型的,应用在高通手机、PC 和汽车等多终端中的技术基础。

模型轻量化是端侧 AI 普及的关键。DeepSeek 蒸馏模型已经可在骁龙平台智能手机和 PC上直接运行。这种技术突破类似于大运河工程中的节水闸门设计,以最小的资源消耗实现最大的通行效率。

同时 AI 推理的创新正在边缘侧爆发。

研究机构 Counterpoint Research 预测,2025 年将成为生成式 AI 手机的关键拐点。

生成式AI技术正在成为中高端手机的标配。预计 2025 年全球生成式 AI 手机渗透率将从 2024 年的 19%提升至29%,出货量约 4 亿台,到 2027 年 ,生成式 AI 手机出货量预计达 5.5 亿台(占整体市场 43%)。

此外,全球边缘 AI芯 片规模预计从 2023 年 76 亿美元增至 2027 年 252 亿美元(CAGR 27.1%),汽车、工业物联网和医疗是核心增长领域。

高通正在转变成端侧 AI 的首席架构师。

端侧 AI 的能力注入到终端的每一个角落,从智能手机到汽车,从 XR 头显到 PC,一条连接不同终端、促进智能体自由流动的技术「大运河」正在形成。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


最低调的「AI 六小龙」阶跃星辰,在 DeepSeek 浪潮中交出了一份新答卷

By: 李超凡
21 February 2025 at 20:31

DeepSeek 掀起的浪潮还没结束 ,不只是 OpenAI ,中国的「 AI 六小龙」都要面临拷问:Scaling Law 是否还能持续,开源还是闭源,AI 落地的路线是否还行得通。

今天,AI 六小龙中一直比较低调的阶跃星辰,率先交出今年的第一份答卷。

在首届 Step UP生态开放日,阶跃星辰公布了自己探索 AGI 的方式,开启多模态推理的技术研究,并将 AI 落地的重点押注在智能终端,重点布局汽车、手机、具身智能、IoT 等应用场景。

阶跃星辰创始人、CEO 姜大昕认为,智能终端将成为 Agent (智能体)技术大规模应用的关键载体。

们朝着实现 AGI 的目标稳步前进,目前已进入 Agent(智能体)的发展阶段。

他指出智能体的发展依赖于两大关键要素:

一是多模态能力,让智能体充分地感知和理解世界;

二是推理能力,使智能体能够进行长思维链的慢思考,主动规划、尝试、反思,通过不断纠错提供准确的答案。

多模态让智能体像人一样「看、听、懂」,相当于人的「感官系统」,而推理能力就是处理信息的「大脑皮层」。

二者结合就能让 AI 《红楼梦》里的王熙凤,一双丹凤三角眼,不仅能察言观色,还能从一句话、一个动作中读出对方的深意。

多模态也是阶跃星辰在六小龙中最大的特点,目前阶跃 Step 系列模型矩阵已经发布了 11 款多模态大模型,覆盖语音识别、语音生成、多模态理解、图像及视频生成的全面能力。

前几天阶跃星辰还开源了Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,成为六小龙最快拥抱开源的其中一位,但和 DeepSeek 不同的是,阶跃星辰开源的模型均为多模态,而这也是 DeepSeek 还没展现的能力。

去年 APPSO 就曾用阶跃星辰旗下的跃问应用,让还不支持的苹果 AI 的国行 iPhone 16 ,获得类似官方视觉智能的能力,按下拍摄按钮,拍照问就能轻松打开,看到任何需要咨询的东西,基本都能找到答案。

至于推理能力,阶跃星辰今天还宣布了和清华大学共同研发的开源推理模型 Open-Reasoner-Zero,首次从预训练模型开始就大规模强化学习,效率达到 DeepSeek-R1-Zero 的 25倍。

姜大昕在现场还预告了内部正在研发的视觉推理模型,其实这样揭示了阶跃星辰推动 AI 落地的技术逻辑:将多模态能力和推理能力结合,让智能终端成为 Agent 的载体。

目前,阶跃星辰的模型能力在智能终端主要有以下这些场景。

  • 汽车场景:与吉利合作开发的智能座舱Agent,通过多模态交互(语音+视觉)实现「可见即可说」,例如用户说「导航到最近的充电站」,Agent自动调用地图、查询充电桩状态并规划路线。
  • 手机场景:与 OPPO 共建的「一键问屏」功能,用户拍照或截图后,Agent 能直接解析图片内容(如商品、文档)并调用 API 完成搜索或翻译,无需手动切换 App。
  • IoT场景:与 TCL 等厂商合作,通过设备间联动实现主动服务,实现设备间的智能化升级和体验的无缝连接。
  • 具身智能,:促进 Agent 在具身领域的创新应用。阶跃星辰宣布与智元机器人战略合作,共同探索 AI+具身机器人应用场景。

AI 智能终端是一个既性感又饱受争议的概念,可能会让很多硬件通过 AI 提升用户的体验,最近不少手机纷纷都宣布接入 DeepSek,同时去年爆火的 AI 硬件 Ai Pin,下个月就将停止所有的 AI 服务、消息推送等联网功能。

目前大多数手机接入的 DeepSeek,都是给语音助手加一个插件式外挂,同时由于 DeepSeek 尚不支持多模态能力,使用场景受到的限制就比较多。最近网上流行的「DeepSeek+xx」的组合玩法,其实就是为了弥补其缺乏的能力。

去年率先喊出 AI 手机的 OPPO,就在 AI 终端融合走得更远。

比如使用小布助手App「一键问屏」,用户通过多模态视觉跟 AI 交互,实现拍照问答、文档问答,识屏问答等多种功能。

用户甚至可以给小布下达指令让它进入各种应用端完成任务,比如进入淘宝、京东搜索同款商品,在小红书、同花顺、携程等平台搜索信息和服务,在飞书、钉钉、企业微信等社交软件搜索聊天记录等,实现一键全能搜。

这些功能OPPO 基于阶跃星辰 Step 系列多模态模型共同开发的,OPPO 智能助理部部长、小布助手负责人万玉龙告诉我们,随着新一代 AI 技术与移动终端的深度融合,手机已经逐步进化为能够理解用户意图、提供主动服务、甚至预判用户需求的智能助理。

智能终端正在迈入 Agent 时代。和过去最大的不同在于:本地化 AI 推理能力使终端从被动响应指令的工具,升级为主动理解需求、跨应用协同的「智能伙伴」。

让这一蓝图成为现实的,则是多模态 AI 智能体,它将作为新的交互界面,无需物理界面,类似《阿凡达》中的灵魂树,连接所有赛博智能体,用户甚至通过思维直接与 AI 交互,来完成所有现实任务的执行。

姜大昕提出 AGI 发展需经历模拟世界、探索世界、归纳世界三大阶段:

  1. 模拟世界:通过模仿学习训练多模态模型,统一表征声音、文本、图像、视频及物理世界。
  2.  探索世界:引入强化学习(如AlphaGo、DeepSeek),赋予模型逻辑推理与问题解决能力。
  3. 归纳世界:探索机器自主发现物理规律的能力,如牛顿从苹果落地推导万有引力定律,目标是将 AI 与科学家协同创新。

通往 AGI 的路或许不止一条,但总需要有人去蹚出不同的路,阶跃星辰选择了智能终端 Agent 这条路,或许下一次人机交互的革新,已经埋下了草蛇灰线。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌