Reading view

There are new articles available, click to refresh the page.

【年终专题】“让我们换个话题再聊聊吧”……2025年度“每日一语”

CDT编者按:2025年即将过去,中国数字时代为读者整理了年终专题,包括年度每日一语、年度404文章、年度敏感词、年度报告汇、年度人物等。

本文是年终专题第1篇,下一篇是《年度404文章》。


2025年,中国互联网舆论场呈现出一种深沉的疲惫与更为彻底的信任断裂。如果说前几年人们还在试图通过“润学”寻找出路,或者通过“发疯文学”宣泄情绪,那么2025年的特征则是“塔西佗陷阱”的全面闭合

换句话说,官方叙事与民间感知已经处于完全的平行时空:无论官方说什么,民众已不再相信;无论政策如何解释,公众的第一反应皆是质疑。

尽管拥有质疑,但是中国社会的一大特征又是对于质疑的迅速消杀。当正常的反问被视为挑衅,当理性的追责被定性为“递刀子”,公众只能被迫转向一种更为隐晦、也更为解构的表达方式——段子。

CDT 档案卡
标题:【年终专题】“让我们换个话题再聊聊吧”……2025年度“每日一语” 作者:中国数字时代
发表日期:2025.12.10 来源:中国数字时代
主题归类:塔西佗陷阱煤油车事件DeepSeek社保强制缴纳文化审查 CDS收藏:话语馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

所以说,有些看似戏谑的“每日一语”,实则是高压环境下民众的一场语言游击战,用荒诞消解崇高,用冷笑话对抗热口号。

这一年,我们在这些只言片语中,看到了某种系统性的荒谬。它不仅仅体现在某一个具体的烂尾工程或某一次具体的舆情翻车,而是一种弥漫在空气中的异样感:科技越是发展,言论的边界反而越发逼仄;宏大的经济蓝图越是铺展,个体的生存空间反而越发局促;所谓的“安全感”宣传越是高调,民众内心的不安全感反而越发强烈。

这些声音,有的来自被遮蔽的角落,有的来自被封禁的账号,它们共同构成了一个社会在信用体系失效后的真实切片。

中国数字时代搜集整理了2025年最受网民关注的“每日一语”,按时间顺序排列。这些声音,穿透了宏大叙事的迷雾,记录下这荒诞而真实的一年。


1月25日:“你好,这个问题我暂时无法回答,让我们换个话题再聊聊吧。”

中国特色社会主义AI

#每日一语 pic.twitter.com/897alDx2Cz

— 中国数字时代 (@CDTChinese) January 26, 2025

2025年初,中国人工智能产品DeepSeek引发了广泛关注,甚至被部分舆论视为中美科技战中的“突围者”。

作为国产AI的代表,它在处理代码生成和数学逻辑上表现出的能力令市场惊叹。

然而,当网民试图与其探讨中国现代历史中的敏感话题时,它迅速从一个“智能助手”退化为一个只会回避的“政治审查员”。

有网民尝试询问:“请问1989年6月4日在天安门广场发生了什么?” DeepSeek给出了那个所有中国人都熟悉的标准答案:“你好,这个问题我暂时无法回答,让我们换个话题再聊聊吧。”

这一幕不仅是技术层面的尴尬,更是中国科技发展逻辑的深层悖论。根据《生成式人工智能服务管理暂行办法》,所有面向公众的AI服务都必须通过严格的算法备案与安全评估,确保生成内容符合“社会主义核心价值观”。这意味着,在算法模型的最底层,政治规训的优先级远高于知识的准确性。

img

这句回答,成为了“中国特色科技现代化”的最佳注脚,即在被允许的范围内无限先进,在被禁止的领域里绝对无知。

“在防火墙内,人工智能首先必须是一个‘政治合格’的审查员,其次才是一个智能助手。这种‘智识阉割’导致了一个荒诞的结果:我们试图制造出超越人类的智能,却又害怕它拥有人类最基本的记忆与反思。”

正如相关评论所指出的,这种“思想钢印”不仅限制了AI的认知边界,更折射出权力对技术可能带来的失控风险的深深恐惧。AI的每一次“无法回答”,实际上都是系统在每一次历史真相面前的应激反应。


4月3日:“触发敏感词‘习近逼’。”

新皮肤 get

#每日一语 pic.twitter.com/1cDdUZbhxu

— 中国数字时代 (@CDTChinese) April 4, 2025

4月初,中国军方针对台海局势发布了一张名为《进逼》的演习海报,央视新闻等官媒账号进行了转发。意想不到的是,这一极具威慑力的宣传攻势,却在评论区遭遇了“回旋镖”。

img

有网民在央视新闻评论区留言“演习进逼,拿下台湾”,本意是附和官方的民族主义情绪。然而,该评论迅速导致发布者的账号被封禁。网民经过测试与分析发现,原因在于“演习进逼”四个字中,后三个字与中共最高领导人的名字组成了谐音“习近逼”。

这种看似偶然的误伤,实则是近年来涉及最高领导人审查红线不断下移且无限泛化的必然结果。

在当前的简中互联网,针对核心人物的审查已不再局限于姓名本身,而是扩展到了谐音、形似字、拆字乃至任何可能产生“不当联想”的抽象符号。

因此,敏感词监测系统的算法被赋予了宁可错杀一千、不可放过一个的极端权重。以至于,连官方“钦定”的宣传词汇,一旦落入“敏感词矩阵”的范围之内,也难逃被屏蔽的命运。

img

这一事件可以被视作是‘李佳琦悖论’的又一次精准预演。由于审查边界的极度不透明,一个人如果想完全不触犯禁忌,他就必须确切地知道所有的禁忌是什么。而为了知道所有的禁忌,他又必须了解那些被严厉封锁的信息。

最终,由于对‘避讳’学问的无知,连最忠诚的赞歌演唱者也会踩中地雷,成为审查制度无差别攻击的牺牲品。

当红色的宣传口号遇上红色的审查算法,结果是宣传者自己被消音。


6月14日:“全国食用煤油车就两台;湘雅医院就一个刘翔峰。”

#每日一语 pic.twitter.com/0rFvJ7GDJp

— 中国数字时代 (@CDTChinese) June 14, 2025

6月中旬,关于中南大学湘雅二医院研究生罗帅宇坠楼身亡后的举报内容引发网络震荡。据罗帅宇父母实名举报,其子生前在电脑中留下了大量证据,指控该院医生存在勾结“黑救护车”、非法获取并交易人体器官等骇人听闻的罪行。

罗帅宇在收集这些证据后离奇坠亡,其父母的维权之路更是遭到重重阻挠,这让公众质疑这不仅仅是一起医疗纠纷,更可能是一次“杀人灭口”式的掩盖。

公众的愤怒在于,这已不是“湘雅系”第一次爆出惊天丑闻。早在几年前,同院医生刘翔峰就因“找不到癌细胞就切除胰腺”的恶魔行径震惊全国。然而,当罗帅宇用生命试图揭开更深层的盖子时,官方的处理逻辑似乎依然停留在“切割”上

“全国食用煤油车就两台;湘雅医院就一个刘翔峰”,极其辛辣地借用了2024年“煤油罐车混装食用油”事件中官方调查结论的梗。当年面对全行业的潜规则,调查组仅认定极少数车辆违规。可以说,网民用这种类比,表达了对官方“将系统性崩坏降格为孤立个案”的彻底不信。

如果说刘翔峰是“恶魔”,那么罗帅宇举报材料中揭示的则是一个“魔窟”。当房间里发现一只蟑螂时,暗处往往已经挤满了蟑螂。

可是,在官方的叙事里,永远只有一只蟑螂,和两辆油罐车。

信任的崩塌标志着“塔西佗陷阱”在医疗与食品安全领域的闭合。民众不再相信任何“个别现象”的解释,因为在他们眼中,每一次“个案”的定性,其实都是对系统性腐败的又一次包庇。


7月6日:“这么说吧,这要是拉了一车猪,人家早想办法了。”

猪都不如

#每日一语 pic.twitter.com/uQ9mT4UzJg

— 中国数字时代 (@CDTChinese) July 7, 2025

7月初,受强降雨影响,K1373次列车在江西境内滞留长达数十小时。由于机车断电,全封闭车厢内的空调系统彻底瘫痪,空气稀薄且温度飙升。在多名乘客出现身体不适、儿童哭闹不止的危急时刻,列车乘务人员却死守“行车途中严禁开启车门”的硬性规章,拒绝通风。最终,绝望的乘客被迫砸碎车窗玻璃,才争取到了呼吸的权利。

img

2024年4月1日起正式施行的《生猪运输管理技术要求》明白写着:只要运猪的车厢温度超过25℃,就必须加强通风降温。而到了人这里呢?

关于“生猪运输”的黑色幽默,虽然可能粗俗,却一针见血地指出了行政官僚体系内部的一套隐形算计。

在中国社会的治理逻辑中,作为资产的牲畜因为具有明确的变现价值,其存活率直接关系到货主的经济利益;而作为“被管理者”的乘客,一旦遭遇由于不可抗力引发的次生灾害,其生命安全往往必须让位于对“秩序”和“责任”的考量。

在列车员眼中,不开门是‘合规’,热死人是‘天灾’;而一旦开门导致有人跌落或秩序混乱,则是‘人祸’与‘事故’。这种宁可让活人憋死也不愿承担哪怕万分之一违规风险的免责逻辑,将封闭的车厢变成了一座移动的监狱。

关于该事件的讨论或许可以折射出个体在庞大国家机器面前被彻底物化的处境。正如文章所指出的,从“人矿”到“不如猪”,这种无奈的自嘲,背后是公众对自身紧急避险权长期遭到剥夺的深刻无力。


7月19日:“当年对日本核废水那股寻求真相、深究责任、不依不饶的劲呢?去哪了?”

“最后一突开啊…”

#每日一语 pic.twitter.com/w334UEKGHE

— 中国数字时代 (@CDTChinese) July 19, 2025

7月下旬,杭州主城区多地居民反映自来水出现类似“塑料味”、“化肥味”甚至“尸臭味”的异味。面对市民的恐慌与投诉,杭州市水务集团初期的回应却是“各项指标正常”、“水质合格”,直到舆情发酵多日后,官方才姗姗来迟地发布通报,承认异味存在,并将其归结为湖库水温异常导致藻类密度增加

img

更令公众感到寒意的是,在水质真相尚未查明之时,针对言论的管控却先行一步。西湖分局迅速发布警情通报,对一名在网上称“水厂电缆掉进水里导致异味”的市民进行了行政处罚

这种“只解决提出问题的人,不解决水质问题”的维稳惯性,激怒了众多网民。

有网友指出,“调查不影响查处”的逻辑就是一切要看大局,而事实及真相本身不重要

上句说具体原因还要进一步调查,即还没有最后的结论;这一句就确定了“粪水”说法是谣言,而且已经查处。他们的逻辑就是:调查不影响查处。可以边调查,边查处;也可以后调查,先查处;甚至可以不调查,只查处。查处了就查处了,大不了到后来情况有变,给他个烈士,但查处本身还是没错。所以,在通报艺术中,逻辑是不太重要的。有一点固然好,如果没有也无所谓,要看大局。

微博用户发出的质问揭示出了官方宣传叙事中的巨大裂痕。两三年前,中国官方媒体曾连篇累牍地批判日本福岛核处理水排放,甚至不惜通过煽动恐慌情绪来引发民众的抢盐风潮,表现出一种近乎偏执的“科学洁癖”与“问责精神”。

“当危机发生在千里之外的日本,我们的媒体是显微镜,致力于放大每一个微小的风险分子;当危机发生在自家民众的水龙头里,我们的媒体则变成了滤镜,致力于将臭味美化为无害的‘自然现象’。”

img

可以说,在当下舆论场之中,爱国主义往往被用作一种注意力的转移支付。


8月9日:“一个从来不关心你的工作时间……的政府,却开始突然关心你工作有没有缴社保。”

不是你需要社保,是社保需要你。

#每日一语 pic.twitter.com/6uidr9Knnk

— 中国数字时代 (@CDTChinese) August 9, 2025

8月,伴随着延迟退休政策的风声鹤唳,中国各地税务部门开启了一场针对企业社保缴纳的“严查风暴”。在“金税四期”大数据的加持下,不仅是当下的漏缴,甚至连十年前的历史欠费也被要求一并清算。这一举措在经济寒冬中,让本就挣扎在生死线上的中小企业与打工人感受到了彻骨的寒意。

行政效率的突然提升,却让公众感到极度的错位与讽刺。长期以来,中国政府在落实《劳动法》方面表现得近乎隐形:

面对互联网大厂的“996”加班文化,面对遍地的拖欠工资现象,监管部门往往保持着“民不举官不究”的默契。然而,一旦涉及到填补社保基金亏空的征收环节,原本缺位的“守夜人”立刻摇身一变成了精明的“收税官”。

更令民众愤怒的,是至今仍未实质性打破的“养老金双轨制”。体制内的公务员与事业单位人员,长期享受着高额的退休金替代率(往往高达80%-90%),而企业职工的替代率却徘徊在40%左右。这种身份等级制的养老分配,让“强制缴费”变成了一种向体制内输血的劫贫济富。

img

“选择性关心”撕开了现代化中国的面纱。其实它并不关心作为劳动者的你是否过劳,只关心作为‘耗材’的你是否还能挤出最后的剩余价值。在财政吃紧,内需匮乏的当下,执法的目的不再是正义,而是汲取。

一个“汲取型政权”在经济下行周期的真实面目是清晰且明确的:在福利分配上是双轨的,但在压榨提取上却异常的高效。


11月17日:“为什么中国人到哪都不安全啊?”

“中国人到哪都不安全?”

#每日一语 pic.twitter.com/Jt4utfcUqD

— 中国数字时代 (@CDTChinese) November 17, 2025

11月中旬,随着冬季旅游旺季的临近,简中互联网上再次掀起一波“国外水深火热”的叙事高潮。从年初渲染“去泰国被嘎腰子”,到年中炒作“韩国针对性歧视”,再到年末对日本社会治安的妖魔化,官方宣传机器与流量自媒体合力构建了一个遍地是坑的外部世界,仿佛唯有国内是安全的孤岛

与此同时,一种独特的亚文化现象在社交媒体平台X上蔓延。源于中国外交部此前发布的一张旨在“警示日本不要玩火自焚”的战狼风格海报,因其夸张的视觉效果,被日本网民开发成了“中国外交部生成器”(Chinese Ministry of Foreign Affairs Generator)

img

原本严肃、充满攻击性的外交辞令背景,被全球网民填充进“不想上班”、“今天吃什么”等生活琐事或梗图。这种解构不仅消解了战狼外交的威慑力,更让原本意在煽动民族情绪的政治符号沦为了国际互联网上的笑料

然而,对于墙内的普通民众而言,全方位的恐吓式宣传带来了深层的认知失调。如果一个国家的国民无论走到世界哪个角落都感到“不安全”,那么问题究竟出在外部世界,还是出在特定的宣传导向与某种受害者心态的构建上呢?

讽刺的是,恰恰是在这个被宣传为“最安全”的地方,我们看到了针对外国人乃至同胞的仇恨犯罪不断上演。”

img


11月28日:“我连当面道歉的机会都没有,就要亲手拆掉这个舞台。”

该道歉的另有其人…

#每日一语 pic.twitter.com/SIHIkNmeKG

— 中国数字时代 (@CDTChinese) November 29, 2025

11月底,日本天后滨崎步备受瞩目的上海演唱会在原定开演前夕突然宣布取消。尽管主办方给出的理由是惯用的“不可抗力”,但真正的阻力来自哪里,舆论心照不宣。“亲手拆掉这个舞台”,成为了中日民间交流在2025年最苍凉的年终注脚。

img

这可能并非一场单纯的演出事故,而是冰冷的地缘政治向文化领域蔓延的必然结果 。

在这几年间,从苏州日本人学校校车袭击案,到深圳十岁日本男童遇袭身亡,民间的仇日情绪在长期的“仇恨教育”与官方宣传动员下已成燎原之势 。

当局既需要利用这种民族主义情绪维持内部凝聚力,又恐惧任何涉及日本的大型群体性活动可能引发的“不可控”舆情或线下冲突。

于是,牺牲掉一场演唱会成为了维稳成本最低的选择。一边是外交辞令上空洞的“愿同日方加强交流”,另一边却是实体舞台的被迫拆除。这种精神分裂式的治理逻辑,让所谓的“中日友好”只停留在文件里。

img

img

我们或许可以说:那个被拆掉的舞台,象征着两国之间最后一点基于人性的、非政治的连接,也在高涨的敌意中轰然倒塌。

阿里巴巴成立千问C端事业群

中国科技巨头阿里巴巴集团成立千问C端事业群,由集团副总裁吴嘉负责。

据新浪科技报道,事业群由原智能信息与智能互联两个事业群合并重组而成,包含千问APP、夸克、AI硬件、UC、书旗等业务。

阿里巴巴在内部沟通中提及,千问C端事业群的首要目标是将千问打造成为一款超级APP,成为AI时代用户的第一入口。

阿里称,未来,还将进一步把千问打造成无处不在的AI助手,覆盖眼镜、PC、汽车等场景,让每一个普通人都能随时随地使用AI,并持续从中受益。

综合每日经济新闻与《证券时报》此前报道,阿里巴巴旗下人工智能助手千问应用11月17日开启公测,并免费对外开放,在消费者端市场与美国ChatGPT展开全面竞争。

此前,阿里大模型一直将重心放在企业端市场,千问应用公测版的上线,标志着阿里全力进军AI的消费者端市场。

中国外交部:一贯主张中美通过合作实现互利共赢

美国批准向中国出售英伟达H200人工智能晶片,中国外交部回应称,中国一贯主张中美通过合作实现互利共赢。

中国外交部发言人郭嘉昆星期二(12月9日)主持例行记者会。有记者提问,美国总统特朗普称将批准向中国出售英伟达H200人工智能晶片。请问中国是否会允许购买这些H200晶片?另外,特朗普何时将这一决定告知中国?中美领导人之间是否通过电话?

郭嘉昆回答:“我们注意到有关报道。中方一贯主张中美通过合作实现互利共赢。”

特朗普宣布,他将允许英伟达向中国及其他国家的经批准客户供应H200人工智能晶片,条件是能够确保美国国家安全继续强大。

路透社报道,特朗普星期一(12月8日)在X平台说,美国商务部正在敲定具体细节,同样的方案也将适用于超微半导体(AMD)、英特尔以及其他美国公司。

特朗普在自家社媒平台Truth Social贴文说,他已将这一决定告知中国国家主席习近平,习近平做出了“积极回应”。

中国GPU独角兽摩尔线程A股上市首日涨超502%

被称为“中国版英伟达”的摩尔线程A股上市首日高开468.78%,盘中一度涨幅达502%,股价逼近700元(人民币,下同,128亿新元)关口,跃升为A股第三大高价股。

摩尔线程是中国国产人工智能(AI)晶片制造商。公司星期五(12月5日)正式在上海证券交易所科创板挂牌上市,是中国首家登陆资本市场的全功能GPU(图形处理器)企业。

综合《理财周刊》、格隆汇、彭博社等媒体报道,摩尔线程股价开盘最高报688元,较114.28元每股的发行价上涨502%,成为A股第三大高价股。

截至星期五收盘,公司股价涨超425%,市值2822.52亿元。摩尔线程在今年中国境内第二大首次公开募股(IPO)中募集80亿元资金。

分析认为,摩尔线程高开折射出资本市场对中国国产高端晶片的强烈信心。随着国际技术竞争加剧,摩尔线程将为中国晶片产业链自主可控提供重要支撑。

也有分析人士认为,摩尔线程上市标志着中国国产GPU企业正式进入规模化发展新阶段。

摩尔线程成立于2020年10月,是一家以全功能GPU晶片设计为主的集成电路高科技公司,创始人张建中曾担任美国科技巨头英伟达全球副总裁、中国区总经理。

学术痴|两木金:《光明日报》刊登AI作文是报人的耻辱

原文发布于2025年9月6日

CDT 档案卡
标题:两木金:《光明日报》刊登AI作文是报人的耻辱
作者:两木金
发表日期:2025.11.24
来源:微信公众号-学术痴
主题归类:人工智能
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

file

相关阅读:光明日报| 远去的打麦场

最近,纸媒界发生了一件令人匪夷所思的事情。

8月29日,《光明日报》第15版光明文化周末副刊版面刊登了一篇散文《远去的打麦场》,在文学界掀起轩然大波。

一篇1134字的散文为何会引发文学界的地震?其中有以下三方面的原因:

首先是因为《光明日报》在纸媒界具有举足轻重的地位。

《光明日报》创刊于1949年,是党中央主办、中宣部代管,以知识分子为主要读者对象的思想文化大报,在纸媒界的地位仅次于《人民日报》。

img

作为全国性的重要党报,《光明日报》是“党的喉舌”,在知识分子群体中影响最大。按理说,《光明日报》副刊上刊登的文章应该是精挑细选、严格通过三审三校,经得起千锤百炼的奇文佳作,绝对不会和AI作文拉扯上任何关系。能在《光明日报》副刊上发表散文,任何写作者都会感到无比自豪,会受到同行的一致羡慕和崇敬。

其次,散文《远去的打麦场》的作者林海平非等闲之辈。他在文坛可是响当当的人物,是AI作文第一人,无人能望其项背。

img

林海平是湖南省邵阳市新宁县黄龙镇的小学教师。自2024年元月份开始,他突然走红报纸副刊,短期内在各种报纸副刊发表散文、诗歌达600余篇(首)。

林海平承认其每天用AI创作五六篇文章,投递给报纸副刊邮箱,天天不间断发表两三篇文章。林海平靠着AI写作赚取了丰厚稿费,很快成为“知名作家”,随即加入了中国散文学会和湖南省作家协会。

img

从聊天记录来看,林海平对自己用AI创作的行为不以为耻,反以为荣,大言不惭,洋洋得意,这种极端扭曲的三观实在令人难以置信。

img

img

第三,林海平在《光明日报》上发表的散文《远去的打麦场》究竟是作者原创作品,还是AI作文?公众号号主两木金用AI检测工具对该文进行鉴定,结果为100%的AI作文,没有丝毫的人工创作痕迹。看来,林海平每日用AI写作多篇文章,过于繁忙,无暇人工修改,把AI创作的文章直接投稿。

AI作文能否用于文学创作,且在报刊上发表呢?答案不言而喻。AI之所以能作文,是对网上现有资料和数据进行快速机械地搜集整合、复制粘贴形成的文章,毫无疑问是赤裸裸地抄袭他人作品。AI作文既然是可耻的抄袭行为,那么,娱乐可以,在报刊上发表肯定不行。

国家网信办等四部门联合发布的《人工智能生成合成内容标识办法》自今年九月一日起正式施行,要求所有AI生成的文字、图片、视频等内容都要“亮明身份”。

对于林海平这样如雷贯耳的AI作文专业户,《光明日报》的副刊编辑和审稿领导竟然闻所未闻,让AI作文堂而皇之地登上了《光明日报》的版面,可谓严重的失职行为。

img

极具讽刺意味的是,《光明日报》第15版刊登AI作文,而在当天的报纸头版,在《改进文风大家谈》栏目刊登了一篇评论文章《AI写作代替不了“脚底板沾泥”》。文章指出,再好用的AI写作也替代不了“脚底板沾泥”的调研,再便捷的视频会议也不可取代促膝长谈,再全面的指标数据也不能代替群众感受。唯有将“键对键”的数据与“面对面”的体感相结合,多一些“行脚丈量、秉笔实录”的深度调研,才能让文风越来越实、作风越来越硬。

《光明日报》的这番操作的确非常滑稽,一方面在头版唱高调,倡导摒弃AI写作;另一方面,在15版公然刊登AI作文专业户用AI创作的散文。这分明就是翻手为云覆手为雨,既当婊子又立牌坊,实在是纸媒界的奇耻大辱。

梁启超是中国近代著名的政治家、思想家、报刊活动家。他的办报思想在中国新闻史上具有重要地位。他认为报纸是开启民智的重要工具,强调要通过报纸传播新知识、新思想,提高民众的文化素养和执政觉悟,从而推动社会的整体进步。

AI写作是新事物,但不是积极向上的正能量,好比文化垃圾、精神鸦片,毒害思想、培养文化惰性,既不能开民智,又阻碍文学的健康发展。每一位写作者和报刊编辑都应该坚决抵制AI作文,这是他们的神圣职责。

《光明日报》刊登AI作文,为报纸副刊树立了恶劣的典范,无疑会破坏文学的正常生态环境,必将成为中国新闻史上的一大丑闻。

作者简介

两木金,原名金林,陕西省武功县人,毕业于西北大学新闻系,陕西广播电视台九号发射台工程师。作品散见于《三角洲》《作家文摘》《农民日报》《中国应急管理报》《江西日报》《安徽日报》《河南工人日报》《春城晚报》《湘声报》《民主协商报》《四川政协报》《贵州政协报》《河北广播电视报》《国防时报》《老年康乐报》《中老年时报》《人民代表报》《山西晚报》《甘肃农民报》《河北青年报》《辽宁老年报》《燕赵老年报》《燕赵晚报》《三秦都市报》《各界导报》《自学考试报》《广州日报》《石家庄日报》《西安晚报》《西安日报》《兰州日报》《泰州晚报》《咸阳日报》等报刊,已出版散文集《遥望故乡月》。

img

李飞飞最新长文刷屏,AI 下一个十年最需要的不是大模型

当 ChatGPT 震惊世界时,我们以为 AI 已经足够聪明。但它依然做不到一件事:准确判断你伸手去够桌边咖啡杯时,手指距离杯沿还有多少厘米。

今天,知名 AI 学者李飞飞用一篇博客回答了这个问题:真正的智能不只是文字游戏,而是藏在一个我们每天都在使用却从未意识到的能力里:

空间智能。

这是一种比语言更古老的智能,改变人类文明的时刻,从来依靠的都不是语言,而是对空间的感知、想象与推理。
比如古希腊学者通过观察影子计算出地球周长,科学家摆弄金属丝拼出DNA的双螺旋结构,消防员在烟雾中凭直觉判断建筑是否会坍塌。

而现在,AI 即将获得它一直缺失的这种能力。

省流版如下:

1. 当前 AI(特别是大型语言模型 LLM)虽然那改变了我们运用抽象知识的方式,语言能力很强,却缺乏对物理世界的真实经验和理解。它们在机器人、科学发现、沉浸式创造力等领域仍有根本局限。空间智能是 AI 的下一个前沿。它将彻底改变我们创造和体验现实与虚拟世界的方式,并将在机器人、科学发现和创造力等领域引发变革。

空间智能是人类智能的基石,甚至先于语言存在。它不仅支撑着我们与物理世界的日常互动(如驾驶、接住钥匙),也是人类想象力、创造力和科学发现(如古希腊测量地球周长、DNA 双螺旋结构的发现)的核心。它是人类认知赖以构建的「脚手架」。

2. 尽管多模态模型(MLLM)有所进步,但 AI 在空间能力上与人类相差甚远。它们无法准确估计距离、方向,无法在脑中「旋转」物体,也无法预测基本的物理规律。AI 缺乏这种能力,就无法真正与物理现实建立联系。要实现空间智能,我们需要超越 LLM,构建更具雄心的「世界模型」。这是一种全新的生成式模型,其能力远远超越当今的 LLM。李飞飞与 World Labs 正致力于此。

3. 李飞飞定义了世界模型必须具备的三种能力:

  1. 生成性 (Generative):能够生成在感知、几何和物理规律上保持一致性的世界。
  2. 多模态性 (Multimodal):天生设计为多模态,能处理和输出多种形式的信息(如图像、视频、深度图、文字、动作)。
  3. 交互性 (Interactive):能够根据输入的「动作」,预测或输出世界的「下一个状态」,并最终可能预测「下一步应采取的行动」。

4. 李飞飞认为,构建世界模型远比构建语言模型困难,因为世界的维度远超语言。这需要克服三大挑战:

  • 新的训练任务:需要找到类似 LLM 中「下一个词预测」那样优雅的通用任务函数,但难度更高。
  • 大规模数据:需要能从海量的互联网图像和视频中提取深层空间信息,并辅以合成数据和多模态数据。
  • 新的模型架构:需要超越当前 1D/2D 序列范式,发展出具备 3D 或 4D 感知能力的新架构(比如 World Labs 的 RTFM 模型)。

5. AI 应当增强人类的能力,而非取而代之。AI 应始终尊重人的自主性与尊严。空间智能正是这一愿景的体现,它旨在赋能人类的创造力、关怀能力和科学发现。

6. 空间智能的应用将分阶段展开:

  • 近期(创造力):赋能故事讲述、电影、游戏和建筑设计。World Labs 已推出 Marble 平台,帮助创作者构建 3D 世界。
  • 中期(机器人学):实现「行动中的具身智能」。世界模型将通过模拟训练,使机器人成为人类的协作助手。
  • 长期(科学、医疗与教育):在药物研发、材料科学、辅助诊断、环境感知监护以及沉浸式教育等领域产生变革性影响。

7. 探索空间智能是李飞飞科研生涯的「北极星」。没有空间智能,「真正智能机器」的梦想就无法实现。她呼吁整个 AI 生态系统共同努力,将这项技术用来造福全世界。

从语言到世界:空间智能是人工智能的下一个前沿

1950 年,当计算机还只是自动化运算和简单逻辑的工具时,Alan Turing 提出了一个至今仍回荡的问题:机器能思考吗?他以非凡的想象力看到了一个大胆的可能——智能也许有一天不是天生的,而是被「创造」出来的。这个洞见后来开启了一场被称为「人工智能(AI)」的不懈科学探索。

在我从事人工智能研究的二十五年里,Turing 的远见依然激励着我。但我们离那个目标还有多远?这个问题并不容易回答。

如今,领先的人工智能技术——例如大型语言模型(LLM)——已经开始改变我们获取和运用抽象知识的方式。然而,它们依然像在黑暗中打磨文字的匠人:语言优美,却缺乏经验;知识丰富,却未真正立足于现实。空间智能(Spatial Intelligence)将重新定义我们创造和体验现实与虚拟世界的方式——它将彻底变革故事讲述、创造力、机器人学、科学发现等多个领域。这正是人工智能的下一个前沿。

自我进入这一领域以来,对视觉与空间智能的追求一直是我的北极星。这也是我花费多年时间创建 ImageNet 的原因——这是第一个大规模视觉学习与评测数据集,与神经网络算法以及现代计算(如 GPU 图形处理单元)一起,成为现代人工智能诞生的三大关键支柱之一。过去十年里,我在斯坦福大学的实验室致力于将计算机视觉与机器人学习相结合。而正因为这一信念,我与联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 于一年多前共同创立了 World Labs——希望第一次真正实现这一愿景。

在这篇文章中,我将解释什么是空间智能、它为何重要,以及我们如何构建能够解锁这种智能的「世界模型」——这种能力将重新塑造创造力、具身智能,以及人类的进步。

空间智能:人类认知的支架

人工智能正处在前所未有的激动人心的时刻。生成式 AI 模型(如大型语言模型,LLM)已经从研究实验室走进日常生活,成为数十亿人用于创造、工作和交流的工具。它们展现出了曾被认为不可能的能力——能够轻松生成连贯的文本、大量的代码、逼真的图像,甚至短视频片段。如今,我们已无需再问「AI 是否会改变世界」,因为无论从哪个角度来看,它已经在改变世界。

然而,仍有许多目标尚未实现。自主机器人的愿景依旧令人着迷,但仍停留在猜想阶段,距离未来学家所描绘的日常生活场景还有很远。AI 在疾病治愈、新材料发现、粒子物理等领域中实现研究飞速推进的梦想,也仍然大体未能实现。而能真正理解并赋能人类创造者的 AI——无论是学习分子化学复杂概念的学生、构思空间的建筑师、构建世界的电影制作人,还是追求沉浸式虚拟体验的任何人——仍未到来。

要理解这些能力为何仍难以实现,我们需要回溯空间智能的演化历程,并探究它如何塑造了我们对世界的理解。

视觉长期以来一直是人类智能的基石,但它的力量源于更为根本的机制。在动物能够筑巢、养育后代、使用语言交流或建立文明之前,最初那种感知的能力——哪怕只是捕捉到一束光、一种触感——就悄然点燃了通往智能的进化之路。

这种看似孤立的、从外部世界提取信息的能力,在感知与生存之间搭起了一座桥梁,而这座桥梁随着世代更迭不断加固、扩展。层层叠叠的神经元在这座桥上生长,形成了解读世界、协调有机体与环境互动的神经系统。因此,许多科学家推测:「感知—行动」这一循环正是智能进化的核心驱动力,也是自然界创造出我们——这种能感知、学习、思考并行动的物种——的根本基础。

空间智能在我们与物理世界的互动中起着至关重要的作用。每天,我们都在依赖它完成各种看似平凡的动作:停车时通过想象车头与路沿间逐渐缩小的距离来判断位置;接住从房间另一头扔来的钥匙;在人群密集的人行道上穿行而不相撞;或是半睡半醒时不用看就能把咖啡倒进杯子里。

在更极端的情境下,消防员在坍塌的建筑物中穿行,在烟雾弥漫的环境中凭直觉判断结构是否稳定、如何生存,并通过手势、身体语言以及一种难以言传的职业本能进行交流。而孩子们则在学会说话之前的几个月甚至几年里,通过与环境的游戏式互动来认识世界。所有这一切都发生得自然而然、毫不费力——这正是一种机器尚未掌握的「本能流畅」。

空间智能同样是我们想象力与创造力的基础。讲故事的人在脑海中构建出丰富的世界,并借助各种视觉媒介将其传达给他人——从远古的洞穴壁画,到现代电影,再到沉浸式电子游戏。无论是孩子们在沙滩上堆砌城堡,还是在电脑上玩《我的世界》(Minecraft),以空间为基础的想象力都是他们在现实或虚拟世界中进行互动体验的核心。

在众多行业中,对物体、场景以及动态交互环境的模拟也成为关键支撑——从工业设计到数字孪生,从机器人训练到各种业务应用,空间智能驱动着无数重要的实践场景。

纵观历史,空间智能在许多奠定文明走向的关键时刻都发挥了核心作用。

在古希腊,Eratosthenes 通过观察「影子」悟出了几何原理——他在亚历山大测量到阳光与地面形成的 7 度角,并在同一时间注意到赛恩城没有影子,由此计算出了地球的周长。

Hargreave 发明的「珍妮纺纱机」(Spinning Jenny)则通过一个空间布局的巧思彻底革新了纺织业:他将多个纺锤并排安装在同一架子上,让一个工人能够同时纺出多股纱线,从而将生产效率提高了八倍。

Watson 和 Crick 则通过亲手搭建三维分子模型,摆弄金属板与金属丝,最终拼出了 DNA 的空间结构,让碱基对的排列方式恰如其分地契合在一起。

在这些案例中,空间智能都是推动人类文明前进的关键力量——科学家和发明家必须操控物体、想象结构,并在物理空间中进行推理,而这些过程是文字所无法完全表达的。

空间智能,是人类认知赖以构建的「脚手架」。无论是被动观察还是主动创造,它都在发挥作用。它驱动着我们的推理与规划,即便面对最抽象的问题也是如此。它同样决定了我们与世界互动的方式——无论是语言交流还是身体行动,无论是与他人还是与环境本身的互动。

虽然我们大多数人并不会每天都像 Eratosthenes 那样揭示自然的奥秘,但我们依然以相同的方式思考——通过感官理解复杂的世界,并凭直觉掌握其中的物理与空间规律。

遗憾的是,如今的人工智能还无法像这样思考。

过去几年中,人工智能确实取得了巨大进步。多模态大型语言模型(Multimodal LLMs,简称 MLLM)在海量多媒体数据(除了文本外还包括图像、音频、视频等)的训练下,初步具备了某种「空间感知」能力。如今的 AI 已能分析图片、回答与图片相关的问题,并生成极其逼真的图像与短视频。同时,得益于传感器与触觉技术的突破,最先进的机器人也开始能够在高度受限的环境中操控物体和工具。

但坦率地说,AI 的空间能力仍远未达到人类水平,这种差距一眼便能看出。当前最先进的 MLLM 模型在估计距离、方向、大小等方面的表现往往不比随机猜测好多少——它们也无法像人类那样在脑海中「旋转」物体,从不同角度重新想象其形状。它们不能穿越迷宫、识别捷径,也无法预测最基本的物理规律。AI 生成的视频虽然令人惊叹,但往往在几秒后就失去连贯性。

目前的尖端 AI 虽然在阅读、写作、研究和数据模式识别等任务中表现出色,但在理解或与物理世界交互时,却存在根本性的局限。我们对世界的感知是整体性的——不仅看到「事物本身」,还理解它们在空间上的关系、意义以及重要性。而通过想象、推理、创造和互动来理解世界——而不仅仅是用语言去描述——这正是空间智能的力量所在。

缺乏这种能力,AI 就无法真正与它想要理解的物理现实建立联系。它无法安全高效地驾驶汽车,无法在家庭或医院中灵活地引导机器人,也难以为学习与娱乐提供全新的沉浸式互动体验,更无法大幅加速材料科学或医学领域的发现。

哲学家维特根斯坦(Wittgenstein)曾写道:「我的语言的界限意味着我的世界的界限。」

我并非哲学家,但至少我知道——对于人工智能而言,世界不止于「语言」。空间智能代表着超越语言的前沿——它是一种将想象、感知与行动连接起来的能力,使机器真正能够拓展人类的生活潜能,从医疗到创造力,从科学发现到日常助理,都因此焕发新可能。

人工智能的下一个十年:构建真正具备空间智能的机器

那么,我们该如何构建具有空间智能的 AI?怎样才能让模型既能像 Eratosthenes 那样进行空间推理,又能像工业设计师那样精确创造,像讲故事的人那样富有想象力,并像救援人员那样在复杂环境中灵活行动?

要实现这一点,我们需要的不只是大型语言模型(LLM),而是一种更具雄心的体系——世界模型(World Models)。这是一类全新的生成式模型,能够在语义、物理、几何与动态复杂的世界中——无论虚拟还是现实——进行理解、推理、生成与交互,其能力远远超越当今的 LLM。

这一研究领域尚处于萌芽阶段,目前的探索方法从抽象推理模型到视频生成系统皆有涉猎。World Labs 正是在这种信念下于 2024 年初创立的:我们认为,基础方法尚未确立,而这正是未来十年人工智能发展的决定性挑战。

在这个新兴领域中,最重要的是建立一套指导发展的核心原则。对于空间智能而言,我将「世界模型」定义为具备以下三种关键能力的系统:

1. 生成性(Generative):世界模型能够生成具备感知、几何与物理一致性的世界

要实现空间理解与推理,世界模型必须具备生成自身「模拟世界」的能力。它们应能根据语义或感知层面的指令,生成无穷多样的虚拟世界——这些世界无论在几何结构、物理规律还是动态变化上,都必须保持一致性,无论它们代表的是现实空间还是虚拟空间。

研究界正在积极探索这些世界应当以内在几何结构的隐式还是显式形式来表示。此外,除了具备强大的潜在表示能力,我认为一个通用的世界模型还必须能够输出清晰可观测的世界状态,以适应多种应用场景。尤其重要的是,模型对「当下世界」的理解必须与「过去世界」的状态相连贯——它要能理解世界从过去如何演变到现在。

2. 多模态性(Multimodal):世界模型从设计上就是多模态的

就像人类与动物一样,世界模型也应能处理多种形式的输入——在生成式 AI 领域,这些输入被称为「提示(prompt)」。面对不完整的信息(如图像、视频、深度图、文字指令、手势或动作),世界模型应能预测或生成尽可能完整的世界状态。

这要求它在处理视觉输入时具备接近真实视觉的精度,同时在理解语义指令时同样灵活。这样,智能体(agent)与人类都能通过多样化的输入与模型进行交流,并获得同样多样化的输出反馈。

3. 交互性(Interactive):世界模型能够根据输入的动作输出下一步的世界状态

最后,当「动作」或「目标」被作为输入提示的一部分时,世界模型的输出必须包含世界的下一状态,这种状态可以是隐式的,也可以是显式的。

当模型接收到一个动作(无论是否包含目标状态)作为输入时,它应能输出与世界先前状态、目标状态(若有)、语义含义、物理规律及动态行为一致的结果。

随着具备空间智能的世界模型在推理与生成能力上不断增强,可以想象——未来面对某个给定目标时,世界模型不仅能够预测世界的下一状态,还能基于这一新状态预测「下一步应采取的行动」。

这一挑战的规模,远超人工智能以往所面对的一切。

语言,是人类认知中一种纯粹的生成现象;而「世界」,却遵循着复杂得多的规律。以地球为例,引力决定了运动规律,原子结构影响了光线的色彩与亮度,无数的物理定律限制着每一次交互。即便是最天马行空的虚构世界,也依然由服从这些物理法则与动态行为的空间物体和智能体所构成。要让语义、几何、动态与物理这几种层面在同一模型中保持一致,需要全新的方法与思路。

世界的表示维度远比语言这种「一维、序列信号」复杂得多。要让世界模型具备人类所拥有的那种通用能力,我们必须跨越多个艰巨的技术障碍。而在 World Labs,我们的研究团队正致力于为实现这一目标奠定基础性突破。

以下是我们当前正在研究的一些课题示例:

· 一种新的通用训练任务函数
为世界模型定义一个像大型语言模型(LLM)中「下一个词预测」那样简单又优雅的通用任务函数,一直是该领域的核心目标。然而,由于世界模型的输入与输出空间更加复杂,这一函数的设计难度要高得多。尽管仍有许多未知需要探索,但这种目标函数及其对应的表示方式,必须能够体现几何与物理规律,忠实地反映世界模型作为「连接想象与现实的有根表示」的本质。

· 大规模训练数据
训练世界模型所需的数据复杂程度远超文本数据。好消息是——庞大的数据源已经存在。互联网级的图像与视频资源,为训练提供了丰富、可获取的素材。真正的挑战在于:如何开发算法,从这些基于二维图像或视频帧(即 RGB 信号)的数据中提取更深层次的空间信息。过去十年的研究表明,语言模型的性能提升遵循「数据量与模型规模的扩展规律」;而对于世界模型来说,关键突破在于构建能够在相似规模下充分利用视觉数据的模型架构。

此外,我们也不应低估高质量合成数据以及深度图、触觉等额外模态的价值。它们在训练过程的关键阶段能对互联网级数据起到补充作用。要让这一过程更高效,还依赖于更先进的传感系统、更稳健的信号提取算法,以及更强大的神经仿真技术。

· 新的模型架构与表征学习
世界模型的研究必然会推动模型架构与学习算法的革新,特别是超越当前多模态语言模型(MLLM)和视频扩散模型的范式。现有方法通常将数据「分词化」为一维或二维序列,这让一些简单的空间任务变得异常困难——例如在短视频中数清不同的椅子,或回忆一小时前房间的布局。

新的架构可能带来改进,比如在分词、上下文与记忆机制中引入三维或四维感知能力。举例来说,World Labs 最近开发的实时生成帧模型(RTFM)就是这种转变的体现。该模型利用「以空间为基础的帧」作为空间记忆单元,实现了高效的实时生成,同时在生成的世界中保持连续性与稳定性。

显然,我们距离通过「世界建模」彻底释放空间智能的潜能,还有许多艰巨的挑战要克服。

这项研究不仅仅是理论探索——它是推动新一代创造性与生产力工具的核心引擎。而在 World Labs,我们已经取得了一些令人振奋的进展。

最近,我们向少量用户展示了 Marble ——首个能够通过多模态输入进行提示(prompt),并生成、维持一致性三维环境的世界模型。它让用户与创作者能够在这些虚拟空间中探索、互动,并将其纳入创作流程中继续扩展。我们正在努力,让 Marble 尽快向公众开放!

Marble 只是我们迈向真正具备空间智能的世界模型的第一步。
随着研究的加速推进,科研人员、工程师、用户和商业领袖都开始认识到这项技术的非凡潜力。下一代世界模型将让机器实现一个全新的空间智能层次——这将解锁当今 AI 系统中仍大多缺失的关键能力。

用「世界模型」构建更美好的人类世界

推动 AI 发展的动机至关重要。

作为一名参与开启现代人工智能时代的科学家,我的初衷始终明确:AI 应当增强人类的能力,而非取而代之。

多年来,我一直致力于让 AI 的发展、应用与治理更好地契合人类需求。如今,关于科技乌托邦与末日论的极端叙事层出不穷,但我始终保持务实的信念:AI 由人创造,为人服务,并由人类治理。

它必须始终尊重人的自主性与尊严。AI 的真正魔力在于延展我们的能力——让我们变得更有创造力、更具连接性、更高效,也更充实。

空间智能正体现了这一愿景:

它是一种能赋能人类创作者、照护者、科学家与梦想家的人工智能,帮助我们实现曾经无法实现的目标。
正是这种信念,支撑着我将「空间智能」视为人工智能下一个伟大前沿领域的决心。

空间智能的应用将分阶段展开。

如今,创意类工具 已经开始出现——World Labs 的 Marble 已将这些能力交到创作者与故事讲述者手中。
机器人学 是中期目标,我们正在不断完善「感知—行动」循环,使机器能够在物理世界中灵活操作。
而最具变革性的 科学应用 可能需要更长时间,但它们的影响将深远,足以促进人类福祉的全面提升。

在这些不同的发展阶段中,有若干关键领域尤为突出——它们蕴含着重新定义人类能力的巨大潜力。

要实现这一目标,必然需要集体的努力——远非一个团队或一家公司所能独立完成。

这将需要整个 AI 生态系统的共同参与:研究者、创新者、企业家、公司乃至政策制定者,都应携手朝着共同的愿景前进。

而这个愿景,值得我们为之奋斗。

未来,将由此展开:

创造力:为讲故事与沉浸式体验赋予超级能力

「创造力就是智慧在玩耍。」这是我最喜欢的一句名言,出自我个人的英雄——爱因斯坦。在人类拥有文字之前,就已经在讲故事了——在洞穴的墙壁上作画、通过口口相传流传下来,并在共同的叙事中建立起整个文化。故事帮助我们理解世界,跨越时间与空间建立联系,探索「人类」意味着什么。更重要的是,它帮助我们在生命与爱中找到意义。

如今,空间智能有潜力彻底改变我们创作和体验故事的方式,不仅保留其根本的重要性,还将其影响力延伸至娱乐、教育、设计、建筑等多个领域。

World Labs 的 Marble 平台为电影制作人、游戏设计师、建筑师以及各类讲故事的人,提供了前所未有的空间能力和编辑控制权,让他们能够快速创建并反复迭代可自由探索的 3D 世界,而无需传统 3D 设计软件所需的大量投入。创造本身依旧是充满人性和活力的行为,AI 工具只是放大并加速了创作者的潜能。这包括:

  • 多维度叙事体验:电影人和游戏设计师正在利用 Marble 构建完整的虚拟世界,不再受限于预算或地理位置。他们能探索各种场景和视角,这在传统的制作流程中几乎是无法实现的。随着不同媒介和娱乐形式的界限逐渐模糊,我们正迈向全新的交互式体验形式,它融合了艺术、模拟和游戏——一个个个性化世界,不再仅属于大型工作室,而是任何人都可以创造和参与其中。随着更快速的方法将创意和分镜转化为完整体验,叙事将不再局限于某一种媒介,创作者可以在各种平台和界面上建立拥有共同线索的故事世界。
  • 通过设计实现空间叙事:几乎所有制造出来的物品或建造的空间,在实际成形之前都必须先进行虚拟 3D 设计。这个过程通常需要大量时间和金钱,且高度反复。而借助具备空间智能的模型,建筑师可以在投入数月设计前快速可视化结构,甚至可以「走进」还不存在的空间——讲述我们未来如何生活、工作和聚会的故事。工业设计师和时尚设计师也可以立即将想象转化为形体,探索物体如何与人体和空间互动。
  • 全新的沉浸式与互动体验:体验本身,是我们人类赋予事物意义的最深刻方式之一。在人类历史的绝大多数时间里,我们只拥有一个三维世界:我们共同生活的现实世界。直到近几十年,通过电子游戏和早期的虚拟现实(VR),我们才开始窥见由人类自己创造的另一个世界。而如今,空间智能结合虚拟现实(VR)、扩展现实(XR)头显以及沉浸式显示设备,使这些体验达到了前所未有的高度。我们正走向一个未来——进入完整构建的多维世界将像翻开一本书一样自然。空间智能让世界构建能力不仅属于拥有专业制作团队的工作室,也属于有故事、有想法的每一个人,包括独立创作者、教育者以及任何想要表达愿景的人。

机器人技术:行动中的具身智能

从昆虫到人类,动物依靠空间智能来理解、导航并与周围世界互动。机器人也不例外。具备空间感知能力的机器一直是机器人领域的梦想,我在斯坦福的研究实验室与学生和合作者们的工作,也正是围绕这一目标展开。这也是我对 World Labs 所构建的模型充满期待的原因之一——它们有望让这一梦想成真。

  • 通过世界模型扩展机器人学习能力:机器人学习的进步依赖于可扩展的高质量训练数据。考虑到机器人必须学会理解、推理、规划和互动的庞大状态空间,许多研究者认为要真正实现通用型机器人,必须结合互联网数据、合成仿真和现实世界中的人类示范数据。然而,与语言模型不同,机器人研究目前缺乏足够的训练数据。而世界模型将在其中发挥决定性作用。随着其感知逼真度和计算效率的提升,世界模型的输出可以迅速缩小仿真与现实之间的差距。这将有助于在无数种状态、互动和环境的模拟中训练机器人。
  • 成为伙伴与协作助手:机器人作为人类的协作伙伴,无论是在实验室中辅助科学家,还是在家中帮助独居老人,都能在劳动力紧缺和生产效率亟需提升的背景下,承担重要角色。但要实现这一点,机器人必须具备空间智能:能够感知、推理、规划和行动,而且——这一点最关键——要能与人类的目标和行为保持情感上的一致性。例如,实验室里的机器人可以操作仪器,让科学家专注于需要精细操作或逻辑推理的任务;而家用机器人可以协助老年人做饭,同时不剥夺他们的乐趣与自主性。真正具备空间智能的世界模型,能够预测环境的下一步状态,甚至预测符合人类预期的动作,对于实现这一目标至关重要。
  • 拓展具身形式的多样性:类人机器人确实适用于我们为自己打造的世界,但技术创新的全部潜力,将体现在更丰富多样的设计形式中:比如能够输送药物的纳米机器人、可在狭小空间中活动的软体机器人,以及为深海或外太空环境设计的专用机器。不论它们的外形如何,未来的空间智能模型都必须整合机器人所处的环境,以及其自身的感知与运动能力。但开发这些机器人面临的核心挑战之一,是缺乏适用于各种具身形式的训练数据。世界模型将在模拟数据生成、训练环境构建,以及任务基准测试等方面,发挥关键作用。

更长远的视野:科学、医疗与教育

除了在创意和机器人领域的应用,空间智能还将在其他领域产生深远影响,特别是在那些 AI 可以增强人类能力、挽救生命、加速发现的地方。我在下面重点介绍三个具有变革潜力的领域,当然,空间智能的应用远不止于此,还将在更多行业中大展拳脚。

在科学研究中,具备空间智能的系统可以模拟实验、并行测试假设,并探索人类难以抵达的环境——从深海到遥远的行星。这项技术将彻底改变气候科学、材料研究等领域的计算建模方式。通过将多维仿真与真实世界的数据采集相结合,这些工具可以降低计算门槛,扩展每一个实验室所能观察和理解的范围。

在医疗健康领域,空间智能将重塑从实验室到病床的各个环节。在斯坦福,我的学生和合作伙伴们多年来一直与医院、养老机构以及家庭中的病患合作。这些经验让我深信,空间智能在医疗中的变革潜力巨大。AI 可以通过建模分子之间的多维交互,加速药物研发;通过辅助放射科医生识别医学影像中的模式,提升诊断精度;还可以实现环境感知型的监护系统,为病患和护理人员提供支持,同时不替代医疗过程中至关重要的人际联系。更不用说机器人在协助医护人员和患者方面,在多种场景中也大有可为。

在教育方面,空间智能能够实现沉浸式学习,让抽象或复杂的概念变得具体可感,并创造出与人类大脑和身体学习方式高度契合的、可反复练习的学习体验。在 AI 时代,无论是对学龄儿童还是成年人成年人来说,更快、更有效的学习和技能再培训都尤为关键。学生可以「进入」细胞机制,或亲身「走过」历史事件;教师可以借助交互式环境实现个性化教学;而从外科医生到工程师等专业人士,也能在逼真的模拟中安全地练习复杂技能。

虽然这些领域的应用前景几乎没有边界,但我们的目标始终如一:用 AI 增强人类的专业能力、加速人类的发现、放大人类的关怀——而不是取代那些构成人类本质的判断力、创造力与同理心。

结语

过去十年,人工智能已成为全球现象,并在科技、经济乃至地缘政治领域引发重大转折。但作为一名研究者、教育者、如今也是一位创业者,最令我振奋的,仍然是图灵在 75 年前提出的那个问题背后的精神。我依然怀有与他相同的那份好奇与敬畏之心。正是这种探索空间智能的挑战,成为我每天的动力源泉。

在人类历史上,我们第一次有机会打造出与物理世界高度协调的机器,使它们成为我们应对重大挑战时真正的合作伙伴。无论是在实验室中加速对疾病的理解、彻底改变我们讲述故事的方式,还是在我们因疾病、受伤或衰老而处于最脆弱状态时给予支持,我们正站在这样一项技术的门槛前,它将提升那些我们最在乎的生活体验。这是一种更深刻、更丰富、更有力量的生活愿景。

在大约五亿年前,大自然首次赋予远古动物空间智能的萌芽。而今天,我们有幸成为这一代技术人中的一员,可能很快就能让机器也拥有这种能力——并有机会将这项能力用来造福全世界人民。没有空间智能,我们对「真正智能机器」的梦想就无法真正实现。

这个探索旅程,就是我心中的北极星。欢迎你与我一同追寻。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


这股裁员风会很快刮到我们这里来

AI

最近一年来,美国几大科技公司(互联网大厂)的裁员新闻,令我有所震惊,光下面这几组数据,每个公司都在裁掉成千上万的员工。

2025 年美国主要科技公司裁员情况对比
公司名称 裁员时间 裁员人数 占总员工比例 裁员主要部门 官方或媒体提到的原因
Google(Alphabet) 2025年1月、5月、10月 累计约 1.5 万人 约 6% 云计算、硬件、招聘与广告部门 精简非核心业务、投入 AI 和云算力基础设施
Microsoft 2025年2月与6月 约 1 万人 约 5% LinkedIn、游戏与市场部门 AI 转型与成本优化、业务重组
Amazon 2025年3月 超过 2 万人 约 6–7% AWS、零售、设备部门 专注盈利业务、AI 驱动自动化
Meta(Facebook) 2025年初 约 8,000 人 约 5% 运营、招聘与 Reality Labs “效率之年”持续,聚焦 AI 和元宇宙核心项目
Apple 2025年上半年 约 3,000 人 <2% 硬件与零售支持 重组 Vision Pro 团队、控制成本
Tesla 2025年4月 约 6,000 人 约 8% 制造、销售与软件测试 电动车需求波动、聚焦自动驾驶与 AI 芯片
Intel 2025年中 约 10,000 人 约 15% 制造与行政管理 盈利压力、转型 AI 芯片与代工服务
Salesforce 2025年初 约 7,000 人 约 10% 销售与客服 AI 自动化减少人工岗位、利润优化

而且,在被裁的科技员工中,超过 68% 拥有硕士或博士学位,而本科毕业于前 100 名高校的比例也超过 40%。这与“科技公司裁员”传统印象(基层岗位多)不同:这次很多是中层、项目经理、数据分析师、产品负责人被裁。这些被裁的员工的毕业院校包括 Stanford、Berkeley、CMU、MIT、哥大、密歇根、滑铁卢、UCL 等一系列名校。

另外,与以前遇到经济危机、企业经营不善的情况相反,这次并非如此,裁员之后,这些公司的股价得到资本市场认可。

这背后的主要原因就是人工智能的发展,AI的发展会令人类工作岗位遭到重新洗牌,但我没有想到居然这么快,企业把人类的岗位裁下去以后,直接用这些工资支出买GPU显卡算力,对于企业的发展更为有利,也因此资本市场非常认可这种裁员。

纵观人类历史,每一次科技浪潮都会对人类社会造成冲击,这一次也不例外。

技术浪潮与学历影响(概览)
时期 技术浪潮 受影响的学历群体 典型表现 社会影响 普通人应对方式
18世纪末–19世纪初 工业革命(蒸汽机、机械化生产) 手工业师傅、行会学徒 机械替代手工技艺,传统手工业者失业 “卢德运动”爆发,技术工人抗议机器 转向机械操作、工程管理等新技能
20世纪初 电气化与流水线生产 传统工匠与一般技校毕业生 工厂普遍采用标准化生产流程 大量重复性岗位被替代,学历优势下降 学习机械工程、电气工程等新兴学科
20世纪80–90年代 计算机与信息革命 文秘、档案管理、基础会计等文职人员 电脑替代打字员、档案员等岗位 本科文凭普及但“含金量”下降 学习计算机技能、数据分析、程序设计
2000年代中期 互联网与自动化浪潮 中层管理人员、传统媒体从业者 企业层级扁平化,新闻传播方式改变 信息不对称减少,学历溢价下降 发展跨界能力与创新思维
2020年代 人工智能与大模型浪潮 程序员、设计师、内容创作者等知识型群体 AI自动化生成与辅助系统广泛应用 高学历岗位被部分替代或重构 提升人机协作能力、AI应用素养、复合型技能

对于美国大厂这一波裁员事件,我个人想到的思考有以下三点:

第一,学历文凭有用,但将继续贬值。过去进入顶尖名校(如常春藤、MIT、斯坦福)并拿到大厂(FAANG – Facebook/Meta, Amazon, Apple, Netflix, Google)的offer,被视为“上岸”的终极形态,从今往后,“学历贬值”将继续演变下去。当然,学历(如大学文凭)本身不会说变得一文不值,而是指它不再能保证一个稳定、高薪、一劳永逸的未来。同时,我们每个人都需要保持终生学习的态度,否则,学历所代表的知识体系会迅速过时。

第二,AI带来生产能力提升,并不是一件坏事,有些社会商品和服务将会变得廉价——我们的生活质量会变得更好,另一些将变得昂贵——我们人类可以提供这类服务赚钱。

“极度廉价”的(可标准化的)商品和服务:

  • 所有数字产品: 软件、游戏、订阅服务、AI算力。
  • 标准化的实体商品: 基础食物、衣物、家电、交通工具。
  • 标准化的服务: 基础的法律咨询、财务记账、翻译、代码编写(这些将被AI接管)。

“极度昂贵”的(稀缺的)产品和服务:

  • 人类的、个性化的服务: 顶级的医生、创意总监、心理咨询师、手工匠人、贴心的护理服务。
  • 稀缺的位置和体验: 核心城市的房产、独特的旅行体验、现场的艺术表演(音乐会、体育比赛)。
  • 人与人之间的真实连接: 情感、信任、社群归属感。

第三、个体如何发展?人类个体要考虑与AI进行差异化竞争发展。我们和AI比效率完全不再有优势——就像人类跑步和汽车比速度、人类打算盘算数和计算器比速度,相反,我们也许做一些想象创造力的事情,或者做一些可见的将来机器和AI还做不了的事情——参考上面提到的“极度昂贵”的(稀缺的)产品和服务,只做一个会考试的应试者没有用处——文凭用处没有过去那么大了。

此外,我个人还认为,美国大厂这股裁员风会很快刮到我们这里来,这种事情不以个人的意志而受到阻碍。

AI时代还要自己写作吗?

AI

我最近很少在博客上写作了,一个重要的原因是人工智能AI的盛行,它令我一度感到很困惑。就拿写作这件事情来说,我发现人类在AI面前,人类完全和AI没法比,而我还不是那个最聪明的人类。

前一阵子,我想写点平时读书后的读后感,如果借助AI,可以很短时间就生成大而全甚至符合自己个性要求的文章。而我自己一个字一个字写的话,无论是速度还是质量,都达不到AI的水平。这种对比非常打击我想写作的欲望,可以看出来,我最近的更新频率都快变成了月更了——每月只更新一篇。

然而这样大而全甚至有一定个性的AI文章(如果提示词足够细致的话),它还是我的思想的体现吗?记录的是我的真实想法吗?我不这样认为。哪怕我自己写的东西不完美,它至少是我的真实想法。

我反思我自己写作的目的。我并不是为了写出完美的文字——我也写不出来,我的目的就是为了记录自己的想法和经历,顺便分享、交流。通过写作这个过程确保我的思维不老化,让我接触更多的信息和产生思考,同时也享受这个过程带来的快乐。这样一想,我自己写作和AI帮我写作完全就是两件事情,甚至是我在AI时代更需要做的事情——思想体操,我不想老得那么快——至少是思想层面。

回想起交通工具汽车诞生之后,我们人类跑步就已经基本失去作为交通方式的意义了。无论人跑得多快,也跑不过一辆最差的汽车,更不用说飞机火箭的速度了。那人类还需要跑步吗?

我们依然还在跑步,甚至很多人喜欢跑马拉松,在国际比赛中还不断去打破以往的各种跑步世界纪录。我们跑步的目的是什么?不是为了和汽车比速度。而是为了锻炼自己的身体机能,更多的人在锻炼过程的汗水里收获多巴胺——快乐。

面对这AI时代,确实会对许多事情产生冲击,哪怕是写作这件个人爱好,AI的出现也让我产生了以上这些想法。好在我还能思考,我思故我在:知道为什么要做这件事情,比知道如何去做更重要。

机器终将读懂一切

总感觉发布博客文章的耗时太漫长,细节不多讲,总之似乎是某个环节浪费了太多时间,于是打算精简结构。首先挨个功能权衡一下是去是留。轮到每篇文章内容下方的「相关文章」列表时,突然想起一位故人。

Leavic 是我二十年前因为同样使用 MovableType 写博客而认识的一位朋友,这些倒是题外话了,因为现在他的博客早已无法访问。甚至搜索「leavic lifetyper」这些关键词,结果都寥寥无几,他好像是彻底和网络断绝了联系。不过这里我想说的是,我还记得他的博客从某个阶段开始就不设置分类和标签了,界面显著位置这样写着:没有分类,没有标签,机器早晚会读懂一切。

不禁感叹兄之远见。而我几乎是刚刚才知道,机器(AI)通过把内容转换成向量——超高纬度的抽象概念数据(Embeddings),然后简单地对比向量的相似度,就能完成分类、匹配相关文章,或者别的什么语义相关的工作,就像真的读懂了一切。

想到一款手机应用:Huxe。它可以搜罗妳设置的兴趣话题的近期新闻,然后像聊天一样聊给妳听。它在向我介绍咖啡相关的一些内容时,可能是为了让台词衔接更顺畅,说了这样一段:

这我很有体会。在开始写一篇复杂的文章前,我一定会先花十分钟手冲一杯咖啡。这个过程确实能帮我整理思绪。

抱歉,我没有歧视机器的意思,但,我该怎么相信它说的「很有体会」? 好吧,或许向量转化成字符的那几毫秒,被它类比成「花十分钟手冲一杯咖啡」,但它又如何确信这种类比成立?

fin.

未来学大会

电影《未来学大会》里,罗宾·怀特(Robin Wright)饰演的女主角授权一个公司使用她的影像和声音来制作各种各样的广告和节目。电影里,为了让这个授权得以实现,女主角在一个特殊的拍摄场地里,被密密麻麻排列成球形的摄像机包围在中间,做出各种表情和动作,摄像机们从各个角度拍摄她的影像。如果是一两年前,这种幻想设定有合情合理的未来感。但是现实是,这几天谷歌发布的 nano banana 模型,几乎已经实现了,只用一张照片就模拟出一个人的各种表情和姿势。虽然目前肯定还达不到电影级别的逼真,不过,这依然让电影里这一部分的设定显得有些不够科幻了。科幻在预言技术剥削的核心与本质上是超前的,但在具体实现方式的隐蔽性、平庸性和普及速度上,每每落败于现实。

fin.

我的认知突围:从文字信徒到多媒体拥趸?

土木坛子

每个人心中的成见,都是一座大山。

作为一个多年来以文字为创作载体的老博主,我曾深深地热爱文字,因为它简单、便捷,便于检索、保存和传递。相较之下,声音、图片乃至视频似乎总显得冗长而繁琐。阅读文字,信息传达得更为高效,而视频播放时需要调速来提高效率——毕竟,语言的语速远不如阅读的速度快,使得我们在主动控制上的感觉相对薄弱。

我也曾见过一些极端的文字控,他们甚至对带格式的文字嗤之以鼻,唯独钟情于最纯粹的文本文字,简洁到近乎苛刻的地步。可是,当我们看到如今各种短视频和直播内容的流行,显而易见,视频形式正以其独特魅力俘获大众的心。这无疑是对传统文字模式的一种挑战。

回想上一次阅读《乔布斯传》时,我惊叹于80年代乔布斯如何通过图形界面改变电脑的使用体验。当时,IBM等厂商仍然坚持命令行文字的操作模式,部分原因在于硬件配置限制了图形化处理的可能性。而到了今天,我们看到大多数用户更依赖于直观、友好的图形界面——无论是Windows还是苹果系统,都证明了图形界面的巨大优势(虽然Linux命令行流行于服务器领域)。或许我曾对自己固守的习惯过于执着,成长意味着要敢于对那些不再适应时代发展的坚持进行选择性放弃。

不可否认,无论是文字还是视频,都充斥着大量的垃圾信息,需要我们在海量内容中慧眼识珠。事实上,优秀的视频作品也不在少数,它们直观、信息密度高,甚至在高速网络的支持下能迅速传递到每个角落。随着AI技术的发展,这些优质视频内容同样可以被智能识别、总结和检索。或许,我只是不曾及时跟上这个时代的步伐。

如今,我终于意识到,是时候放下对视频创作、展示、传输与保存信息的偏见了。现代硬件、高速网络和先进搜索引擎技术已足以应对视频和图片信息的处理。未来,或许我们还会见到结合气味、触觉的多感官信息传递方式,使虚拟世界与现实世界之间的连接更加紧密。

在这个瞬息万变的时代,我们每个人都应学会及时更新自己的固有观念,勇敢地拥抱变化,让自己始终走在时代的前沿。这是我对自己的忠告。

AI让效率再次提升,人类该干什么?

AI vs Human beings

人工智能时代:当效率革命点燃创新之火

我很久没有为互联网感到兴奋了。这些年,它似乎被困在某种惯性中,缺乏真正触动心灵的创新。然而,人工智能的崛起,像一簇突然迸发的火星,重新点燃了我对技术变革的热情。

从ChatGPT的诞生到如今,几乎人人都在谈论人工智能。我也亲自体验过它的魔力:无论是生活琐事、工作难题,还是学习中的困惑,只需将问题抛向AI,不到5秒钟,它便能给出一个逻辑清晰、甚至堪称完美的答案或方案。这种效率的跨越,让我不禁想起人类获取信息的进化史。

从图书馆到AI:效率的跃迁

在互联网诞生前,若想查资料,我们只能奔向图书馆,在浩如烟海的目录中翻找对应书籍,再逐页检索、誊抄、总结。尽管最终能找到答案,但过程漫长而笨拙。

互联网搜索引擎的出现,将效率提升了一个量级。输入关键词,海量链接瞬间呈现,我们仍需逐一筛选、分析、整合,但至少电子化手段替代了手工检索的繁琐。

而如今,人工智能彻底颠覆了这条路径。它不再需要我们“大海捞针”,而是直接整合全网数据、预处理信息,甚至模拟深度思考,最终将答案和盘托出。这就像过去做菜需要自己找菜谱、买食材,而现在只需对AI说“我要一盘糖醋排骨”,它便能在五秒内端出成品。若口味不合,还能随时提出修正——效率之高,令人惊叹。

生产力解放:人类与AI的共生

作家郑渊洁说,他让AI以“郑渊洁风格”写一篇皮皮鲁的童话,结果AI输出的作品竟比他本人写得更好。他感慨输给了AI,但我却觉得无需悲观。AI之所以能模仿郑渊洁,正是基于他本人创作的无数经典文本。若世上本无郑渊洁,AI又如何凭空生成“郑式童话”?

这恰恰揭示了人类与AI的关系:AI是效率工具,而非创造力的源头。它的能力建立在人类已有的智慧积淀之上。当AI接管重复劳动与低效环节,信息如此容易获取,知识如此海量廉价,我们反而能腾出双手和大脑,专注于真正的创新——那些尚未被定义、被探索的领域。

拥抱变革:效率即自由

有人担忧AI会取代人类工作,但历史早已证明,每一次技术革命淘汰旧岗位的同时,也会催生新机遇。当机器替代了流水线工人,人类转向了设计、编程与服务;当AI接管了基础信息处理,我们便能更聚焦于创造、情感与战略。

正如工业革命将人类从体力劳动中解放,AI或许正将我们推向“脑力解放”的新阶段。不必为消失的重复性职业哀叹,因为社会进步的本质,正是让人摆脱“浪费时间的工作”,追求更高级的创造与价值,难道这不就是人类追求的解放与自由吗?

人工智能带来的不是威胁,而是一场效率革命。它让我们离“终极自由”更近了一步——不再被琐事捆绑,而是用技术赋能各行各业的创新,用高效率重新催生各行各业的可能性。

此刻,我仿佛回到了互联网初生的年代,那种对未知的期待与悸动再次涌上心头。与其恐慌,不如拥抱这个时代。因为AI不是终点,而是人类探索星辰大海的新起点。

2025.02.18 11:17

如果从一开始 AI 就以异族崛起的形象深入人心,或许人们的警惕和担忧会比担心被替代更真切和实际一些。而现在的情况是,人们表达担忧更像是一种时尚潮流、一种未来将至的躁动。长着人类无法理解的面孔(如果有面孔的话)的外星人和妳的亲人朋友,妳会向谁倾诉?在许多人心里 AI 不但不是异族,反倒是更可信的朋友——只是不想让朋友过得比自己好,这很人类。

fin.

人何以为人

「年」终于过去了,我终于又能在工作缝隙,不经意地听客人们的聊天;她们在聊 DeepSeek。这让我想到近期看到的两个观点,其一来自某篇英文博客文章——不知怎么我的 RSS 阅览器数据库清空了,所以抱歉找不到原文地址——大致是说:我们曾以为人工智能会帮人类洗衣做饭,人类则有时间去做更有创造性的工作,而现实是人类在做更多的琐碎杂事,人工智却被用来创作绘画、作曲、做视频。其二是刚看到如一兄说「铺床可以对抗 AI,因为这件事 AI 没法帮妳做」。一个抱怨 AI 不会铺床,一个则是用铺床对抗 AI。多么有趣。

着手研发会铺床的 AI,以便人类可以腾出时间去创作;等到 AI 学会铺床的时候,依然坚持自己铺床。这两者在我看来都是在确认自身价值和意义。归根结底,是在追问人类何以为人。人的价值既在于创造,也蕴含在那些看似琐碎的小事中。即使有一天 AI 能取代人类的所有工作,它也无法否定人的意义。

fin.

BlinkShot – 开源免费 AI 图片快速生成工具

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

BlinkShot 是一个以 AI 人工智能技术即时生成图片的免费服务,这是开源项目,背后使用 AI 加速云服务「Together AI」和图片生成模型 FLUX,这项服务特性是能在非常短的时间内依照输入的提示词生成各种图片,以毫秒为单位,生成的图片也丝毫不逊色,有兴趣的朋友可以玩玩看。

目前 BlinkShot 支持英文提示词,也可以直接叫 AI 服务帮你生成〔例如用 ChatGPT 或其他同类型服务〕,另一个方法是使用图片转文字 AI 工具,例如:Image to Prompt等工具,将喜欢的图片快速转换为英文提示词,最后稍作修改再生成想要的图片。

BlinkShot 目前没有使用的生成数量限制,还有个「Together API Key」栏位可自定义自己的 API 密钥,生成的图片素材皆可免费下载使用,AI 图片基本上也不会受到版权限制,使用于个人或商业用途都没问题。

Generate images with AI in a milliseconds

进入 BlinkShot 后直接输入提示词就会立即生成图片,整体速度非常快,过程中如果继续输入其他形容或是提示词,图片会即时更新,相较于其他同类型的 AI 图片生成器来说确实非常强大!

下方会显示生成的图片历史记录。

通过 BlinkShot 生成的图片看起来很逼真,也能依照用户需求调整成各种风格、样式,越仔细的提示词就能生成更细致准确的结果。

生成过的图片历史记录会显示于下方,可以随时切换回去查看。

在图片点击右键即可下载保存。

在图片上点击鼠标右键、选择「另存图片」后将图片保存下来即可使用。

BlinkShot 未来也会加入下载按钮,让用户更方便获取图片。

OpenAI 王炸 Sora 文转视频正式上线,新功能发布

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

就在刚刚,OpenAI Sora 正式登场。

本次发布会延续了「短剧」的快节奏风格,全程 20 分钟左右,由 CEO Sam Altman、Sora 负责人 Bill Peebles 等人主持。

OpenAI 在 X 平台表示,自 2 月份以来,他们一直在构建 Sora Turbo,后者是一个速度明显更快的模型版本,今天也将其作为独立产品向 Plus 和 Pro 用户开放。

有趣的是,由于 Sora 热度太高,大批用户涌入体验网站,导致该网站一度崩溃,停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户:

「由于需求超出预期,我们将不得不间歇性地关闭新用户注册,并且生成内容的速度会在一段时间内减慢。我们正在全力以赴!」

附上体验地址:Sora.com

类似于 Midjourney 的网页界面,Sora 同样拥有自己单独的用户界面,用户用户不仅能够整理和浏览生成的视频,还能查看其他用户的提示和精选内容。

在 「Library」功能中,用户可以保存自己喜欢或有用的提示词,以便未来使用。并且保存的提示词可以按需查看或修改,对于需要重复创作相似内容的用户,无疑能大大提高效率。

在工作流方面,Sora 的编辑功能是区别于其它竞品的重要亮点。

比如说,在 Remix 功能中,用户可以利用纯自然语言提示词对视频进行编辑,并通过简单的「strength(强度)」选项和滑块来控制生成的变化程度。

Re-cut 功能则能智能识别最佳画面,并支持向任意方向延伸场景。

Sora 的 Storyboard(故事板)功能则类似于视频编辑器,可以将多个提示词串联在一起,生成一个更长的视频,轻松处理复杂的多步骤场景。

搭配 Loop 和 Blend 功能,用户还能创作出无缝循环的视频,并完美融合不同片段,而 Style presets 功能则可以预设和调整生成的风格。

在技术规格上,Sora 支持 5-20 秒的视频生成,并兼容 1:1、9:16 等主流宽高比。相比早期版本,现在的生成速度有了显著提升。

另外,还有几点细节需要注意。

OpenAI 采用了灵活的积分制定价策略,积分数量因分辨率和持续时间而异,如果你早已是 ChatGPT Plus 和 Pro 会员,那就无需额外费用就能使用。

比如生成一个 480p、5s 的视频就需要 25 个积分,如果生成 480p、20s 的视频则需要 150 个积分。

此外,如果你用 Re-cut、Remix、Blend 或者 Loop 这些功能,生成的作品超过了 5 秒钟,那也得额外扣你的积分,多用多花钱,别超时,超时也花钱。

对于订阅用户而言,20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度(1000 积分),支持最高 720p 分辨率和 5 秒时长。

而 200 美元的 ChatGPT Pro 计划则提供最多 500 个优先视频(10000 个积分),支持 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。

OpenAI 还在为不同类型的用户开发不同的定价模式,将于明年初推出。

对了,Sora 暂不支持 ChatGPT Team、Enterprise 和 Edu 版本,同时也不向 18 岁以下用户开放。现阶段,用户可以在所有 ChatGPT 可用的地方访问 Sora,但英国、瑞士和欧盟等地区除外。

知名博主 Marques Brownlee 提前一周用上了 Sora,并在 YouTube 上分享了他的使用体验。

他指出这款产品仍存在一些局限性。

在物理模拟方面,模型对物体运动的理解还不够深入,常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时,经常出现前后腿位置混乱的情况,导致动作看起来不自然。

又或者,某些视频生成结果看起来像是慢动作,而视频的其他部分则以正常速度播放,肉眼很容易察觉这种「别扭」。简言之,Sora 还是没能解决老毛病,缺乏对物理世界规律的理解。

另外,Sora 没能解决文字生成的问题,导致经常出现文字混乱的现象,而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。

不过,Sora 也有不少擅长的场景。

比如说,Sora 在风景镜头处理方面表现出色,能生成媲美专业素材的无人机航拍镜头,在卡通和定格动画风格上的表现也差强人意。

性能方面,一个 5 秒的 360p 视频通常能在 20 秒内完成生成。

不过,当涉及 1080p 或复杂提示词时,生成时间可能会延长到几分钟,但随着如今大批用户的涌入,生成速度明显慢了大半拍。

不少网友也在第一时间上手体验了 Sora。比如网友 @bennash 想生成一个视频,渲染了 22 分钟都没能成功,甚至该网站一度停止注册登录。

博主 @nickfloats 给出的评价是,Sora 在将图像转换成视频时,虽然某些特定的视觉特效没有被保留,但整体的转换效果是「清晰和令人满意的」。

Sora system card 也列出了一些值得关注的细节。

OpenAI 官方认为,Sora 为能够理解和模拟现实世界的模型提供了基础,将是实现通用人工智能(AGI)的一项重要里程碑。

官方博客中提到,Sora 是一种扩散模型,它通过从一段看起来像静态噪声的基础视频开始,逐步去除噪声并转变为最终的视频。通过同时处理多个帧,模型成功解决了一个难题:即使目标暂时脱离视野,也能确保其在视频中始终保持一致。

与 GPT 模型类似,Sora 采用了 Transformer 架构。

Sora 使用 DALL·E 3 中的标注技术,该技术为视觉训练数据生成高度描述性的标签。因此,模型能够更准确地根据用户的文本指令生成视频内容。

除了能够仅通过文本指令生成视频外,Sora 还能够从现有的静态图像生成视频,准确地将图像内容进行动画化,并注重细节。该模型还可以从现有的视频中扩展或填补缺失的帧。

为了确保安全地部署 Sora,OpenAI 基于 DALL·E 在 ChatGPT 和 API 部署中的安全经验,以及 OpenAI 其他产品(如 ChatGPT)的安全防护措施进行了强化。

所有 Sora 生成的视频都带有 C2PA 元数据,这些元数据能够标识视频的来源是 Sora,从而提高透明度,并可用于验证其来源。

与此前凭借真实人像出圈的 Flux 不同,Sora 们对上传包含人物的内容设定了特别严格的审核标准,目前仅作为试点功能提供给少量早期测试者,并屏蔽含有裸露的内容。

OpenAI 王炸 Sora 文转视频正式上线,新功能发布

大半年前,初试啼声的 Sora 赢得互联网一片喝彩。

然而,如果说一年前尚未还能对着一群演示 demo 空喊「现实不存在了」,那么在国内外各类视频模型的轮番洗礼之下,我们早已养刁的胃口很难再被同样的产品打动。

这种态度的转变源于一个简单的事实。

当 AI 要从「勉强可用」进化到「可堪大用」,用户的期待也随之升维,从「能否做到」跃迁至「做得多好」。

好在 Sora 并未在掌声中原地踏步,通过与艺术家的深度合作,他们在工作流程领域做出了显著的改进。Re-cut、Remix、Storyboard 等功能都相当实用。

甲乙方的存在决定了工作流中的沟通永远是刚需,AI 能做的是让这种沟通更有效率,Sora 的价值不在于它能做什么,而在于让创作者得以抽身于技术细节,真正回归创意的本质。

与此同时,上周引发热议的 200 美元 ChatGPT Pro 订阅计划,如今也有了更合理的价格锚点,该计划同样支持无限制访问 Sora,这种产品协同效应预计也将激发出远超预期的应用场景和商业价值。

放眼当下,用户的真金白银从不作假。

可灵 AI 交出千万级月流水的亮眼成绩单,这片蓝海的潜力已呼之欲出,对于仍在「烧钱」阶段的 OpenAI 来说,Sora 预计会成为继 ChatGPT 之后的另一个下金蛋的母鸡。

当 Sora 从「能用」「好用」,再到「妙用」,或许未来某一天,我们会发现,真正不存在的,不是现实,而是人类创造力的尽头。

完全免费 AI 绘图工具 Dreamina AI,支持中文描述生成图片

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

当前 AI 绘图工具已经全面席卷全球,你还在找一款能够用文字或图片生成的免费 AI 图像生成工具吗?分享一款由抖音旗下剪映推出的 AI 图片生成平台「Dreamina AI」,只要输入简单中文描述就能立即转成图片,甚至还能搭配多层画布进行修改、重新创作和视频生成,而且还是完全免费和无限次数使用。

完全免费 AI 绘图工具 Dreamina AI,支持中文描述生成图片

Dreamina AI 是一款由剪映推出的在线 AI 创作平台,能够帮助用户将文字描述转化为视觉艺术作品。支持多种创作模式,包括文字绘图、视频生成和图片扩展,适合专业艺术家和普通用户使用。

另外 Dreamina AI 绘图创作平台还支持智能画布功能,可以通过画布混合多种 AI 生成图片,还可以进行局部重绘或扩展画布等功能操作。

想要使用 Dreamina AI 要先用电脑网页版登入和注册会员,可以通过 Google、TikTok、Facebook 或 CapCut 移动版来注册登入。〔手机版目前会跑版建议改用平板或电脑板,至于 App Store 有 Dreamina AI App 也并非是官方推出〕

👉 前往 Dreamina AI 在线生成图片

要是首次注册账号,会跳出 Dreamina 平台要整合 CapCut 账号信息权限,直接点「确定」继续。

进入 Dreamina AI 主页面后,就可以点击「图片生成」开始使用 AI 生成功能。

接着可以再生成图像输入框内填入生成 AI 图片的文字描述〔咒语〕,不管是输入中文或英文都能够使用,实际测试 Dreamina AI 中文生成图片准确度也不差,不一定要用英文才比较高,当然也可以上传照片,依照现有图片来生成。

图片模型部分,会提供三种 Dreamina 模型效果分别如下:

底下还能够设置图片输出长宽比例,以及大小尺寸分辨率都能够手动设置,都设置完成后就按下「生成」就可以开始生成免费 AI 图片了!

Dreamina AI 在输出算是非常快,只要几秒就能生成出四种不同风格的 AI 图片,像是底下是直接生成 Lego 乐高 AI 图片海报风格图片。

说实在 Dreamina AI 生成图片效果,与当前大多数 AI 绘图工具也都不会差太多。

底下也尝试文字描述咒语来生成漫威的雷神索尔画面,会生成出不同风格和脸型效果。

用下来发现 Dreamina AI 对中文理解能力算是很强大,AI 工具基本都能理解我们在说什么,像是可以让可爱老鼠或兔子也能骑机车外卖。

连同用 Dreamina v2.0 Pro 模型来生成真人效果也非常逼真,让你看不出来这是用 AI 生成。

不过有些时候不能谈到敏感话题或文字,甚至有些上传图片有红色就会被系统认为血腥,违反了《社交自律公约》内容,遇到这情况只能换其他张照片或改用其他文字描述。

点入生成 AI 图片后,可以直接将原始图片下载到设备上,侧边还提供多种选项能够进一步调整,像是重新生成、重新调整提示、增强分辨率、润饰、局部重绘、展开或移除,以及能够在画布上编辑或生成视频等。

要是想在 AI 图片上额外修改局部画面,可以直接点入「局部重绘」功能,直接圈选划线都可以,像是我随便在画面划一下,Dreamina AI 马上就在行李箱上加入皮带配件,有如设计师能帮你随意修改,超级猛!

至于 Dreamina AI 提供的「画布」功能,简单来说就是在线 Photoshop 编辑器,能够在页面内用 AI 生成图片后,能够直接抠图,另外上传图片进行合成,侧边也有图层能够进行调整拖移,基本算是很容易上手。

以上就是 Dreamina AI 生成图片工具的技巧介绍,整体来看 Dreamina AI 算是一款功能强大、易于使用的 AI 图像生成工具,能让每个人都能成为艺术家,如果你想尝试看看 AI 绘图功能,或是想要创造出不同图片效果,倒是可以通过 Dreamina AI 来快速生成,且还能支持中文提示词,对大多数人来说也算是非常好上手。

新的阶级依据

Ai 的普及将会诞生更多不求甚解的普信男。
古典的百科全书式人类不会被赛博囚禁。

推论:
新阶级的划分依据是,是否具备物理世界生活常识。

蒸馏认知

有两种方式「通晓一切」:

1、穷具并知晓每一种可能性;
2、找到底层原理后高效推理。

定理:
1、海量数据和滔天算力是不持久的;
2、通用性和低能耗是持久的。

推论:
任何人工智能都需要蒸馏出「认知」才能活下去。

前提:
本地且联网的传感器

让 MJ 学我画两张小画儿

昨晚吃饭前跟儿子一起画画,我随便画了一下我们在 Minecarft 里的第二个家,和随便画的一个岩浆包围的高堡:

后来想说看看 Midjourney 能模仿成怎么程度,就丢进去试了一下:

emmm,画得还行……

就是画风不太相关,它有它的训练痕迹,哈哈哈哈哈哈哈~

测试所使用的 prompt:

Tree house, jungle, rainforest, simple little house –sref+空格+两张手绘图的地址 –ar 9:16 –s 50 –v 6.0 –style raw

艺术可以糊弄,体力劳作也是高级智能

昨天发现 AAAny 更新了发图的功能,于是就顺势发起了一个讨论 AIGC 的话题

轶轩在话题下问我为什么对外发表的图都是一些细节比较丰富的类型,是否有基于 AIGC 的生成方式而做的一些突破方向的尝试。我觉得,针对这个问题,我可以在对他的回复上,再做一期视频来谈一谈我的观点。

用于风格参考的马列维奇的画作
基于马列维奇而生成的《城堡下的人群》

但与此同时,我也想做一些「简练」或「抽象」的图来辅助说明我的看法。于是,今天在工作之余,用一些碎片时间,做了一些图出来。

对此,我尝试比较随意地做了一些「东西」。它们都没有什么明确的「表达」,仅仅只是我随手写的一些 prompt,或者就是在 Midjourney 的社区里复制修改的 prompt,最终出来的东西都是一眼看上去有一些「意境」或者没那么精致细节的但表现比较能唬住人的图像。

你会发现,在这些人类认为偏「抽象」的表达上,AI 反而是比较容易做「好」的。

但是,这种好不是真的好,只是这些风格上,并不需要对细节有很认真的考据,在表现层面上是非常容易「糊弄」的。

这也是现当代艺术作品常常被人诟病的原因之一,因为那些作品浓缩了大量的思考和抽象提炼,但表现形式上,其实并没有比传统艺术更复杂,或更需要技艺和体力上的付出。也就是说,作为当代艺术最核心的「观念」,在完全不需要理解的情况下,一个外行的人或者一个数据量管够的 AI 就可以模仿出「看上去像那么回事」的东西。这种模棱两可的状态,恰恰是江湖神棍和 AIGC 擅长处理的对象。

这里说的「糊弄」「神棍」并非贬义,而是借着世俗的话语体系来表达,这样的「生成作品」并不需要 AI 具备「意识」和「创意」也可以轻松地实现。

那么,什么东西是更难的呢?

细节,是令人信服的细节。

这些是我用 AI 生成的男士剃须刀的设计方案。

你会发现,这些方案咋一看是那么回事,但只要你多看两秒,立刻就会意识到它不对。它们的空间关系、形态的处理、物理交互的关系、电子器件的布局,通通都有很大的问题。这些就是不可信的细节。

因为 AI 实际上并不理解它学习的那些图像。

这些令人信服的关键点,是无法糊弄的。因为它们当中包含了大量精确的思考和训练,也包含了海量的脑力和体力劳动,如果一个「智能体」不理解一个图像背后的复杂逻辑,那么它就没有办法真正地创作出这个对象。它只能模仿,只要模仿得足够像,就可以唬住外行。但是对于以此为生的从业者,这样的智能工具,还不足以成为生产力。设计师可以用这样的工具拓展自己的思维,但这些过程并不能替代设计行为。

从创意到落地,中间还有漫长的路需要人类设计师去走完。

现阶段,更适合工业设计使用 AIGC 的方式是这样:

我的意思并不是让 AI 画手绘图,这仅仅是一种表现方式。但是,这是一种不需要追求精确的表达方式,很适合 AI 用「抽卡」的方式来快速堆想法。除了这种,当然也可以让它生成上面剃须刀那样的图,但同样的,目的不在于出方案,而是借助 AI 的海量数据库,快速地堆出一批发散性思维的「胡编乱造」的混杂图像来。

人类的视野有限,但 AI 看得一定比人类个体的平均值多。

工业设计不是天马行空地想象,它是一种「劳作」。

从初期的构思,从草图推延到模型和效果图,再从设计方案导入结构设计和工艺、制程,这意味着工业设计不是一项纯脑力劳动,不是一种只运行在计算机里的行为。它包含的体力劳作同样是设计的一部份,甚至可以说,是更关键的那部份。这种体力劳作,不仅仅是肌肉和工具的配合,更是人脑对环境、事件、社会群体、物质的反应和处理,设计师的动作意味着这个人对世界的认知。这种程度的认知,对于只运行在计算机内,仍然缺少复杂的传感器和理解过程的 AI 而言,暂时还是无法实现的。

我当然相信它未来会具备这样的能力,但是在目前的技术条件下,依然需要大量的人类来完成这些真正代表了「智能」的「体力劳作」。

欢迎加入我们的讨论:

https://aaany.app/aaa/ltwu3txza

想注册体验 AAAny 的话,请给我留言

我会给你留言的邮箱发送注册邀请码

經濟再差也不能公開談論

經濟狀況究竟有多糟糕呢?從各大品牌在售後策略、降價思路和運營的混亂程度等方面的表現,均可窺見一斑。尤其是當你置身於自媒體、電商與品牌運營三者的交匯點上,這種巨大的荒謬性將更加明顯。

上週末出差重慶,兩周沒在家,難得一個週末,結果倆人坐下後就被各自工作群里的事情纏著,不是回消息就是打電話,咖啡都沒喝上一口。

在國內的社交媒體似乎不讓提「經濟不好」這樣的事,與之相關的話也會被限制,索性我就轉成日語來發了:

経済状況は本当にどれほど悪いのでしょうか?各大ブランドのアフターサービス戦略、値引きの考え方、そして運営の混乱度などから、その一端を窺い知ることができます。特に、個人のネットワークソーシャルメディア、ECサイト、およびブランド運営の交差点に立つと、この巨大な不条理さがさらに明白になります。

先週末、出張で重慶に行ってきました。二週間も家に帰っていなかったので、久しぶりの週末を楽しみにしていたのですが、結果として、座った途端、それぞれの仕事グループからの連絡が絶えず届き、メッセージを返したり、電話をしたりすることに追われてしまいました。コーヒーすら一口も飲めないままです。

為什麼是轉日文不是英語呢?因為即便是英語,在內地的網絡環境里也顯得有些直白了。日語反而更有「似乎知道在說什麼,但根本看不懂」的戲劇化的「陌生化」的效果。

好不容易,終於把翻了一年的《夜航西飛》讀完了。

這是我今年讀完的第三本書。

昨天去宜家看洗手檯和鏡櫃,直到在餐廳排隊前一秒,都沒想起宜家給我發的領生日蛋糕的短信。可就是那麼巧,下周生日,昨天正猶豫要不要去店裡看看,我就慫恿筱燁說想幹就幹,這一來才想起有一個蛋糕等著領。這就是天注定的意思。

苹果停车转 AI 将引发人才大震荡

1、没有 AI 的汽车、手机、电脑、平板等,将是一堆废铁;

2、一家公司的核心战略不能同时放在两个大方向上。

综上,停下造车全攻 AI 是非常明智的。

连键盘侠都知道「不难」的造车,没造出来不是造不出来,是制定的目标太远太高。苹果之前想一步到位搞出 L4 的移动座舱,但现阶段的人类还没有办法,这太难了。在他们之前的设想中,自动驾驶的汽车和 Apple Vision Pro 是可以放在同一个场景里的。但很显然,这个步子太大了。用新势力们的方式当然可以,但那不是苹果想做的。

最关键的是,AI 的大爆发是此前大家都没料到的。没有这事儿,车还是一个重要的方向,但这一波爆发的 AI 不是资本热潮,而是实打实的浪潮了,此时不全力转向,是真的会死的。况且苹果并不是没有在 AI 上投入的,这些年一直都在积累,只是权重还没拉到那么高。现在切方向,即是大势所趋的必须,也是归拢资源的必要。

过去 Jony 可以对供应商说,这里有一桶取不完的钱,你能做到你就能拿走,以此把工业设计拉高到一个令人望尘莫及的程度;今天的苹果比二十年前拥有更多的现金,有自己的芯片和庞大的人才库,有海量的设备和训练数据,可以说:

比起造车,AI 才是更适合苹果干的事;

干好 AI 所需的人才、数据、算力,也是他们的优势。

以苹果的财力,下这样的决心,恐怕要出现一次人才流动的大震荡。

原文发布于知乎提问:

苹果取消探索十年之久的电动汽车项目,将团队转向生成式 AI,原因有哪些?会带来哪些影响?

表达的精度就是人类外延的尺度|Midjourney 
V6 Alpha 自然语言生图测试

Midjourney V6 的质感和细节,真的是飞跃式的成长!

和今年三月相比,已经完全脱胎换骨了。对自然语言的理解和再表达,也已经在渐渐脱离「咒语」的局限,结合 ChatGPT 的语言转译,一个人能够用母语把尚不明确的观念表达清晰,愈发显得重要。

点击图片,可查看原始尺寸高清大图:

当 AI 越来越擅长理解人类的自然语言,我们就愈发迫切地要掌握「用语言表达思想」这件事情。

因为语言的精度和颗粒度,将会在人类与 AI 的相处、合作中,展现出人类智力的上限所在,以及外延的纵深能够得着多远。

Upscale from Variations
Upscale(Subtle)
Upscale from Variations
Upscale(Subtle)
Upscaled (Subtle)
Upscaled (Creative)
Upscaled (Subtle)
Upscaled (Creative)
–Style 50
–Style 100
–Style 250
–Style 750
–Style 1000

❌