Reading view

There are new articles available, click to refresh the page.

诺贝尔奖快被 AI 包圆了,这 10 个冷知识带你重新认识 AI 教父

今年的诺贝尔化学奖和物理学奖,颁给了两个做人工智能的人物:一位是 DeepMind 创始人 Demis Hassabis,另一位还是 AI 教父 Geoffrey Hinton。

比得奖更有意思的,是得奖人背后的故事:当年 DeepMind 还只是个不为人知的小公司时,就胆敢和百度、微软、Google 三巨头,争抢这位教父,尽管结果肯定是争不过。

我们翻遍各大媒体报道和硅谷史记,找到了更多跟 Hinton 有趣的冷知识——不得不说,这个人物,可比物理有意思多了。

不算是真·物理学家

这一点现在已经人尽皆知了😂 本次物理学奖之一 John Hopfield 确实是物理学出身——虽然他现在在普林斯顿,是分子生物学教授。

而 Geoffery Hinton 则是知名的「人工智能教父」,他在神经网络上的研究,为人工智能奠定了基础。

实际上,两人的研究都跟物理学有所联系。Hopfield 创造了一种联想储存器,可以存储和重建图像以及数据中其它类型模式,这套理论的基础,正是物理学中的自旋系统。

Geoffrey Hinton 发明的玻尔兹曼机,灵感来自于统计物理学,引入了一种用于模式识别的概率模型。在理论上,它的训练算法、动力学原理,都与简单物理过程有所相似。玻尔兹曼机跟 Hopfield 网络紧密相关。

不过,获得物理学这个奖项着实令两人都非常吃惊,Hinton 甚至没有想过自己会被提名。他很高兴诺奖委员会能看到他和 Hopfield 的研究中,物理学所带来的启发。只不过在最近,基于 LLM 的人工智能研究与物理学关联不太多了,所以得奖一事让人非常意外。

曾经的学渣,如今的教父

早年间 Hinton 也尝试过物理学,但直接被里面复杂的数学劝退了。甚至到后来做机器学期的时候,他还是会经常跳过数学演算的部分,直接看论证。

直到指导 Yann LeCun 的论文时,他因为完全不懂法语,只能反过来——跳过论述,只看数学。论文答辩时,Hinton 用英语提问,LeCun 用法语回答,两人居然交流自如。这是基于他们对神经网络共同的信念,LeCun 说,聊天时他感觉 Hinton 正在完成他的句子。

英式冷幽默大师

但凡看过 Hinton 的演讲视频,都会被他的英式冷幽默折服。一位名叫 Aapo Hyvärinen 的研究人员,曾经在发表学术论文时在致谢一栏写道:

本文的基础想法是在与 Geoffrey Hinton 的讨论中提出的,但他本人不愿意成为合著者,因为该论文包含了太多数学方程。

离那个叫 Sam Altman 的人远一点

虽然被称为人工智能教父,但是 Hinton 在警示人工智能潜在的危险性上,称得上是不遗余力。今天下午,多伦多大学召开的线上媒体会,他在线上感谢了诺奖组委会,以及一直以来共事导师、同事和学生,并说道,「我对其中一位同学格外自豪,他解雇了 Sam Altman。」

美联社记者追问到为什么对 Sam Altman 有如此评价,他表示,OpenAI 的初衷是开发通用人工智能,并保证它是安全的。但随着时间的推移,Sam Altman 逐渐把利润放在安全之上,「我觉得这很不幸。」

百度离拿下 Hinton 的「皮包公司」,曾经只有一步之遥

Hinton 有两次「创业」的经历。当然,不是严格意义上的创业,更多像是把自己和学生的研究成果,引荐给工业界。

2009 年,他的学生在语音识别上做出了一个很好的模型,于是他们去和当时做手机很红火的黑莓公司接触。经过漫长的沟通,黑莓一位高管说,他们不感兴趣。

后来 ,Google 拿到了这个语音识别模型,打磨成了产品嵌入安卓系统中。「太可惜了,」Hinton 在一场多伦多大学的座谈会上分享这个故事,当时另一位讲座嘉宾是李飞飞,「如果不是这样,我们现在说不定还能看到黑莓呢。」

到了 2012 年,Hinton 和他的学生发表了一篇论文,证明了神经网络强大的价值。率先向 Hinton 抛出橄榄枝的,正是来自中国的百度。

但他的学生提议说,与其去当打工人,不如原地成立一家公司,让巨头来收购。Hinton 想想,有道理,说干就干。没想到成立之后,四家巨头抛出争相拍卖,分别是百度、Google、微软,以及当时尚未崭露头角的 Deepmind。

拍卖全程用邮件进行,百度派了一位 Deepmind 当时的实力尚浅,只能拿公司股票来参与拍卖,所以很快就出局了。而剩下的三位巨头不断抬价,微软在 2000 万退出了一次。2200 万时,由于 Hinton 提出暂停,微软彻底退出。

在后半程的终极竞价里,百度的出价其实是领先的,然而最终 Hinton 还是属意 Google。他在 Google 工作了十年,直到去年退休。

站着,把研究做了

传言他最终没有选择百度,是因为越洋飞机对他而言太难了:Hinton 患有严重的腰椎间盘病,严重到完全不能坐下,否则就会有一块腰椎突出导致剧痛。他在所有的演讲、座谈中,都是站着的,必要时会拿一个软垫跪下来。

2009 年,微软邀请 Hinton 去位于华盛顿远郊的实验访问研究。旅程非常费劲:又不能开车又不能飞,坐车也只能躺在后座。于是他先搭地铁,去到多伦多城中的公交车站,提前排队,然后率先抢到最后一排空座,直接躺下装睡,全程无人打扰。

后来他又搭了三天火车到达西雅图,再躺在出租车后座上横穿华盛顿湖,到达微软。

听说这个旅程如此折腾,微软提前给他定了一张站立式办公桌,保证他可以正常工作。

冷血动物爱好者

Hinton 的父亲是一位著名的昆虫学家,小时候的他就经常跟各种奇奇怪怪的动物打交道,包括但不限于青蛙、乌龟、蜥蜴、蟾蜍。

一直到现在,他也和冷血动物很亲近。他把死掉的蜻蜓保存在橱柜里,在海岛度假时,甚至会把蛇带进屋里,邀请前来采访的记者摸摸看。

祖上都是科学家

Hinton 出生在一个科学世家,最为人所知的是他的曾曾祖父乔治·布尔,开发了二元推理系统「布尔代数」,构成了现代计算机的基础。其实,他还有许多祖辈都有惊人的科学成就。

曾祖母 Mary Ellen Boole(后来改姓)是数学家,嫁给了 Charles Howard Hinton,同样是数学家,他提出了四维超正方体,是四维空间的基础理论。表亲 Joan Hinton 是核物理学家,曾经参与曼哈顿计划,后来嫁给了中国对美事务顾问 Erwin Engst 后就定居中国了。他们的孩子之一 Fred Engst 阳和平,目前是北京对外经贸大学的教授。

研究了一下发现他祖辈里还有太多科学家,比如英国皇家化学研究所第一位女性院士、发明便携式 X 光机的内科医生,等等等

成功的秘诀?找一堆天才学生

OpenAI 的前首席科学家、联创之一 Ilya Sutskever 是 Hinton 的学生,在多伦多大学读本科时就决定了自己的方向。他是直接走到 Hinton 的办公室,敲开门问,能不能加入深度学习实验室。Hinton 说,那约个时间聊聊吧。

Sutskever 说,「行啊,现在怎么样?」

Hinton 给了他一些经典论文,一周后,Sutskever 回来了,说「我不理解。」

「你训练一个神经网络来解决一个问题,然后又训练一个新的网络解决另一个问题——你为什么不用一个网络解决所有的问题呢?」

Hinton 意识到,眼前这个二十多岁的年轻人,有着超乎经验的研究直觉,遂邀请他加入自己的实验队伍。

「我一直都是对的」

Hinton 坐了十多年学术界的冷板凳。在他决定把神经网络作为自己的研究目标时,没有人看好这个方向,都觉得做不出名堂。然而,多年后,当神经网络为自己正名后,Hinton 经常在接受采访中被问到,是什么让他选择了一个冷门方向。

他每次都轻描淡写地答到,「我相信我是对的」。

这也是他对年轻人的建议之一,「去找这样一个地方:在那里,你觉得每个人都做错了。然后相信你的直觉,直到你弄清楚为什么你的直觉是错误的。当你觉得每个人的做法都是做的,选择那个不一样的做法。

事实是,要么你有很好的直觉,要么你没有。如果你有好的直觉,应该倾听它们,遵循它们,一直努力,直到你发现它为什么是错的。如果你有糟糕的直觉,那你做什么其实也不重要,那还不如遵循自己的直觉。」

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚!Deepmind 首席执行官获 2024 诺贝尔化学奖,谈到 AI 时他说:有过度炒作,但仍被低估


今年的诺贝尔奖,要被 AI 包圆了。

刚刚出炉的诺贝尔化学奖,由 David Baker,John M. Jumper,Demis Hassabis 三人共同摘得——最后一个名字,大家应该不陌生了,正是 Deepmind 创始人。

不久前,Demis Hassabis 做客 DeepMind 的播客频道,面对 Hannah Fry(英国数学学会旗下应用数学研究所新任所长),他不仅解释了团队对于蛋白质结构的研究,还深入了 DeepMind 的工作、对 Gemini 和 AGI 的展望,以及更重要的:在技术越来越强大时,如何变得更加平衡。

以下为对谈节选,内容有所编辑。

 

Hannah Fry:欢迎来到 Google DeepMind,我是主持人教授 Hannah Fry。当我们在 2017 年第一次开始考虑制作这个播客时,DeepMind 是一个相对较小、专注人工智能的研究实验室。他们刚刚被谷歌收购时,在伦敦一段距离的地方开展自己的项目研究。上一季度,Google 重新配置了整个结构,将人工智能团队置于其战略的核心。

现在,我与 DeepMind 的联合创始人、现首席执行官 Demis Hassabis 正在一起——我应该称呼您为 Hassabis 爵士吗?

Demis Hassabis:别别,绝对不要(笑)。

Hannah Fry:好的,非常感谢您的到来。我想知道,现在公众对 AI 的兴趣爆炸式增长,你的工作是更容易还是更难了?

Demis Hassabis:我觉得这是双刃剑,对吧。确实更难了,因为在整个领域里有太多的审视、关注和相当多的噪音。实际上,我更喜欢那个人少,能更专注于科学的时候。但现在也很好,因为它表明技术已经准备好,以许多不同的方式影响世界,并以积极的方式影响人们的日常生活。所以我认为这也很令人兴奋。

Hannah Fry:你会不会对 AI 如此迅速地就吸引了公众,而感到惊讶?虽然我猜你也预料到了。

Demis Hassabis:是的,确切地说,在某个时候(已经有预料了)。我们这些人已经为此工作了很多年,甚至几十年。所以我想在某个时候,每个人都会意识到 AI 的重要性。但看到这一切真正实现,仍然是相当超现实的。我猜这是聊天机器人和语言模型的出现,毕竟每个人都使用语言,每个人都可以理解语言。因此,这是一种让公众理解并可能判断 AI 所处位置的简单方式。

Hannah Fry:我听到你形容这些聊天机器人「不合理的有用」,我真的很喜欢。等一下我们会讨论 transformer 技术,我猜是这个重大突破为我们提供了这些工具。但是,现在我想先问,你所谓的「不合理的有用」是什么意思?

Demis Hassabis:我的意思是,我想如果一个人回溯到 5、10 年前,说我们将要做点事情,将要采取的方式是,比如建立一些惊人的架构,然后从那里开始进行扩展,而不是从某些概念或抽象开始建设——这是我们在 5 年、10 年前会进行的辩论,我们是否需要一种特殊的抽象方式?因为大脑似乎确实这样做了。

但不知何故,如果你给系统足够多的数据,比如说整个互联网,它们似乎确实从中学习和归纳了,不仅仅是死记硬背,而是真的在一定程度上,理解它们正在处理的内容。而且它在某种感知上,有点不合理地有效果,我认为五年前没有人会想到它的工作方式。

Hannah Fry:是的,像概念理解和抽象这样的事情,竟然自然出现了而不是(被设计出来)。

Demis Hassabis:对,我们之前讨论了诸如概念和 grounding 之类的事情,将语言建立在现实世界的经验中,可能是模拟环境中,可能是在具身智能机器人中,这对于真正理解我们周围的世界是必要。当然,这些系统还没有实现。它们犯了很多错误,也并没有真正的世界模型,一个好的世界模型。但是仅仅通过从语言中学习,它们已经得到了比人们期望的更多的东西。

Hannah Fry:我们可能还是要为不了解的观众,解释一下 grounding 是什么。因为这是个很重要的概念。

Demis Hassabis:当然,这是在八九十年代的时候,经典的 Al 研究体系在像麻省理工学院这样的地方成立的原因。你可以把它们想象成连接其他单词的巨大数据库。问题是,你可以说在「一只狗有腿」的确存在于数据库中,可是当你展示一张狗的照片时,它并不知道像素的集合指向的是那句话。这就是 grounding 工作要面对的问题。你有符号这种抽象的表示,但在现实世界中——混乱的现实世界中——它真正意味着什么?我们试图解决这个问题,但永远不会完全正确。

当然,今天的系统并不是这样,它们直接从数据中学习。所以在某种程度上,它们从一开始就在形成这种联系。但有趣的是,如果你仅仅从语言中学习,从理论上讲,应该会缺少很多你需要的基础。结果事实证明,其中很多都是可以推断的。

Hannah Fry:为什么是理论上的?

Demis Hassabis:这种 grounding 是从哪里来的?这些系统,至少第一个大型语言模型,之前在现实世界中并不真正存在。它们没有连接到模拟器,它们没有连接到机器人,它们甚至没有对互联网的访问权限。它们一开始也不多模态,它们没有视觉能力或其他任何什么的,只是纯粹生活在语言空间中,一个抽象的领域中,所以相当令人惊讶的是,它们可以从中推断出一些关于现实世界的事情。

Hannah Fry:如果人们参与进来,与这个系统互动,并明确说「这是一个垃圾答案」,「那是一个好的答案」,那样才能提供感知。

Demis Hassabis:没错,所以可以肯定的是,如果它们出错了,部分原因是由于早期的版本缺乏 grounding。比如说,你问狗的吠叫方式,它回答不正确,然后反馈那就回纠正它。反馈的一部分来自我们自己的知识,通过这样的方式慢慢渗透到模型当中。

Hannah Fry:我记得看到过一个非常好的例子,关于「穿越英吉利海峡」与「步行穿越英吉利海峡」。

Demis Hassabis:对,正是这类的事情,如果它回答错了,你就会反馈给它是错了,然后它就必须得去弄清楚,你不能靠走的穿过海峡。

Hannah Fry:我有点想问:你认为我们现在所处的阶段,(也就是)此刻,事情是被过度炒作还是被低估了?还是说在一个错误的方向上被炒作?

Demis Hassabis:我认为更多的是后者。我会说,在短期内它被过度炒作了。有号称可以做各种不能做的事情;有各种各样的创业公司和风险投资疯狂追逐,但它们还没有准备好。另一方面,我认为它仍然被低估,我仍然不觉得人们已经完全理解,当我们到达 AGI 和后 AGI 时会发生什么。那将是多么宏大的一件事,因此也要明白那种责任。所以,这两者都有点夸张,我认为我们正在经历这样一个周期。

Hannah Fry:相比所有这些潜在的初创公司和风险投资而言,你们(团队)已经在 AI 研究里,生活和呼吸了几十年,可以很好地发现哪些是现实的目标,哪些不是。但对于其他人来说,他们如何区分什么是真实的,什么不是?

Demis Hassabis:我认为,显然,你必须进行技术层面的尽职调查,对技术和最新趋势有一些了解。我认为还要看看说话的人,背景如何,他们的技术性如何。他们是去年才开始看 AI 的吗,在去年之前搞的是加密货币?这些可能是一些线索。

当一个地方突然吸引注意力时,钱随之而来,每个人都担心他们错过了什么。这创造了一种机会主义的环境,这与我们这些几十年来一直以一种深度技术、深度科学的方式工作的人有点相反。

Hannah Fry:是的,我们的一个重要话题是 Gemini,它就来自那种非常深入的科学研究方法。Gemini 与其他实验室发布的其他大型语言模型,在哪些方面有什么不同?

Demis Hassabis:从一开始,我们就希望 Gemini 是多模态的。它不仅可以处理语言,还可以处理音频、视频、图像、代码,任何形式。我们想要这样做的原因是,首先,我们认为通过这个方式,才能让这些系统真正理解周围世界并建立更好世界模型。所以这实际上还是回归到了刚才说的话题,我们仍然在建立基础,只不过这次是在语言之上。

然后我们也有了这样的愿景,即拥有一个通用助手,并原型了一个叫做 Astra 的东西,我相信我们会谈论它,它不仅能理解你输入的内容,还能理解你所处的环境。

如果你想象一下一个个人助手或数字助手,它理解的上下文越多,能提供的帮助就会越有用。我们一直认为那样的系统会更有用。因此我们从一开始就将多模态性内置了进去。这是其中一方面——天生的多模态。而且当时这是唯一能够做到这一点的模型。现在其他模型都在试图迎头赶上

然后,我们在记忆方面也有一些重大创新,比如长上下文,现在可以记住一百万或两百万个令牌(token),你可以把它们大致理解为类似于记住一百万或两百万个单词。你可以把《战争与和平》这样的作品交给它,甚至因为多模态性,现在可以交给它一整部视频、一整部电影或讲座,然后让它回答问题或在视频流中找到你需要的内容。

Hannah Fry:我记得你举了一个例子,比如 Astra 可以帮你记住眼镜放在哪里。不过我很好奇这些技术的发展脉络,这只是那些旧款 Google Glasses 的高级版本吗?

Demis Hassabis:当然,Google 在开发类似 Glass 设备方面有着悠久的历史,实际上可以追溯到 2012 年左右。所以他们在这一领域遥遥领先,但可能缺少的就是 Astra 所代表的这种技术。通过这种技术,你可以真正理解一个智能代理或智能助手,它能够理解它所看到的东西。我们对这种能够伴随你、理解你周围世界的数字助手感到非常兴奋。当你使用它时,确实会觉得这是一个非常自然的用法。

Hannah Fry:好的,我想稍微倒回一下 Gemini 的源起,它来自两个不同的部门对吧。

Demis Hassabis:是的,实际上去年我们将 Alphabet 旗下的两个研究部门合并了。也就是说,将原来的 DeepMind 和 Google Brain 合并为一个超级部门,将我们公司内、整个 Google 内的所有顶尖人才汇聚到一起,将所有研究中最好的知识结合在一起,尤其是在语言模型方面。我们有 Chinchilla 和 Gopher 等项目,它们构建了像 Palm 和 Lambda 这样的早期语言模型,这些模型各有优劣。我们把它们全部整合起来,形成了 Gemini,这是合并后的团队推出的第一个灯塔项目。另一件重要的事情是,我们还将所有计算资源整合在一起,以便进行真正大规模的训练,并将计算资源集中起来。所以我想这真的是非常棒的。


Hannah Fry:我想很多方面 Google Brain 和 DeepMind 的重点有不同,这样说对吗?

Demis Hassabis:确实如此。我认为两者都专注于 AI 的前沿领域,虽然在个别研究人员层面已经有很多合作,但可能在战略层面上还没有那么多。现在,合并后的 Google DeepMind,我把它形容为 Google 的「引擎室」。我们在工作方式上其实有更多的相似之处,而不是差异。我们继续保持并加倍发挥我们在基础研究方面的优势。比如,下一代 Transformer 架构会来自哪里?我们希望去发明它。显然,Google Brain 发明了前一代架构,我们将其与我们开创的深度强化学习结合起来。我仍然认为未来需要更多的创新,而我相信我们能够做到这一点,就像我们过去 10 年间所做的一样,这是令人兴奋的。

Hannah Fry:那么还是回到 Gemini 本身,它对比其他模型,究竟有多好?

Demis Hassabis:我认为有些基准测试(说明了它的能力),但并不是问题所在,问题在于整个领域需要更好的基准测试。目前有一些众所周知的学术性基准测试,但它们现在有点趋于饱和,无法真正区分不同顶级模型之间的细微差别。我会说,现在有三个模型处于前沿位置:我们的 Gemini、OpenAI 的 GPT 以及 Anthropic 的 Claude。当然,还有其他一些不错的模型,比如 Meta 和 Mistral 以及其他公司开发的,它们在不同领域各有所长。取决于你的需求,比如编码可能 Claude 更强,推理可能是 GPT,而在记忆处理、长上下文和多模态理解方面,那就是 Gemini。当然,我们都在不断改进我们的模型。所以,考虑到 Gemini 这个项目才刚一年,但我认为我们的发展轨迹非常好。下次我们谈论这个话题时,希望我们能够处于最前沿,因为确实如此。

Hannah Fry:看来还有很长的路要走,我的意思是这些模型仍然有一些不太擅长的事情。

Demis Hassabis:是的,肯定的。实际上,这就是现在的大辩论。所以这最后一组东西似乎是从 5、6 年前发明的技术中出现的。问题是,它们仍然缺少吨东西。所以它们,事实上,你知道,它们会产生我们所知道的幻觉。它们还不擅长规划。

Hannah Fry:它们在计划什么感知?我的意思是。

Demis Hassabis:没错,这正是眼下辩论所在。最近这一系列的发展实际上是基于 5、6 年前发明的技术。然而,问题在于它们仍然缺少很多东西。比如它们的事实准确性问题,我们知道它们会出现幻觉。此外,它们在规划方面也还不够好。

Hannah Fry:「规划」具体是指什么?

Demis Hassabis:比如长期规划方面,你给它一个目标,它们还无法在现实世界中为你执行操作。所以它们还是非常被动的问答系统。你需要通过提问来激活它们,然后它们给出某种回应,但它们无法真正为你解决问题。

如果你想让它作为一个数字助手,你可能会想说 ‘给我订一个去意大利的假期,还要安排所有的餐厅、博物馆等等’,即使它知道你的喜好,但它无法真正去预订机票和处理这些事务。所以它目前做不到这些。

但我认为这是下一个时代——那些更具代理行为的系统,我们会称之为代理系统或具备代理行为能力的系统。这正是我们擅长的领域。这是我们曾经在所有游戏 agent、AlphaGo 以及我们过去谈论的其它项目中所做的工作。我们正在将这些已有声望的工作,与新的大型多模态模型结合起来。我认为这将是下一代系统的发展方向。你可以把它看作是将 AlphaGo 与 Gemini 结合起来。

Hannah Fry:是,我认为 AlphaGo 已经非常好了。

Demis Hassabis:是的,它非常擅长规划,当然只是在游戏领域。因此,我们需要将其融入日常工作和语言等通用领域。

Hannah Fry:你刚才提到 Google DeepMind 现在是 Google 的引擎室,这是一个相当大的转变,在几年前我也问过,谷歌是否在进行一场相当大的赌博?

Demis Hassabis:是的,我认为如此。我觉得 Google 一直都理解 AI 的重要性。Sundar 在接任 CEO 时就说过,Google 是一家以 AI 为先的公司,我们在他上任初期就讨论过这个问题,他看到了 AI 作为移动互联网之后的下一个大范式转变的潜力,甚至比这些还要大。但我认为,在过去一两年里,我们真正开始践行这一理念,不仅仅是从研究角度,也包括产品和其他方面。这非常令人兴奋,我认为这是我们协调所有人才并尽最大努力推进的正确选择。

Hannah Fry:那从另一个角度来说呢?因为我想,从 DeepMind 来看,拥有强大的研究实力,现在成为 Google 的「引擎室」是否意味着你们必须更加关注商业利益,而不是纯粹的科学研究?

Demis Hassabis:我们确实需要更加关注商业利益,这是现在的职责之一。不过,有几件事可以谈谈。

首先,我们依然在继续我们的科学研究,比如 AlphaFold, AlphaFold 3 最近发布了,我们在这方面的投资也在加倍。我认为这是 Google DeepMind 的一个独特之处,甚至我们的竞争对手也把这些当作 AI 带来的「普世财富」来看待。这些方面进展非常顺利。我们还扩展了 Isomorphic,用于药物发现,这一切都非常令人兴奋。我们会继续推进这些工作。

除了构建大模型、Gemini 等,我们还在建设一个产品团队,将所有这些惊人的技术带到 Google 的各个平台上。这在某种程度上是一种不可思议的特权,我们发明了什么,可以立即对十亿人产生影响,这真的很有激励作用。

实际上,现在在开发用于产品的 AI 技术和纯 AGI 研究所需的技术之间的趋同性更强了。五年前,你可能需要为一个产品构建一些特殊的 AI。现在仍然需要做一些产品特定的工作,但也许这只是 10% 的工作量。所以,现在在开发 AI 产品和构建 AGI 之间的紧张关系已经不存在了,我会说 90% 的研究计划是相同的。

最后,当然,如果你推出了产品并将其投入到实际应用中,你会从中学到很多东西。用户的使用可以揭示很多与你内部判断不完全匹配的地方,这样你就可以更新和改进研究,这非常有帮助。

Hannah Fry:完全同意。我们在这个播客中,更多地讨论那些通过将 AI 应用于科学领域而取得的突破。但我想问一下,关于何时将成果发布给公众之间的问题。在 DeepMind 内部,这些工具,比如大型语言模型,更多地用于研究,而不是作为潜在的商业产品来考虑,对吧。

Demis Hassabis:是的,正是如此。我们一直非常认真地对待责任和安全,从我们在 2010 年开始的早期阶段就已经如此,Google 也采纳了我们的一些伦理章程,融入了他们的 AI 原则中。因此,我们一直与 Google 保持高度一致,作为该领域的领导者之一,致力于以负责任的方式部署技术。

现在开始将带有生成式 AI 的产品推向市场确实很有趣。我们正在快速学习,这很好,因为目前的技术还处于相对低风险的阶段。随着技术变得越来越强大,我们需要更加小心。学习如何测试生成 AI 技术对产品团队来说非常重要。这与普通技术的测试不同,因为生成 AI 不一定总是做同样的事情。它几乎像是在测试一个开放世界游戏,你可以尝试的东西几乎是无限的。所以,如何进行红队测试(red teaming)就变得很有趣了。

Hannah Fry:在这种情况下,红色的团队是在与你们自己竞争?

Demis Hassabis:是的,红队测试(red teaming)是指设置一个与开发团队独立的团队来进行压力测试,尝试以各种可能的方式破坏技术。实际上,你需要使用工具来自动化这些测试,因为即使有成千上万的人参与,仍然无法与数十亿用户的实际使用情况相比。当技术发布后,用户会尝试各种操作。因此,将这些学习经验应用于改进我们的流程,以确保未来的发布尽可能顺利是很有趣的。我们需要分阶段进行,首先是实验阶段,然后是封闭测试,再到逐步发布,就像我们以前发布游戏一样。每一步都要进行学习。

另外,我们还应该更多地利用 AI 本身来帮助我们进行红队测试,自动发现一些错误或进行初步分类,这样我们的开发者和人工测试人员就可以集中精力处理那些复杂的情况。

Hannah Fry:有一个非常有趣的地方在于,你们现在处于一个更加不确定的空间。如果发生某个事情的概率非常小,但只要尝试足够多次,最终就会出问题。我想可能确实已经有过几次公开的错误。

Demis Hassabis:是的,这就是为什么我提到产品团队正在适应这种测试方法。虽然他们对这些系统进行了测试,但它们具有随机性和不确定性。因此,很多情况下,如果是普通的软件,你可以说我测试了 99.99% 的情况,然后推断说这样就足够了。但对于这些生成系统来说情况不同,它们可以做出各种意想不到的、超出预期的、从未见过的反应。

如果有人聪明或具有对抗性,像黑客一样决定测试并推动它的极限,这可能会很难办。由于生成系统的随机性,即使是之前你对它说过的所有内容,它们也可能在某种特殊的状态下,或者它们的记忆被某些特定信息填满,这样它的输出就会出现异常。所以这确实有很大的复杂性,但不是无限的。虽然有办法应对这些情况,但比起传统技术的发布,这要复杂得多,更多是细致入微的。


Hannah Fry:我记得你说过,我们需要认为这是一种完全不同的计算方式,从我们完全理解的确定性计算,转向这种更加混乱的、充满概率性和错误的计算方式。你认为公众是否需要稍微调整一下对我们所做的计算类型的思维方式?

Demis Hassabis:我觉得是的。也许我们在发布某些东西之前,可以考虑发布一份原则文件或类似的东西,来明确系统的预期是什么,设计目的是什么,适用场景和无法完成的任务是什么,这很有意义。我们需要教育用户,比如在某些情况下你可以这样使用它,但不要尝试这些其他事情,因为它可能无法正常工作。我认为这是我们需要在这个领域中做得更好的地方,用户也需要更有经验。其实这是很有趣的。

这可能就是为什么聊天机器人有点出乎意料地出现的原因。即使是 ChatGPT,OpenAI 也感到惊讶。我们有自己的聊天机器人,Google 也有。在看它们的时候,我也注意到它们仍然有许多缺陷,仍然会出现错误、幻觉等很多问题。但是我们没有意识到,即使这样,聊天机器人仍然有很多非常好的使用场景,人们发现这些使用场景非常有价值,比如文档总结、写电子邮件、填写表格等。这些使用场景,即使存在一些小错误,人们也不介意,因为可以轻松修正,并且节省了大量时间。这就是人们在将这些技术交给大众使用时发现的意外之处,尽管这些系统存在许多已知的缺陷,但仍然存在有价值的使用场景。

Hannah Fry:这样的话,我想接下来要问的问题是关于开源的。因为当技术在大众手中时,正如你提到的,确实会发生一些非常了不起的事情。我知道 DeepMind 过去开源了许多研究项目,但感觉随着时间的推移,这种情况有所变化。

Demis Hassabis:我们一直非常支持开源和开放科学。正如你所知,我们几乎开源并发布了我们做过的几乎所有研究项目,包括像 transformer 和 AlphaGo 这样的项目,我们在《自然》和《科学》期刊上发表了这些成果。AlphaFold 也是开源的,就像我们上次讨论过的那样。

确实,分享信息是科技和科学快速进步的方式,所以我们几乎总是认为这样做是有益的。这是科学进步的普遍方式。唯一的例外是当涉及到强大的 AI 或 AGI 时,我们面临的是双重用途技术的问题。

因此,问题在于你想要支持所有良好的使用场景和那些善意的科学家、技术专家,鼓励他们基于这些想法进行构建、批评等。这是社会进步最快的方式。但是,问题在于如何同时限制恶意行为者的访问,他们可能会将这些系统用于不良目的、误用或转化为武器系统等。

这些通用系统确实可以被这样,换个法子利用。今天这样做尚且无碍,因为我认为目前的系统还不够强大。但在两三年后,特别是当你开始获得类似自动化的代理系统或代理行为时,如果这些系统被某些人或甚至某些流氓滥用,可能会造成严重的危害。因此,我认为作为一个集体,我们需要思考这对开源意味着什么。

也许前沿模型需要更多的检查,可能在它们发布一到两年后再进行开源。这是我们目前遵循的模式,因为我们有自己的开源模型,比如 Gemma,它们较小,所以不是前沿模型。尽管它们的能力在当前阶段已经被充分理解,但它们对开发者仍然非常有用,因为它们也可以轻松地在笔记本电脑上运行。总之,这些模型的能力仍然很有价值,但不如最新的前沿模型(例如 Gemini 1.5 模型)那么强大。因此,我认为我们最终可能会采取这种方法,我们将有开源模型,但它们会滞后于最前沿的模型一年左右,以便我们可以真正评估这些模型在开放环境中的表现。

Hannah Fry:最新最前沿的模型能力,确实可能踩到边界。

Demis Hassabis:我们可以看看这些模型的能力和边界。开源的问题在于,如果出现了问题,你是无法撤回的。对于专有模型,如果恶意行为者开始以不良方式使用它,你可以关闭访问权限。在极端情况下,你可以完全关闭它。但是,一旦开源了某些东西,就无法撤回。这是一个单向门,所以在开源时应该非常小心。

Hannah Fry:那是否有可能将 AGI 控制在一个组织的范围内呢?

Demis Hassabis:现在还不知道如何做到这一点。尤其是涉及到 AGI 级别的强大人工智能,即类似于人类水平的 AI。

Hannah Fry:在你描述的理想生态中,机构的位置如何呢?如果我们达到 AGI 支持所有科学研究的阶段,那么传统的机构,是否仍然有存在的价值?

Demis Hassabis:我认为机构仍然重要。在达到 AGI 之前,必须在公民社会、学术界、政府和工业实验室之间进行合作。我真的相信,这是我们达到这一阶段的唯一途径。

Hannah Fry:计算机科学家斯图尔特·拉塞尔(Stuart Russell)曾告诉我,他有些担心,一旦我们达到 AGI,可能会出现一种情况,即我们都像旧时代的王子一样——那些并不需要登上王位、也不做任何工作的人,只是过着无拘无束的奢华生活,没有任何目标。

Demis Hassabis:对,这是一个有趣的问题,也许这不仅仅是 AGI,更像是超级人工智能(Artificial Superintelligence)或其他一些概念,有时候人们称之为 ASI(Artificial Superintelligence)。在这种情况下,我们可能会经历一种根本的丰盈状态,只要我们确保公平和合理地分配资源,我们将能够拥有更多的自由来选择做什么。

那么,意义将成为一个重大的哲学问题。我认为,我们将需要哲学家,甚至神学家,社会科学家来开始思考这一点。是什么带来了意义?我仍然认为自我实现很重要。我不认为我们都会只是坐在那里冥想,可能会玩电脑游戏,谁知道呢?但这是否真的不好呢?也许我们还需要重新定义什么才是「好」的生活。

Hannah Fry:我想旧时代的王子,不会觉得有什么不好。

Demis Hassabis:你看那些极限运动的人,比如攀登珠穆朗玛峰,都是对人类极限的挑战。这些活动背后的动机可能与追求意义和自我实现有关。正如你提到的,尽管目前对这些问题的讨论可能还不够深入,但它们将极大地改变我们的世界。

即使是最先进的科技带来了极大的变革,比如治疗疾病、解决能源问题、应对气候变化等,我们仍然面临「意义」这一深层次的问题。这种意义的探寻不仅仅是技术层面的,更涉及哲学、心理学、甚至是文化层面。我们需要思考,在未来的技术繁荣之下,人类的存在和行为将如何重新定义。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


10 秒钟收获影视级短片,花式运镜主体依然清晰,这个全新国产视频模型稳稳拿捏

文生视频的赛道越来越热闹了,两周一更新,一月一迭代,马斯克当模特都快要忙不过来了。真的好能卷。豆包的视频生成模型带来了全新设计的扩散模型,针对高动态的复杂场景,展现出了影视级写实度和逼真细节。用一句话来描述效果:很强,很炸裂,不敢相信自己的眼睛。

9 月 24 日,2024 火山引擎 AI 创新巡展来到深圳,重磅发布了全新视频生成模型,一次性为整个 AI 视频赛道丢下了两颗炸弹:豆包视频生成-PixelDance、豆包视频生成-Seaweed 两款大模型。

作为国内首批通过算法备案的基座大模型厂商,闯入文生视频的赛道并不意外。甚至也不由得让人期待:还能怎么卷?在参与实际测试这个强大的国产模型之后,我们发现它的厉害之处,绝对不止在生成影像上,而是有一个更大的生态和愿景。

语义理解、一致性重要突破,充分掌握镜头语言

生成式视频的「魔法」,来自于「魔咒」。

换句话说,模型的语义理解能力是基础。只有在精准领悟 prompt 文字内容的情况下,才能恰当地呈现出预期中的画面——得先把「阅读理解」做明白。

这次 APPSO 参与了内部测试,得到称得上是了不起的效果——还是那句话,很强,很炸裂。

▲ prompt:一只小猫穿着围裙,戴着手套,在布满泡沫的水桶里洗碗,上方是正在出水的水龙头

每一个用 prompt 指示的元素,都得到了体现,没有「读漏题」唯一的问题是:太漂亮了——我家的土猫,没有这样的高级气质。

算了,小猫咪能有什么错。从成像来看,泡沫和水流的细节都非常惊人,以及猫猫的傲娇表情也很生动。

一个小细节:水流落在小猫的头顶,然后从背后和下巴处落下,这个细节符合物理规律,足以得见模型理解能力的强大。类似的表现,在官方演示中也能看到。

▲ 官方演示

头发在风中凌乱的还原,除了体现飘动的发丝,方向跟人物的运动节奏也是一致的,符合物理逻辑。

这种高保真的能力,背后来自抖音、剪映对视频创作的理解和技术积累,通过自研的高压缩比、高还原性视频隐状态编码和解码模型,强力保证了扩散模型的高效编码与运转。

▲ prompt:树木密布的森林里,仰望天空,天空被茂密的树叶遮住,阳光透过树叶间的缝隙洒落出来。仰拍视角,明暗对比强烈

绿色调是非常棘手的色调,调好了是复古清新,调不好就是色调跑偏。这里却精准还原光线经过了绿叶和树枝的折射,所形成的光圈效果,直逼镜头。

不得不说,在经过剪映、即梦 AI 等业务场景,反复打磨和持续迭代之后,让豆包·视频生成模型真正具备了专业级光影布局和色彩调节能力,支持 3D 动画、2D 动画、国画、黑白、厚涂等多种风格,以及更重要的——掌握镜头语言。

炫酷运镜,无论动作怎么变,主角都是稳稳的

镜头语言的重要性,强调多少次都不为过。没有人想自己倒腾半天,只做出一个动态 PPT。

然而对于普通用户来说,专门去上个「镜头语言」培训班也没有必要:豆包·视频生成模型已经准备好一系列运镜方案,从变焦、环绕、平摇,到缩放、目标跟随等超多镜头语言,都可以用 prompt 完成,实现灵活控制视角。
看上去轻松,实现起来并不简单:一致性是个不小的挑战。

模型从理解指令,生成主体,再根据镜头要求,设计主体的变化和行动轨迹,这一系列步骤中,不仅需要主体面目「不变」,还需要主体根据动作和角度,适当「可变」。

▲prompt:一只边牧穿着太空服在月球表面奔跑,跳起来追逐在浮在空中的飞盘。月光斜角度照射,打亮它的皮毛,低角度,4k 画质,慢动作

在小狗跃起时,头部、四肢都没有大变形,稳稳的,很安心。

▲ prompt:马斯克站在水稻田里,弯腰插秧,头顶戴着一个草笠,抬起头后,举手向镜头打招呼

在面对镜头讲话的十秒钟里,马斯克的表情、手臂、身体姿态都随着动作变化,但整体没有崩掉,一系列动作都非常流畅。

在处理这种「变」与「不变」的挑战中,几乎完美地保证了主体一致性,表现实在是太强大了。

当镜头有所变化的时候,道理也是一样的。在官方的演示 demo 里,有一个水下片段令人印象深刻。

▲ 官方演示

镜头一个简单的变焦,对于模型来说要完成的是:前面要有精致的细节,然后主体移动,显出新主体,最后落定在新主体上,整个一气呵成的大动作。

除了出众的一致性表现,惊人的运镜能力,自然也支持多种风格,3D、2D 动画、厚涂、漫画等,还有多种比例选择,都给了用户无比自由的选择。

▲ 官方演示

▲ prompt:Beautiful, snowy Tokyo city is bustling. The camera moves through a bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes

▲ prompt: 香港夜晚的十字路口,汽车和巴士快速驶过,形成流动的线条。有行人在等红绿灯。背景中建筑物虚化,形成光斑,低角度,4k 画质

从「高大上」到「好落地」

尽管豆包·视频生成模型才刚走到用户面前,但背后的技术已经打磨了很久。根据去年 11 月 ByteDance Research 发布的技术报告,字节团队把第一帧和最后一帧的图像指令与文本指令结合起来,最后一帧指令被证明是创建复杂场景或动作的关键构成要件。

另外,在当时字节选择了自回归路线,而非分层方法,以此来实现高稳定性的画面表现能力。这背后的考量是,模型要能确保生成的内容和用户期望一致,只有这样,用户才会积极参与生成的过程,扮演「导演」的角色,从而让强大的模型能力,尽快落实在实际应用中。

对比同类产品(不包括期货),豆包的视频生成模型完全是第一梯队的水准表现。相比较于国外产品,比如 Luma,比如 Runway,它更懂中文和中文用户,更适配中文互联网中的创作工作流。

▲ 官方演示

如此优秀的性能,脱颖而出是必然的。这还不单指视频生成模型,而是整个豆包大模型家族:作为国内首批通过算法备案的大模型之一,豆包大模型通过火山引擎和火山方舟,面向企业提供服务。

截至 9 月,豆包语言模型的日均 tokens 使用量超过 1.3 万亿,相比 5 月首次发布时猛增十倍。

为了提供最强的性能,豆包通用模型 Pro 默认支持 800K 的初始 tpm,可以看到这个数字远超行业最好水平,并且可根据实际需求进一步扩容,帮助大企业能安心的在生产环境里大规模使用。

而在技术力如此强大的同时,在各家大模型最强版本价格对比中,豆包大模型比行业价格低 98% 以上——用 AI 的门槛已经前所未有的低了。

越是高大上的技术,越需要落地实现,走进日常生活中。

在实际的业务场景里,需要的是效果好、速度快、易上手。以电商为例,既要考虑营销节点,又要顾及不同平台的展示效果,需要的是灵活快速的制作方法。

无论是广告拍摄、还是短视频、直播电商等领域,都需要简单易上手的工具,嵌入现有的制作流程里。

在 24 号的发布会上,火山引擎总裁谭待还展示了一系列大模型的应用,尤其是真真正正落地到商业使用场景中的案例。
火山引擎通过全栈大模型服务,把豆包大模型的实力,真正接入到实际的业务场景中。今年以来,火山引擎建立了零售大模型生态联盟、汽车大模型生态联盟和智能终端大模型联盟,覆盖的业务和场景种类十分丰富多样。

更强模型,更低价格,更易落地,这无疑是豆包大模型的重要优势。

「更强模型」不用多说,豆包大模型能够支撑起每天超万亿 tokens 用量,通过字节跳动内部 50+ 业务实践、30+ 行业客户的应用,不断增加的调用量,覆盖越来越多场景。在收获更多的企业反馈的同时,也帮助⾖包⼤模型越来越好,越来越全⾯。

在发布会上,谭待表示,「大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能,卷更好的模型能力和服务」。

「商业场景的应用,是豆包·视频生成模型在一开始就在考虑的事情,需要在商业价值取得突破才能得到更好的应用。」谭待表示,「我们在各种场景里面都做了充分适配,这样可以让大家在商业环境中真实通过豆包·视频生成模型实现业务的创新和加速。」

爱好者能够借由低门槛的 C 端产品,开启对 AI 世界的探索。而开发者能够利用火山引擎,以更低价、更多样、更灵活的方式实现 AI 的工作,为更广泛的用户群,提供进一步探索的新产品、新内容。

随后的记者问答会上,他还分享到,在技术不断迭代、进步的情况下,当 AI 能够完整地解决一个问题时,toB 和 toC 之间的区别未必有这么大。

或许这将是 AI 时代最壮观的景象:原本高不可及的壁垒,正在被推翻。无论有没有经验,无论是为了业务赋能还是为自娱自乐,只要上手起来,就是在创造奇迹。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌