Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

更小更强大的 GPT-4o mini 背后,AI 模型的未来不再是越大越好

By: 莫崇宇
26 July 2024 at 17:02

上周 OpenAI 率先深夜放出大招,推出的 GPT-4o mini 上演了「以小胜大」的好戏,一脚将 GPT-3.5 Turbo 踹「退役了」,甚至在大模型竞技场 LMSYS 上还强过了 GPT-4。

到了本周 Meta 发布的 Llama 3.1 大模型,如果说第一梯队的 405B 尺寸还在意料之中,那么上演「以小胜大」的 8B 和 70B 尺寸版本则带来更多惊喜。

而这或许不是小模型竞争的终点,更可能是一个新的起点。

不是大模型用不起,而是小模型更有性价比

在 AI 圈的广袤天地里,小模型始终始终有着自己的传说。

往外看,去年一鸣惊人的 Mistral 7B 刚一发布就被誉为「最好的 7B 模型」,在多项评估基准中均胜过了 13B 参数模型 Llama 2,并在推理、数学和代码生成方面超越了 Llama 34B。

今年微软也开源最强小参数大模型 phi-3-mini,虽然参数量仅有 3.8B,但性能评测结果远超同等参数规模水平,越级比肩 GPT-3.5、Claude-3 Sonnet 等更大模型。

往内看,面壁智能在 2 月初推出只有 2B 参数量级的端侧语言模型面壁 MiniCPM,用更小的尺寸实现更强的性能,性能超越法国当红大模型 Mistral-7B,被称为「小钢炮」。

前不久,仅有 8B 参数大小的 MiniCPM-Llama3-V2.5 在多模态综合性能、OCR 能力等方面也超越了 GPT-4V 和 Gemini Pro 等更大模型,也因此遭到了斯坦福大学 AI 团队的抄袭。

直到上周,深夜炸场的 OpenAI 推出被其描述为「功能最强、性价比最高的小参数模型」——GPT-4o mini,以浩荡之势将众人视野拉回到小模型之中。

自打 OpenAI 将全世界拽入生成式 AI 的想象以来,从卷长上下文、到卷参数、智能体、再到如今价格战,国内外的发展始终围绕一个逻辑——通过迈向商业化从而留在牌桌上。

因此,在一众的舆论场中,最引人注目的莫过于降价的 OpenAI 似乎也要入局价格战了。

可能很多人对 GPT-4o mini 的价格没有太清晰的概念。GPT-4o mini 每 100 万输入 token 价格为 15 美分,每 100 万输出 token 价格为 60 美分,比 GPT-3.5 Turbo 便宜超过 60%。

也就是说,GPT-4o mini 生成一本 2500 页的书,价格只需要 60 美分。

OpenAI CEO Sam Altman 也在 X 上不免感慨,两年前最强的模型与 GPT-4o mini 相比,不仅性能差距巨大,而且使用成本高达现在的 100 倍。

在大模型价格战愈发激烈的同时,一些高效经济的开源小模型也更容易受到市场的关注,毕竟不是大模型用不起,而是小模型更有性价比。

一方面,在全球 GPU 被爆买乃至缺货的情况下,训练和部署成本较低的开源小模型也足以让其逐渐占据上风。

例如,面壁智能推出的 MiniCPM,凭借其较小的参数能够实现推理成本的断崖式下跌,甚至可以实现 CPU 推理,只需一台机器持续参数训练,一张显卡进行参数微调,同时也有持续改进的成本空间。

如果你是成熟的开发者,你甚至可以用自己搭建小模型的方式去训练一个法律领域的垂直模型,其推理成本可能仅为使用大型模型微调的千分之一。

一些端侧「小模型」的应用落地让不少厂商能看到率先盈利的曙光。比如面壁智能助力深圳市中级人民法院上线运行人工智能辅助审判系统,向市场证明了技术的价值。

当然,更准确地说,我们将开始看到的变化不是从大模型到小模型的转变,而是从单一类别的模型转向一个模型组合的转变,而选择合适的模型取决于组织的具体需求、任务的复杂性和可用资源。

另一方面,小模型在移动设备、嵌入式系统或低功耗环境中更易于部署和集成。

小模型的参数规模相对较小,相比大型模型,其对计算资源(如 AI 算力、内存等)的需求较低,能够在资源受限的端侧设备上更流畅地运行。并且,端侧设备通常对能耗、发热等问题有着更为极致的要求,经过特别设计的小模型可以更好地适配端侧设备的限制。

荣耀 CEO 赵明说过,端侧由于 AI 算力问题,参数可能在 1B 到 10B 之间,网络大模型云计算的能力可以做到 100-1000 亿,甚至更高,这种能力就是两者的差距。

手机是在一个很有限的空间内,对吧?它是在有限的电池,有限的散热和有限存储环境下支持 70 亿,你就想象一下其中这么多约束条件,它一定是最难的。

我们也曾揭秘负责运作苹果智能的幕后功臣,其中经过微调的 3B 小模型专用于摘要、润色等任务,在经过适配器的加持后,能力优于 Gemma-7B,适合在手机终端运行。包括 Google 也计划在未来几个月内更新适合手机终端运行的 2B 版本小模型 Gemma-2。

最近,前 OpenAI 大神 Andrej Karpathy 也提出了一个判断,模型尺寸的竞争将会「反向内卷」,不是越来越大,而是比谁更小更灵活。

小模型凭什么以小胜大

Andrej Karpathy 的预测并非无的放矢。

在这个数据为中心的时代,模型正迅速变得更加庞大和复杂,经过海量数据训练出来的超大模型(如 GPT-4),大部分其实是用来记住大量的无关紧要细节的,也就是死记硬背资料。

然而,经过微调的模型在特定任务上甚至「以小胜大」,好用程度媲美不少「超大模型」。

Hugging Face CEO Clem Delangue 也曾建议,多达 99% 的使用案例可以通过使用小模型来解决,并预测 2024 年将是小型语言模型的一年。

究其原因之前,我们得先科普一些知识。

2020 年,OpenAI 在一篇论文中提出一个著名的定律:Scaling law,指的是随着模型大小的增加,其性能也会随之增加。随着 GPT-4 等模型的推出,Scaling law 的优势也逐渐显现出来。

AI 领域的研究者和工程师坚信,通过增加模型的参数数量,可以进一步提升模型的学习能力和泛化能力。就这样,我们见证模型规模从数十亿参数跃升至几千亿,甚至朝着万亿参数规模的模型攀登。

在 AI 的世界里,模型的规模并非衡量其智能的唯一标准。

相反,一个精巧设计的小型模型,通过优化算法、提升数据质量、采用先进的压缩技术,往往能够在特定任务上展现出与大型模型相媲美甚至更优的性能。这种以小博大的策略,正成为 AI 领域的新趋势。

其中提高数据质量是小模型以小胜大的方法之一。

Coalesce 的首席技术官兼联合创始人 Satish Jayanthi 曾这样形容数据对模型的作用:

如果 17 世纪就有 LLM,而我们问 ChatGPT 地球是圆的还是平的,它回答说地球是平的,那将是因为我们提供的数据让它相信这是事实。我们提供给 LLM 的数据以及我们的训练方式,将直接影响其输出。

为了产出高质量的结果,大型语言模型需要接受针对特定主题和领域的高质量、有针对性的数据训练。就像学生需要优质的教材来学习一样,LLM 也需要优质的数据源。

抛却传统大力出奇迹的暴力美学,清华大学计算机系长聘副教授、面壁智能首席科学家刘知远前不久提出了大模型时代的面壁定律,即模型的知识密度不断提升,平均每 8 个月提升一倍。

其中知识密度=模型能力 / 参与计算的模型参数。

刘知远形象地解释道,如果给你 100 道智商测试题,你的得分不仅仅取决于你答对了多少题,更在于你完成这些题目所动用的神经元数量。如果用更少的神经元完成更多的任务,那么你的智商就越高。

这正是知识密度所要传达的核心理念:

它有两个要素,一个要素是这个模型所能达成的能力。第二个要素是这个能力所需要消耗的所需要神经元的数量,或者说对应的算力消耗。

相比 OpenAI 于 2020 年发布的 1750 亿参数的 GPT-3,2024 年面壁发布 GPT-3 同等性能但参数仅为 24 亿的 MiniCPM -2.4B,知识密度提高了大概 86 倍。

一项来自多伦多大学的研究也表明,并非所有数据都是必要的,从大型数据集中识别出高质量的子集,这些子集更易于处理且保留了原始数据集中的所有信息和多样性。

即使去除高达 95% 的训练数据,模型在特定分布内的预测性能也可能不会受到显著影响。

近期最典型的例子当属 Meta Llama 3.1 大模型。

Meta 在训练 Llama 3 时,喂了 15T tokens 训练数据,但负责 Llama2 和 Llama3 训练后工作的 Meta AI 研究员 Thomas Scialom 却表示:网络上的文本充满了无用信息,基于这些信息进行训练是浪费计算资源。

「Llama 3 后期训练中没有任何人工编写答案……只是利用了 Llama 2 的纯合成数据。」

此外,知识蒸馏也是其中一个「以小胜大」重要的方法。

知识蒸馏指的是通过一个大型且复杂的「教师模型」来指导一个小型且简单的「学生模型」的训练,能够将大模型的强大性能和优越的泛化能力转移给更轻量级、运算成本更低的小模型。

在 Llama 3.1 发布之后,Meta CEO 扎克伯格撰写了一篇长文《Open Source AI Is the Path Forward》,他在长文中也着重提到了微调和蒸馏小模型的重要性。

我们需要训练、微调和蒸馏自己的模型。每个组织都有不同的需求,这些需求最好通过使用不同规模并使用特定数据训练或微调的模型来满足。

设备上的任务和分类任务需要小型模型,而更复杂的任务则需要大型模型。

现在,你可以使用最先进的 Llama 模型,继续用自己的数据训练它们,然后将它们蒸馏成最适合你需求的模型规模 —— 无需我们或任何其他人看到你的数据。

业内也普遍认为,Meta Llama 3.1 的 8B 和 70B 版本是由超大杯的蒸馏而成,因此,整体性能得到了显著跃迁,模型效率也更高。

又或者,模型架构优化也是关键,比如 MobileNet 设计的初衷是在移动设备上实现高效的深度学习模型。

它通过深度可分离卷积(Depthwise Separable Convolution)显著减少了模型的参数数量。MobileNetV1 相比于 ResNet 在参数数量上减少了约 8-9 倍。

由于参数数量的减少,MobileNet 在计算上更为高效。这对于资源受限的环境(如移动设备)尤为重要,因为它可以在不牺牲太多性能的情况下,显著降低计算和存储需求。

尽管技术层面取得了进步,但 AI 行业本身仍面临着长周期投入和高成本的挑战,且回报周期相对较长。

据《每日经济新闻》不完全统计, 截至今年 4 月底,国内共推出了约 305 个大模型,但截至 5 月 16 日,还有约 165 个大模型尚未完成备案。

百度创始人李彦宏曾公开批评,认为当前众多基础模型的存在是对资源的浪费,并建议应将资源更多地用于探索模型与行业结合的可能性,以及开发下一个潜在的超级应用。

这也是当前 AI 行业的一个核心问题,模型数量的激增与实际应用落地之间不相称的矛盾。

面对这一挑战,行业的焦点逐渐转向加速 AI 技术的落地应用,而部署成本低和效率更高的小模型成了更为合适的破局点。

所以我们注意到一些专注于特定领域的小型模型开始冒出来,比如烹饪大模型、直播带货大模型。这些名头虽然看起来有些唬人,但恰恰是走在了正确的道路上。

简言之,未来的 AI 将不再是单一的、庞大的存在,而是会更加多样化、个性化。小模型的崛起,正是这一趋势的体现。它们在特定任务上展现出的卓越性能,证明了「小而美」同样能够赢得尊重和认可。

One more Thing

如果你想在 iPhone 上提前跑模型,那不妨尝试 Hugging Face 推出的一款名为「Hugging Chat」的 iOS App。

借助魔法和美区 App Store 账号即可下载该 App,然后用户即可在访问和使用各种开源模型,包括但不限于 Phi 3、
Mixtral、Command R+ 等模型。

温馨提醒,为了获得更佳的体验和性能,建议使用最新一代的 Pro 版 iPhone。

下载链接:https://apps.apple.com/us/app/huggingchat/id6476778843

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


30s 生成视频,免费不限次数,中国版 OpenAI 今天发布的「智谱清影」被玩疯了 | 附体验指南

By: 莫崇宇
26 July 2024 at 12:12

过去半年,国内外视频生成模型迎来了新一轮技术大爆发,也都总能在第一时间烧遍社交网络。

但与语言生成模型的「掉队」有所不同,近期趋势却显示国内在视频生成模型这一领域的进步大为超越了国际水平。不少国外网友表示,「中国的可灵 AI 视频」在引爆互联网,而 OpenAI 的 Sora 却在沉睡。

今天,国内头部大模型厂商智谱 AI 也发布了旗下 AI 视频生成产品「清影」。

当然,国内外的 AI 视频模型有一个算一个,瑕疵都真不少,但比起「期货」Sora 来说,这些 AI 视频产品看得见也摸得着,顶多可能需要多尝试几次才能「抽」到保底的视频。

而这种探索本身就是技术进步的一部分。

正如 GPT-3 在诞生之初也曾遭受过质疑和批评,最终用时间证明了自己继往开来的价值,同理再给这些 AI 视频生成工具一些时间,从玩具变成工具也许就在朝夕之间。

清影 PC 端访问链接:
https://chatglm.cn/video?fr=opt_homepage_PC
清影移动端访问链接:
https://chatglm.cn/video?&fr=opt_888_qy3

半分钟生成 6s 视频,「智谱清影」正式发布

相较于今天发布的智谱清影,可能很多人更为了解智谱清言,但不看广告看疗效,不妨先来看看由「清影」一手打造的演示 demo。

在葱郁的森林里,树叶的缝隙中洒下一些阳光,产生丁达尔效应,光便有了形状。

当海啸如同发飙的怪兽咆哮而来,整个村子瞬间被海水吞噬,犹如末日电影里的经典桥段。

霓虹灯闪烁的城市夜景中,一只充满机械美感的小猴手持高科技工具,修理着同样闪烁、超未来的电子设备。

再换个画风,小猫张大嘴巴,人性化地露出困惑表情,脸上写满了问号。

没有宫斗戏码、没有尔虞我诈,甄嬛眉庄穿越时空的跨屏拥抱,只有真挚的姐妹情深。

另外,得益于智谱大模型团队自研高效打造的视频生成大模型 CogVideo,清影现已支持多种生成方式,包括文本生成视频、图片生成视频,甚至也可应用于广告制作、电影剪辑、短视频制作等领域。

清影具有强大的指令跟随能力,能够充分理解和执行用户给出的指令。

据介绍,智谱 AI 自研了一个端到端视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,从而增强模型的文本理解和指令遵循能力,生成符合用户需求的视频。

在内容连贯性上,智谱 AI 自研高效三维变分自编码器结构(3D VAE),将原视频空间压缩至 2% 大小,配合 3D RoPE 位置编码模块,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。

比如从土豆变成薯条一般需要几步?不需要「动火」,只需一句简单的提示词,土豆就变成了金黄诱人的薯条。官方表示,无论你的想法有多么天马行空,它都能一一地将其变成现实。

此外,参考了 Sora 算法设计的 CogVideoX 也是 DiT 架构,能将文本、时间、空间三个维度融合起来,通过技术优化后,CogVideoX 相比前代(CogVideo)推理速度提升了 6 倍。理论上,模型侧生成 6 秒视频仅需 30 秒时间。

作为对比,目前处在第一梯队的可灵 AI 生成单个 5s 的视频一般耗时 2 到 5 分钟。

在今天发布会现场,智谱 AI CEO 张鹏让清影生成一个猎豹在地上睡觉,身体在微微地起伏的视频,大约 30 秒时间大功告成,不过,让一朵静态的玫瑰「绽开」,则需要更多的时间。

此外,清影生成视频的清晰度可达 1440×960(3:2),帧率为 16fps。

清影还贴心地提供了配乐功能,生成视频可以添上音乐即可直接发布。

本以为宇航员弹吉他的静态图已经足够天马行空,而当它动起来,再配上悠然的旋律,仿佛航天员在太空中举办了一场演唱会。

与「期货」Sora 有所不同,「清影」不搞饥饿营销,一上线就全面开放,任何人都可以体验尝试,不用预约也不用排队,并且还将在后续版本中,陆续推出更高分辨率、更长时长的生成视频功能。

张鹏也在智谱 Open Day 上表示,「所有用户,都能通过清影(Ying)体验 AI 文生视频、图生视频能力。」

现在,清影处于首发测试期间,所有用户都可以免费使用。若追求更流畅的体验,花上 5 块钱就能解锁一天(24 小时)的高速通道权益,要是愿意付费 199 元,就能解锁一年的付费高速通道权益。

另外,清影(Ying)API 也同步上线大模型开放平台 bigmodel.cn,企业和开发者通过调用 API 的方式,体验和使用文生视频以及图生视频的模型能力。

上手门槛低但还要「抽卡」,小白再也不用担心写不好指令了

APPSO 也第一时间体验了清影,在测试了一些场景后,我们也总结出关于使用清影的一些心得:

  • 视频生成像「炼丹」,输出不稳,建议多试几次
  • 效果上限得看提示词,提示词结构要尽可能清晰
  • 镜头画面效果最好的是近景,其它景别不太稳定
  • 实体类型实现排序:动物> 植物> 物品> 建筑> 人物

不懂艺术的科学家不是好科学家,爱因斯坦弹起吉他来如鱼得水,摇头晃脑自带节奏,不像是演的。

大熊猫弹起吉他也是有模有样,多才多艺。

平时不苟言笑的唐僧跟你挥手打招呼,随着节奏摇摆起来。

当然,以上还算是一些效果比较好的视频,在视频生成的过程中,我们也积攒了不少废片。

比如说,让躺在床上的皇上用右手吃个鸡腿,结果凭空多出了一只手,视频最后一秒,我感觉皇上快要露出他的女性妆发了。

又或者张国荣看向我的那一刻,心中的哥哥已经变成了「那个男的」。

在复杂场景中,人物动作过渡不自然、无法准确模拟复杂场景的物理特性、生成内容的准确性不足等等,这些缺点并非是清影的「专利」,而是视频生成模型目前的局限。

在实际应用中,尽管用户能通过优化提示词来提升视频质量,但「翻车」也是常有的事,好在质量尚可的提示词能够在很大程度上保证了视频生成模型的下限。

为了照顾部分小白玩家,我们也特地准备了一些提示词的小诀窍:

  • 简单公式:[摄像机移动]+[建立场景]+[更多细节]
  • 复杂公式:[镜头语言] + [光影] + [主体 (主体描述)] + [主体运动] +[场景 (场景描述)] +[情绪/氛围]

摄影机平移(镜头移动),一个小男孩坐在公园的长椅上(主体描述),手里拿着一杯热气腾腾的咖啡(主体动作)。他穿着一件蓝色的衬衫,看起来很愉快(主体细节描述),背景是绿树成荫的公园,阳光透过树叶洒在男孩身上(所处环境描述)。

如果你还是没有头绪,那么我推荐你使用智谱清言提供的帮写视频提示词的智能体,哪怕是输入生活中常见的普通场景,都能获得三个优质提示词。

比如,随手的一句「柯基在沙滩上晒太阳」,然后就能得到如下自然风光摄影风格中英文提示词,并且还有水彩画风格、3D 动画风格等多种风格提示词供你挑选:

中文:在阳光明媚的沙滩上,一只柯基犬懒洋洋地躺在沙滩巾上,享受着温暖的阳光。镜头从低角度拍摄,背景是广阔的蓝色海洋和洁白的沙滩,海浪轻轻拍打着岸边,气氛宁静,画质 4K 超清。

英文:On a sunny beach, a Corgi lies lazily on a beach towel, basking in the warm sunlight. The camera captures the scene from a low angle, showcasing the vast blue ocean and pristine white sand in the background, with gentle waves lapping at the shore. The atmosphere is tranquil, captured in 4K ultra-high definition.

看到如此令人满意的提示词,不错,我当时也确实是想这么写的。

附上清影提示词智能体地址(文生视频):https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6

图片生成视频同理,输入图像主体,选择图像风格,就能让智谱清言帮你写出对应的提示词。从无提示词、到「戴眼镜」,再到「唐僧伸出手,戴上眼镜」的进化,效果嘛,也是天壤之别。

附上清影提示词智能体地址(图生视频):https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903

工欲善其事,必先利其器,把格局再打开一点,你还可以在智谱清言里体验更多的内容创作工具。

从最初的选题材料收集阶段,到脚本撰写环节,图片与视频创作过程,再到推广文案,几乎能打通视频生成创意的全链条,就差没明说,你只顾想创意,剩下的交给它。

我们发现,包括可灵在内最近发布的 AI 视频产品,都在通过首尾帧控制等方式提升可控性。

AI 创作者陈坤曾告诉 APPSO,现在可用于商业化交付的 AI 视频,几乎全都是图生视频,因为文生视频还做不到,其实就是可控性的问题。

今天智谱 AI 发布的清影则进一步提升了文字生成视频的可控性,智谱 AI 接受 APPSO 采访时表示,文字生成视频体现了更通用的可控性。

AI 生成的视频大部分还是由人用语言的方式去控制的。所以如何让文字或者简单的语言指令的识别,是更高层面的控制性。

AI 视频,正在从玩具到创作者工具

如果去年是大模型爆发的元年,今年可是说 AI 视频走向应用的重要节点。

虽然引爆这一切的 Sora 至今仍未上线,但它给 AI 视频带来了一些启发。

Sora 通过合理的细节设计解决了帧间细节跳变的问题。同时直接生成了高分辨率(1080p)的视频图像,可以生成语义丰富的长达 60 秒的视频,说明背后训练的序列也比较长。

仅在这两个月,就有不下 10 家公司推出 AI 视频新产品或大更新。

就在智谱清影发布前几天,快手的可灵 AI 在全球开放内测, 而另外一个被认为 Sora 的 PixVerse 发布了 V2 版本,支持一键生成 1-5 段连续的视频内容。

不久前,Runway Gen 3 Alpha 也开启付费用户公测,细节的精致度和丝滑程度上有不错的提升。上个月刚刚发布的 电影级视频生成模型 Dream Machine,也在最近更新了首尾帧功能。

短短几个月内,AI 视频生成在物理模拟、运动流畅度、对提示词理解方面都有大幅的提升。 AI 玄幻剧导演陈坤对此的感受更为敏感,他认为 AI 视频生成技术的进步或许比想象得更快。

2023 年的 AI 视频,更像动态 PPT,人物在表演慢动作,靠蒙太奇剪辑拉分。但现在,AI 视频的「PPT 味」已经淡了不少。

陈坤导演的国内首部 AIGC 奇观剧《山海奇镜之劈波斩浪》最近刚刚上线,他用 AI 取代不少传统影视实拍的环节,他告诉 APPSO 以前要做类似的玄幻题材,至少需要 100 个人,而他的团队只有 10 多个人,大大缩短制作周期和成本。

这半年,可以看到更多专业的影视创作者开始尝试 AI 视频。国内快手抖音都上线 AI 短剧,50 位 AIGC 创作者合作完成的首部 AI 长篇电影《Our T2 Remake》在洛杉矶举行首映。

虽然 AI 视频生成在在人物和场景一致性、人物表演、动作交互等方面还有局限,但不否认 AI 视频正在从去年尝鲜的玩具,慢慢转变成创作者的工具。

这或许也是包括智谱清影、快手可灵、 Luma Dream Machine 等产品都开始推出会员体系的重要原因,要知道国内大模型面向 C 端的产品大都以免费为主,这和国内订阅付费习惯和优先追求用户增长策略有关,AI 视频的付费除了好奇的用户,必须有更多内容创作者支持才能持续。

当然,AI 视频生成还处于比较早期的阶段,所谓「一句话生成电影」只是标题党式的误导,视频模型需要具有更好的指令遵循能力和可控性,才能更好地理解物理世界。

智谱在今天的发布会也提到,多模态模型的探索还处于非常初级的阶段。

从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。

从模型本身角度看,需要更具突破式创新的新模型架构,它应该更高效压缩视频信息,更充分融合文本和视频内容,贴合用户指令的同时,让生成内容真实感更高。

「我们积极在模型层面探索更高效的 scaling 方式。」但张鹏也对多模态模型的发展充满信心,「随着算法、数据不断迭代,相信 Scaling Law 将继续发挥强大威力。」

AI 创作者陈坤认为,AI 生成的镜头要 100% 扛得住大银幕,只是时间问题。这个时间是多久并不是最值得关心的,参与这个过程反而更加重要,就像智谱 AI CEO 张鹏此前接受 APPSO 采访提到的:

很多事情要前赴后继地去探索,这个过程就很重要,不要只看到最终的结果,更重要的是我们采取行动,我觉得这才是目前大家更应该关注的事情。

作者:李超凡、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌