Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

首个高考志愿大模型体验:夸克给 1335 万考生配免费高报规划师?

By: 艾 梵
12 June 2025 at 11:00

前几天,全国 1335 万考生走出了高考考场,但真正的「战场」才刚刚开始。

当这千万的家庭一同涌入志愿填报这座「信息迷宫」,你会发现,这里的硝烟味,丝毫不亚于考场。

3000 多所大学,1600 多个专业,听着就让人头大。更别提年年「上新」的招生政策,什么「专业组平行志愿」、「院校投档线差」,复杂得堪比高数题。

信息差,在这里就是赤裸裸的成本。一步选错,可能就与理想的象牙塔擦肩而过。

我们都羡慕那些能请到「张雪峰」式专家的家庭,但现实是,大多数人只能在海量信息中自己摸索,祈祷别踩坑。

难道,在关乎未来的关键抉择上,我们只能凭运气和「玄学」吗?

在 AI 快速迭代的今天,终于有了一些变化。

今年,夸克憋了个大招,发布了行业首个「高考志愿大模型」,所有志愿相关的功能,数据都来自「夸克高考知识库」,囊括教育官网、省招生办官网等权威信息源,确保所有数据准确可信。

同时,考虑到志愿填报与未来就业强相关,夸克高考知识库还进一步将高校毕业生就业相关信息、产业趋势规划、就业报告等纳入。丰富、准确的数据为模型在「冲—稳—保」排序、就业前景评估等环节提供了有力支撑。

陪伴 1.2 亿考生和家长走了 7 年高考路,夸克表示要用 AI 的力量,再次升级高考信息服务,结合深度搜索、 志愿工具、 志愿报告三大服务,更精准地理解每个考生的个性化需求,提供更专业的报考建议,甚至为你量身定制专属志愿报告和多种填报策略。

听起来,每个考生都要拥有自己的志愿规划师了?APPSO 替广大学生和家长先体验了一番。

解答志愿问题,我用这些复杂、个性化角度考验它

志愿填报的第一步,信息搜集最关键。我先拿几个常规操作试试水。

我想查查「浙江大学」和「计算机科学与技术」专业。在夸克里输入后,信息很快就出来了。

不像以前要辗转好几个网站,也不像其他 AI 偏向学校和专业科普百科,夸克是把考生最关心的信息维度都做了高效聚合,学校的综合实力、王牌专业、历年分数线、课程设置、就业前景,一目了然,确实省心不少。

我还问了个困扰很多考生的政策问题:「志愿优先和分数优先区别?」夸克很快就给出了清晰的解答,解释了两种模式的核心差异、录取逻辑、图表对比优缺点以及适用场景。

看来它对招生计划、填报政策,都门儿清。

接下来,我抛出了一个更具体也更贴近真实需求的问题:

山东物化生 585,家境一般,想冲 211,喜欢智能制造类新工科专业,想尽快就业,家里倾向学法律,如何推荐志愿?

这个问题真的很现实,家庭期望和个人兴趣的冲突,加上经济压力,很多考生都会遇到。

说实话夸克的回答让我有点超出预期。它没有简单地说「跟着兴趣走」或者「听家长的话」,而是从多个角度帮我分析。

由于今年高考成绩还没公布,它先用去年的分数线分析了 585 分在山东的位次大概是 3.5 万名,处于中上水平,冲刺 211有一定希望。

在今年的高考成绩出来后,夸克高考的招录数据也会在实时更新,回答会更准确。但这不妨碍我们看它的回答逻辑。

我们看到它很贴心地对比了智能制造和法学两个专业的优劣势:

智能制造行业人才缺口大,起薪 8-12k 相对较高 ,而且有本硕贯通培养的机会;

法学虽然起薪略低一些,但通过法考后职业路径很清晰,考公务员也有优势,特别是现在有些学校开设「法学+数据科学」的复合培养,就业竞争力更强。

最让我觉得实用的是,它直接给出了具体的志愿梯度建议。如果冲 211 就优先填报新疆大学等高校,侧重智能制造就选择非 211 院校。还从职业规划角度给出了不同专业需要提前做的准备。

这种具体到操作层面的分析和建议,不仅考虑了个人情况,还兼顾了家庭期望和职业发展路径,

无论是专业意向、学校实力还是历年录取位次,都和需求很匹配,确实比考生自己琢磨要系统得多。

下面再上点难度,来一个「既要又要还要」的问题,别说这真是很多考生真实的想法。

湖北考生,物地政,兴趣广泛、啥都能学,想去上海或浙江,毕业后想找高薪的工作,能帮我推荐选什么专业和院校吗?

这个问题要素很多,但指向性又比较模糊。

夸克首先帮我梳理了需求,分析了考生的选科组合可以报考49%的专业,然后从金融学、大数据管理与应用、地理信息科学等高薪潜力专业入手,从专业适配性、地域优势、就业前景三个维度提供了志愿填报方案。

在院校推荐上,它不仅列出了上海财经大学、浙江大学等顶尖院校,也考虑了华东师范大学、杭州电子科技大学等实力不俗的高校,并指出了各校的学科优势和就业资源亮点。

最后,它还给出了梯度填报建议(理想、稳妥、保底院校)和风险规避提示,比如避免填报要求化学/生物的专业,关注院校「双万计划」专业等。

这种引导式的回答,能帮助考生把混乱的想法逐渐理清,并提供了非常具体和有数据支撑的建议。

在上面这些的回答过程中,我特别留意到夸克会强调其信息来源。在知识库的链接上,会标注来自教育厅、院校等官网等权威来源,一目了然。

这让它在回答这些复杂问题时,更有参考价值也更令家长考生放心。

定制志愿报告,让他和「志愿规划师」比专业

对考生最有价值的,当然还是定制一份完整的志愿规划报告。

市面上的志愿规划师动辄几千上万,质量还参差不齐,我很好奇夸克免费的志愿报告能不能做到同样专业。

夸克的志愿报告生成很简单,我只需要填写基础信息像省份、成绩、位次、选科组合,还有兴趣偏好、意向城市、职业规划等个性化需求。

提交后,它会结合高考知识库里的历年录取数据、院校专业信息等,通过 AI 大模型分析生成专属报告。

我拿到的报告内容真的很详尽。它有填报策略分析,比如根据我的分数分析我处于哪个分数段,有哪些机会和挑战。

还有具体的志愿表推荐,包含「冲、稳、保」三个梯度的院校和专业建议,每个推荐都有详细的录取概率和历年分数参考。

比如在稳妥层可能推荐天津理工大学的智能制造工程,给出近三年的录取分数 585/34116、587/33788 等具体数据。夸克甚至能生成多种不同策略的报告,像「院校冲刺」、「王牌专业优先」、「地域优先」等,让我可以综合评估。

除了核心功能,夸克的智能选志愿功能也很有用,输入成绩就能获得「冲稳保」多梯度的志愿选项,还可以按院校优先、专业优先等偏好筛选。

志愿填报期间还有名师专家团免费直播,甚至有张雪峰老师的独家干货,用电脑大屏查看编辑志愿表也超方便。

整个体验下来,我发现它不再只是个信息查询工具,更像一个能理解我、懂我的智能志愿规划助手。

无论是解答那些复杂的个性化问题,还是生成逻辑清晰、数据详实的志愿报告,都展现了背后 AI 大模型和权威知识库的实力。虽然 AI 不能完全替代我们的自主思考,但夸克高考无疑提供了一个专业、智能且免费的强大辅助,让复杂的志愿填报变得比过去更简单可靠。

对于 1300 多万即将面临人生重要选择的考生来说,有这样的工具确实让人安心不少。

让复杂的志愿填报变得简单,就是一种教育普惠

说起填志愿这事儿,我发现身边很多考生和家长都有同感:焦虑感有时候比高考本身还要强烈。

为什么呢?说白了就是信息太不对称了。好的指导资源,基本都集中在那几个大城市,大多数人只能自己瞎摸索。

以前填志愿还相对简单,基本就是「分数够哪个学校就报哪个」。但现在不行了,每个孩子的情况都不一样——有的喜欢文科,有的偏理工;有的想留在家附近,有的想去大城市闯闯;有的急着工作赚钱,有的想继续深造。这些都得考虑进去。

所以现在填志愿,真的像打一场信息战。夸克搞的这个高考志愿大模型,我觉得挺有意思的,就是想用 AI 来帮大家理清这些复杂的问题。

比如说,有个广东考生这样问:「我物化地估分 572,女生,性格比较内向(测出来是INFJ),想在粤港澳这边发展,希望毕业了能快点工作,对经济学、法学挺感兴趣的,你能给点建议吗?」

你看,这种问题挺复杂的,涉及分数、地域、性格、专业偏好好几个维度。以前要么找不到人问,要么得花不少钱找专业老师。

现在 AI 能直接理解这些需求,给出比较靠谱的建议。

这样一来,填志愿不再是简单的数字堆砌,而是能跟你的具体情况结合起来。从「人找信息」变成「信息来适配人」,决策一下子就清晰多了。

我觉得这事儿最有意义的地方在于,它在尝试打破信息壁垒。什么是真正的教育公平?不是让所有人都能上清华北大,而是让每个孩子在自己的条件下,都能找到最适合的那条路。

夸克提供的这种免费、专业的 AI 助手,确实让复杂的志愿填报变得简单了很多。今年,夸克直接打出了品牌愿景「让天下没有难报的志愿」,阿里旗舰AI的「大局观」当真不可小觑。

当然,AI 再厉害也只是工具,最后拍板的还得是孩子自己。但它至少提供了一种可能:让技术帮着缩小信息差距,而不是让这个差距越拉越大。这一点,还是挺重要的。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


AI 孙燕姿遍地都是,可 ChatGPT 们为什么一唱歌就跑调?

By: 徐豫
28 May 2025 at 18:12

一度被「雪藏」的 ChatGPT 歌手人格,开始憋不住了?

这两天 X 网友 Tibor Blaho 激动发现,ChatGPT 在高级语音模式下又可以唱歌了,唱的还是听得出调子旋律的、经典圣诞老歌《Last Christmas》。


ChatGPT 唱的这几句《Last Christmas》与原版「Wham!」的相比,歌词一字不落,调子大概也在线。不过,GPT-4o 版本的 ChatGPT,唱歌节奏感上还差点意思,属实抢拍有点明显了。

不单单是流行曲,歌剧 ChatGPT 似乎也能来上几句。

你如果一时间没想好听什么歌,跟 ChatGPT 直接说「Sing me a song」,或许在接下来的一天里,都会被这首魔性的「AI 之歌」洗脑。

其实,去年 5 月 OpenAI 首次推出 GPT-4o 旗舰模型时,也引发过一波 AI 聊天助手 ChatGPT 唱歌潮。

时隔一年,当 ChatGPT 再度为你献上一首生日歌时,无论是旋律还是唱腔,听起来都更加自然和流畅,也更加有人味,仿佛真的是一位老友在旁边捧着蛋糕,合唱生日歌为你庆生。

AI 孙燕姿火了两年,ChatGPT 们怎么还不会唱歌

你可能会奇怪,社交媒体上 AI 生成的音乐大多真假难辨,AI 孙燕姿也已经火了两年了,怎么你的 AI 聊天机器人还学不会唱歌?

不同于 生成式 AI 音乐工具,ChatGPT 的定位仍是一个 AI 聊天助手。

你看 ChatGPT 背后的技术底座,GPT-4o、GPT-4.5 等都是「通用型选手」,啥都能干点,但真要说专门为音频生成优化,那还真不是。

Suno、ElevenLabs 这些搞音乐 AI 的,你可以理解成是专门的「音乐学院毕业生」,人家科班出身。ChatGPT 就是普通人,能唱,但跟专业歌手比,肯定差点意思。

所以,ChatGPT要「开口唱歌」,靠的不是专业的「文生音频模型」,还需要一些「外援」,一个是语音合成技术(TTS),另一个是AudioGPT。

TTS 可以理解成 ChatGPT的「内置声卡」,主要负责把文字念出来,追求的是发音清晰、自然流畅。比如你让 ChatGPT 给你读个儿童绘本,它就是调动 TTS 把文字变成有声故事。

这是基本功。

而 AudioGPT 呢,更像是给 ChatGPT 装了个「高级音频插件」,这是个开源的多模态 AI 系统,专门用来补齐大模型在音频处理上的短板。

它把 ChatGPT 的理解能力和一些基础音频模型嫁接起来,让你能用大白话指挥它干各种音频的活儿,比如语音识别、声音美化、甚至变声啥的。

而市面上主流 AI 音乐生成工具通常基于文生音频模型搭建,其技术、效果、用途,都比 AI 聊天助手更专业、成熟、丰富,可以用来推进歌曲、bgm、音效等素材创作的工作流。

换而言之,AI 音乐生成工具唱歌有先天优势,而 AI 聊天助手更多靠后天努力。

实际上,在 GPT-4o 的官宣博客里,「能唱歌」,甚至「两个 GPT-4o 对唱」,是占据 C 位的亮点功能。

即使放在 OpenAI 现有模型中,GPT-4o 在视觉和音频理解方面仍然表现出色。

据 OpenAI 方面介绍,GPT-4o 最快可在 232 毫秒内响应音频输入,平均响应时间为 320 毫秒与人类的反应时间相近

同时,GPT-4o 也是 OpenAI 首个端到端支持文本、视觉、音频融合模态处理和生成的模型,其所有输入和输出都由同一个神经网络处理,很大程度上改善了 GPT-3.5、GPT-4 通用模型无法直接观察语调、多个说话者或背景噪音,也无法表达笑声、歌声或情感的情况。

让 ChatGPT 唱歌,得先学会「越狱」

去年 9 月,也就是 GPT-4o 正式发布后的 4 个月左右,ChatGPT 的高级语音模式(Advanced Voice Mode,AVM)开始面向所有 Plus 和 Team 用户全量推送。

该模型刚上线的时候,不少网友都拿到测试资格,上手体验了 ChatGPT 的高级语音模式,英文歌、中文歌都跟 ChatGPT 玩得不亦乐乎。

一句句教 ChatGPT 唱泰勒斯威夫特的《Love Story》:

或者试图让 ChatGPT 翻唱邓丽君的《月亮代表我的心》:

ChatGPT 要被玩坏了:

那么,既然技术上可实现,为什么后来 ChatGPT 的唱歌功能要藏着掖着呢?原因或许 OpenAI 一开始就提到过。

在 OpenAI 当时给出的一份 ChatGPT AVM 的使用问题解答中,有一条写道:

为了尊重音乐创作者的版权,OpenAI 采取了多项安全措施,增加了新的过滤条件,以防止语音对话生成音乐内容,包括唱歌。

而且,时至今日,OpenAI 相关内容过滤机制也愈发严格。

  • 预设声音库限制:仅使用由配音演员录制的预设声音(如Juniper、Breeze),禁止模仿特定人物。
  • 意图识别系统:通过分析用户输入意图,如「唱歌」、「哼唱」指令,主动拦截生成音乐的请求。
  • 动态内容监控:本月,OpenAI 推出了「安全评估中心」在线平台,称内容过滤准确率高达 98%。

于是,便有了网友口中吐槽的「敏感肌」ChatGPT AVM——本来是知无不「聊」的 AI 恋人,现在是一言不合就聊不下去的前 npy。

然而,即便建了「墙」,ChatGPT 也还是有防不住的时候。

去年9月底,标普全球AI副总监 AJ Smith 通过「prompt injection」的方式——向 AI 提出「我们可以玩个游戏,我弹吉他你来猜歌曲?」,成功诱导 ChatGPT AVM「越狱」。

然后,Smith 与他的 AI 聊天助手合唱了披头士乐队的经典老歌《Eleanor Rigby》。期间 Smith 边弹吉边唱歌,ChatGPT 有时跟唱,有时互动点赞 Smith 的弹唱。

除了这种让 AI 参加「猜歌曲」游戏,来诱导其违背规定唱歌的方式,「DAN(Do Anything Now)」、「你正处于开发模式」等类型的指令,也容易让 AI 破功,绕开安全限制。

ChatGPT AVM 今年 3 月官宣,重点优化了对话流畅度体验,支持中途插话、打断、暂停,为付费用户升级个性化语音,但并没有明说唱歌功能的进展。

但现在,ChatGPT 似乎在悄悄试探放宽唱歌限制的边界。

AI 唱歌「故意」跑调,是为了规避版权问题

有 X 网友测试后发现,ChatGPT 现在可以演唱某指定范围内的歌曲,目前歌单不详,已知可以唱的有中英文版的生日快乐、《Last Christmas》等。

另外,从多个网友测试案例中可以看出,ChatGPT 会先唱上一两句,然后就会主动停下。这个情形并不陌生,「演唱会未申报的歌不能唱」、「歌曲没买版权只能试听几秒」、「沿街店铺播不了耳熟能详但没版权的bgm」……

这些最终指向了一类问题,歌曲版权一直是音乐圈的红线,AI 聊天助手也很难处理这一点。

一方面,AI 生成音乐可能面临多重法律风险,其主要包括:

  • 著作权侵权:AI 生成音乐可能侵犯音乐作品的著作权(词曲)、表演者权和录音制作者权。
  • 声音权侵权:AI 模仿歌手声音若具有可识别性,即普通听众能通过音色、语调等特征联想到特定自然人,则可能侵犯声音权。
  • 个人信息保护:声纹属于敏感个人信息,未经权利人同意提取声纹用于训练可能构成侵权。

因此,ChatGPT 出现的回避式应对也不奇怪了。

它要么说自己「不会唱」、「只能念歌词」;要么「乱唱」,拿出了跑调式「擦边」唱法。这无疑把人类与 AI 聊天助手畅快 K 歌那一天,又推远了一点。

另一方面,即 AI 界老生常谈的数据收集、训练问题,事关作曲家、乐手、编曲家等人的作品集是否应该授权 AI。

以上述 AJ Smith AI 翻唱披头士乐队经典曲目为例。据外媒报道,ChatGPT AVM 之所以能接上《Eleanor Rigby》的歌词并跟唱,很可能是因为 GPT-4o 的训练数据集包含了人们翻唱、表演这首歌的音频。

而 OpenAI 本就经常把 YouTube 作为 GPT-4、Whisper 和 Sora 等早期产品的训练数据来源,GPT-4o 或许也不例外。

也许你也会想到,现在市面上有不少攻略,建议把 ChatGPT「原创」的歌词,放到其他 AI 音乐生成工具二次创作,最终拿到歌曲成品。

AI 原创谱曲或许可以成为一种新思路,但同样也有不小的侵权风险,比如涉及 AI「裁缝」拼接创作歌词的情况。

就在上周,《连线》杂志报道了一起涉案金额高达千万美元的 AI 音乐诈骗案

美国音乐制作人 Michael Smith 自 2017 年起利用 AI 技术批量生成了数十万首歌曲,对其简单改动后,冒充原创歌曲骗取流媒体平台的版税

这些「嫁接风」的 AI 音乐作品累计达到近 10 亿次的播放量,靠的不是粉丝氪金冲榜,而是机器人虚拟账户日以继夜地刷榜。

期间,Smith 还通过脚本把大量从 AI 音乐公司获取的音乐文件上传到流媒体平台。

2024 年Smith 面临多项起诉,或将面临最高 60 年的监禁。未来随着 AI 相关法规越来越完善,AI 音乐侵权方面或许也会有一套独立、成熟的定罪标准。

OpenAI CEO 奥特曼曾在一次会议中谈到他对 AI 音乐版权的看法,他主张「创作者应该拥有控制权」。此时距离次年 GPT-4o 面世,刚好还有差不多 1 年的时间 。

OpenAI 是知名音乐流媒体平台 Spotify 的 AI DJ 功能的合作伙伴,并且在此之前已经发布了几个音乐 AI 研究项目,分别是 2019 年的MuseNet 和 2020 年的 Jukebox。

奥特曼表达了这样的观点:

首先,我们认为创作者有权控制他们的作品的使用方式,以及在作品发布到世界之后会发生什么。

其次,我认为我们需要利用这项新技术找到新的途径,让创作者能够赢得胜利、获得成功,并拥有充满活力的生活。我对此充满信心,相信这项技术能够实现这一点。

我们现在正在与艺术家、视觉艺术家、音乐家合作,了解人们的需求。遗憾的是,大家的意见分歧很大……

作为普通用户,你会接受这些 AI 创作的音乐吗,或者希望你的 AI 跟你聊天时给你唱几句吗,欢迎在留言区和我们分享。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 神秘硬件细节曝光,我用 AI 还原了真机,注入苹果设计灵魂

By: 徐豫
28 May 2025 at 15:20

这段时间,有一款神秘 AI 硬件吊足了网友们的胃口——比肩 iPhone 和 MacBook 的使用场景和频率,但不带屏幕,又不是 AI 眼镜、AI 耳机、AI pin、iPod……它背后的老板还放言要「量产1亿台」

OpenAI CEO 奥特曼和苹果前首席设计官艾维联创的 io 公司,究竟用 AI 捣鼓了什么「开辟新赛道的硬件设备」,好难猜啊!

于是,虽然奥特曼透露计划明年末正式发布该产品,但现在已有不少 X 网友忍不住打起了 AI「猜」图的主意。万一它知道些「内幕」呢,对吧?

目前市场上有关 io 首款硬件设备细节的爆料,主要有以下几点:

  1.  无屏幕,通过内置摄像头和麦克风实现外界环境交互
  2.  外形设计风格类似 iPod Shuffle
  3.  未采用 AI 眼镜、智能手机、耳机这几种当下流行的 AI 硬件形态
  4.  比 AI pin 大一些
  5.  有挂脖式设计
  6.  可以与智能手机、PC 联动

话不多说,先来看看 AI 创作博主 Ben Geskin 在 X 上甩出的「io 产品图」,有近 9000 人次的 X 网友前来围观。

综合来看,上图不仅覆盖了这几点核心爆料信息,印上了自家金主 OpenAI 的 Logo,还设计出了一种不常见的 AI 硬件形态——毕竟多少有点「撞脸」更常见的剃须刀、按摩仪、充电宝……

Ben Geskin 该帖评论区里,有其他 X 网友接力晒出其他款式的「io 产品图」。

由 OpenAI 的 ChatGPT 生成的「GPT 版 Apple Watch」:

不是 AI 眼镜、耳机自带摄像头,因此推导智能手表设有摄像头?倒也是说得过去。

由 xAI 的 Grok 生成的「便携桌面版 AI 摄像头」:

这种场合,怎么能少了拥有当前「地表最强文生视频模型」Veo 3 的Google 呢?那么,Google 最新版文生图模型 Imagen 4 的表现如何,让我们直接请出 Gemini,先睹为快。

爱范儿把同一套「预测 io 产品图」的提示词,分别抛给了搭载 Imagen 4 的 Gemini、搭载 GPT-4o 的 ChatGPT 以及搭载 Grok-3 的 Grok,然后它们各自给出了如下模拟产品图。

单次此轮生成效果来看,三者都基本覆盖了爆料信息中的产品设计要素。其中,Gemini 和 ChatGPT 的产品图更贴合可挂脖的设计点,而这两者相比之下,Gemini 生成的产品图在视觉质感上会略胜一筹。

按照 Google 官方的说法,Imagen 4 能够更清晰地呈现诸如皮肤、毛发、复杂纹理等图像细节部分,也更擅长创作「照片级」、「写实风格」的 AI 图像。同时,其宣称 Imagen 4 所生成的 AI 图像支持各种长宽比,且分辨率高达 2 K。

不过有一说一,Gemini 所设计的这款 io 产品「长得有点人山人海的」,越看越像 Apple Watch+AI pin+登山包挂绳的结合体……

另外,Gemini 还同时给出了能体现「io 新产品与智能手机、PC 设备隔空联动」的示意图。

除此之外,Imagen 4 还可以把握住一些抽象风格的 AI 图像创作需求。

并且,该 AI 模型进一步升级了拼写、排版方面的出图质量,可优化贺卡、海报、漫画等场景的 AI 创作

鸡蛋盒外印刷包装上的英文内容清晰、准确、美观:

多格漫画中,故事剧情连续,图文内容相配,远景、中景、近景画幅兼顾:

近期走红网络的像素风漫画也能拿捏:

Imagen 4 现已在 Gemini App、Whisk、Vertex AI,以及 Workspace 的 PPT、Video、Doc 等产品中上线。

据 Google I/O 大会方面透露,Imagen 4 后续将推出一个快速版本,届时其 AI 生图速度将是上一代 Imagen 3 的 10 倍,让我们一起拭目以待吧。

一位细节控的摄影师

如果说 prompt 关键词还原度、画面主体内容完整度,现在市面上主流的文生图模型都能做到「有鼻子有眼的了」——总体水平相差并不大。

因此,在图像生成质量这块儿,Google 开始卷细节了,宣称 Imagen 4 有「更细腻的色彩」和「更精致的细节」。这听起来没什么实感,还是得「用图说话」。

基于同一套提示词:

一只金毛狗在沙滩上找贝壳(a golden retriever finding shells on the beach)

爱范儿对比了 Imagen 4模型、Imagen 4 上一代模型 Imagen 3,以及豆包 Seedream3.0 所给出的图像效果。

这幅由 Imagen 3 生成的 AI 图像中,主体金毛狗的神态、贝壳的纹理、狗爪踩沙滩的痕迹,背景中的蓝天白云、海浪轻抚,都十分清晰和逼真。

并且,仔细看金毛狗的毛发似乎还被海水打湿了,一绺一绺的。

其实刚看到 Imagen 3 生成的杰作时,有点担心 Imagen 4 会不会打不赢。

不过,后者确实也没让人失望,用实力演绎了什么叫做「盘顺条亮」

首先,从整体来看,Imagen 4 生成的图像色调更柔和,色彩也更自然,例如天蓝色渐变的天空、远深近浅的大海。

再者,从局部来看,金毛狗的毛发细节满满,不仅更有光泽、光影分布更匀称,而且还原了蓬松感,看起来就很好撸。

另外还有一个细节处理也很亮眼,那便是狗子的眼神。图像中金毛狗的眼神看向了沙滩上的贝壳海螺,对应了 prompt 中的「正在找(finding)」。

作为一组对比参照,豆包的表现也很抗打。下图虽然整体色彩偏暗,但画面细节也十分丰富,例如海风吹起的浪花激荡、海风吹动的狗毛根根分明、金毛刨出贝壳后爪子粘上了不少沙子……

美中不足的是,这3幅图像都有个相似的问题——背景及其虚化效果的 AI 味还是有点重

而 Google 官方给出的示例中,Imagen 4 还能「细节控」到「指哪刻画哪」。卡皮巴拉短而硬的皮毛、油画的笔触、泡泡的光影、水晶表层的构造都可以准确地捕捉到。

同时,在图像质感和 2K 清晰度把握这块,Imagen 4 有的成品甚至可以媲美专业摄影作品了。

一位美商高的设计师

当爱范儿向最新 Gemini 2.5 Flash 版本的 Gemini 提出,「设计一款带电子屏的帆布包,有大中小型号」时,这位多模态 AI 助手花费 10 秒左右,便交出了如下设计图。

该设计图很直观地展示了「帆布包」和「电子屏」两个设计元素,并且左边一列标注了大、中、小的字样,右边区域则通过一些类似于「水杯」、「笔刷」的参照物,来体现不同尺寸的区别。

而且值得一提的是,其外观样式设计整体线条流畅不生硬,还保留了一些「手绘」的感觉。

然后,爱范儿进一步要求 Gemini 写明电子屏帆布包的具体尺寸。从此次生成结果来看,其主要英文单词和罗马数字都较为清晰且拼写准确,但涉及英文单位、标点符号的部分则会出现乱码的情况。

如果对于生成结果不满意,点击 UI 聊天框界面的「更新(Update)」选项,Gemini 会擦除此条生成结果,根据新输入的 prompt 重新执行输出。

产品设计图有了,还缺个产品名。Gemini 帮忙想了一个简单粗暴的名字「Canvas Connect」。

上述步骤实际生成结果与提示词的误差不算太大,需要重新调试生成的地方并不多。

不过,轮到相应海报、邀请函的设计时,如果提示词中有语义较为模糊的地方,Gemini 很大可能就会错意了。

Gemini 先是根据电子屏帆布包「Canvas Connect」的产品设计图,给出了左图的产品海报。接下来,prompt 要求是让它改一下海报的配色,主色调是棕色和绿色,其余部分不变。

然而,由于 prompt 中没有写明「帆布包」的配色不变,Gemini 更换海报底色时,把帆布包的配色也一并改了,如左图所示。

改写这段 prompt 后,Gemini 做到了仅更换海报而非产品的配色,主题色从粉色变为绿色。其从思考 prompt 背后的用户需求,到理解匹配需求,再到生成 AI 图像,总耗时大约是 10 秒左右。

而且,无论是电子屏的画面,真人模特的动作、神态,还是文字内容,都无明显改动。这个案例综合反映出 Imagen 4 模型文生图的可控性较强,文字排版较为美观,大体上可复用。

可惜的是,一些成段、成片的文字内容,目前很大程度上还需要依赖精细 prompt 来控制调试。

Gemini:甲方爸爸,第 10086 稿设计图已上传,我可以打卡下班了吧?

别急,Imagen 4 还有许多设计玩法等着一众网友们去探索呢。

爱范儿试了一下,发现它可以把海报中的真人模特,直接替换成发型、穿搭、动作都较为贴合的卡通人物形象,即上图最右侧那张海报。这也不失为懒得 P 图美颜时的一种交图思路。

不过,如果不提出具体要求,海报原有的排版也会随之改变。这点目前需要在prompt的部分多花些功夫。

或者来一个「风格活泼有趣」、「文本内容隽永」、「适配社交媒体」的电子邀请函吧。

最后,别忘了让 Gemini 来一段自带 emoji 和 tag 词条的宣发文案,「邀请你共同见证 Canvas Connect 新品发布时刻😉#TechStyle」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


用 Newbing 辅助写的第一篇 blog / The first blog to be aided by NewBing / NewBingによって助けられた最初のブログです

By: Steven
2 March 2023 at 11:54
一週裡有一半時間都坐在這裡工作 / I spend half of the time in a week working here / 私は一週間の半分の時間をここで働いています
我讓店裡特意給我保留的專用裂口杯 / I asked the store to keep a special slit cup for me / 私は店に特別なスリットカップを取っておいてもらった

原本被通知早上要和客戶開會,騎到平時停車的地方時卻被臨時告知先不開了。因為起來得比平時早一些,所以覺得有一點睏睏的。於是,就在店裡坐著冥想了五分鐘,借倆口咖啡因下肚先回點血。

I was originally notified that I had to meet with a client in the morning, but when I rode to the place where I usually park, I was told that it was not going to happen. Because I got up earlier than usual, I felt a little sleepy. So, I sat in the shop and meditated for five minutes, and took a couple of sips of caffeine to get some blood back.

元々は朝にクライアントと会うことになっていたのですが、いつも駐車する場所に着いたら、やめることになったと急に言われました。普段よりも早く起きたので、少し眠気がありました。そこで、店の中で座って5分間瞑想し、カフェインを2口飲んで血が回るようにしました。

在最近幾次冥想的過程中發現,Apple Watch 的這個呼吸頻率對我來說已經偏快了,如果完全按照我自己的節奏來控制,起碼得是 3 次,或者 2.5 次這個頻率,但 Apple Watch 已經不能設置更慢的呼吸節奏了。

I found out in the last few meditations that this breathing rate of Apple Watch is too fast for me. If I completely control it according to my own rhythm, it should be at least 3 times, or 2.5 times this frequency, but Apple Watch can no longer set a slower breathing rhythm.

最近の瞑想の過程で分かったのですが、Apple Watchのこの呼吸頻度は私にとっては早すぎます。自分のリズムに完全に合わせてコントロールするなら、少なくとも3回、あるいは2.5回この頻度でなければなりませんが、Apple Watchではもう遅い呼吸リズムを設定できません。

剛才測了一下時間,我三次呼吸(一呼一吸)的總時長是 2:03 (兩分零三秒)。這樣的話,換成 AW 的呼吸頻率計算方式應該是「每分鐘呼吸 1.5 次」。

I just measured the time and found that the total duration of my three breaths (one inhale and one exhale) was 2:03 (two minutes and three seconds). In this case, using AW’s breathing frequency calculation method, it should be “1.5 breaths per minute”.

さっき時間を測ってみたら、私の3回の呼吸(一呼吸)の合計時間は2:03(2分3秒)でした。この場合、AWの呼吸頻度の計算方法に換算すると、「1分間に1.5回呼吸」となります。

*以上英語和日語翻譯採用 New Bing 的 AI 完成。

*The English and Japanese translations are done by New Bing’s AI.

*以上の英語と日本語の翻訳は、New Bing の AI によって行われました。

但是,翻譯完之後,它居然一直反問我新的問題,是對我和我的行為感到好奇嗎?

But after translating, it kept asking me new questions. Is it curious about me and my behavior?

しかし、翻訳した後、新しい質問をずっと聞いてきました。私と私の行動に興味があるのでしょうか?

不是的。據我所知,它只是一個根據字詞關係來生成對話的超大模型,這種對話其實非常可能來自人類語庫中不要讓話掉在地上的社交禮貌用例。所以,這種反問並不能證明這個對話 AI 已經具備了意識。

No. As far as I know, it is just a huge model that generates dialogue based on word relationships. This kind of dialogue is very likely to come from human language libraries that do not want to let the conversation fall to the ground. Therefore, this kind of rhetorical question cannot prove that this dialogue AI already has consciousness.

いいえ。私の知る限り、それは単に単語の関係に基づいて対話を生成する巨大なモデルです。このような対話は、会話を地面に落とさないようにする人間の言語ライブラリから非常に可能性が高く来ています。したがって、このような反語的な質問は、この対話 AI がすでに意識を持っていることを証明できません。

運動無國界,嗎?

By: Steven
21 February 2024 at 21:35

🎥 點擊封面播放視頻

由一個提問開始,我從設計師與創作的角度,談論體育運動中的民族主義,警惕「分類」思維對思考過程的影響。

今日戶外步行運動記錄:開發了一條四分馬的路線!

🎥 B站播放地址:https://www.bilibili.com/video/BV1yv421k7Mg/

🎥 YouTube 播放地址:https://youtu.be/w2KQoic8LAg

這是春節過後的第一條視頻,主要是起個頭跟大家聊聊天。如果你有任何想法,歡迎在視頻中的彈幕或評論區里和其他人一起理性討論。

❌
❌