Reading view

There are new articles available, click to refresh the page.

Google vs ChatGPT 搜索体验对比实测

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

随着 的新实时搜索功能, ChatGPT 正在将自己定位为传统搜索引擎如 的竞争对手。ChatGPT 以其对话式的响应而闻名,能够提供实时的上下文信息而不带广告。

我抓住机会看看 ChatGPT Search 与 Google 长期以来的搜索专业性相比如何。我进行了几次比较,涵盖了速度、准确性、视觉效果和整体用户体验等类别。以下是它们的表现。

问题“东京的主要旅游景点有哪些?”

Google 的搜索引擎非常快速,结果在毫秒内就能交付。搜索引擎拥有多年的优化经验,并且有专门为高速索引和检索而构建的基础设施,可以立即获得来自多个来源的广泛相关结果。

ChatGPT 的搜索同样快速,并为每个地点生成了更清晰、更用户友好的图像和信息。显然,AI 通过从相关来源提取信息来生成响应,然后以对话的方式分享这些信息。结果感觉更加友好,几乎就像 AI 很高兴我去旅行一样。

使用体验ChatGPT Search
在以对话且简洁的方式提供有价值的快速响应方面领先。

问题: “解释气候变化和全球变暖之间的区别。”

Google
 的响应来自 Gemini,概述了气候变化和全球变暖,并将其包裹在一个简短的段落中。从那里,我可以向下滚动并搜索一些来自 NASA、USGS.gov 甚至 Quora 的链接。显然,算法优先考虑流行和权威的来源,但它也是以广告驱动的,这意味着顶部结果有时包括我看到的来自联合利华的赞助内容。此外,对于复杂的主题,我自己需要浏览多个链接才能拼凑出完整的答案。

ChatGPT 提供了直接的答案,从网络中提取经过的信息,然后添加了一个可点击的「来源」图标。这个功能减少了我在 Google 搜索中从多个收集信息的时间。在这个搜索和其他搜索中,ChatGPT 的总结对于一般查询甚至更详细的主题都是准确的,其设计允许更干净、更加集中的体验。(不过,请记住,广告可能会在未来出现。)

使用体验ChatGPT Search
在便捷和准确的直接答案方面赢得了这一轮。

问题: 苹果目前的股价是多少?最近有什么更新?

Google 实际上没有给我一个立即的答案。相反,我得到了一个指向 Yahoo Finance 的链接,我可以点击并希望自己找到答案。

ChatGPT
在毫秒内,答案就在我眼前。我还得到了关于苹果的新闻和更新,当然,还有来源。ChatGPT Search 真是令人耳目一新。我得到了问题的答案,而不需要四处寻找细节。通过将答案直接呈现在我面前,我节省了时间,而不需要再点击几次。显然,对于实时的股票 或天气更新,ChatGPT 提供了可比的准确性,甚至在深度上超过了 Google 庞大的视觉库。

使用体验ChatGPT Search
继续以其策划的实时直接答案给我留下深刻印象,显示出未来更新的潜力。

问题: 给我展示媒体对心理健康影响的最新研究。

Google 提供了如此多不同的答案,我甚至不知道该从哪里开始。从 Gemini 的响应到侧边栏,再到下面的链接结果,整个体验极其杂乱——这是我在使用 ChatGPT Search 时从未注意到的。此外,Google 的广告模式意味着用户数据通常被用来提供个性化广告。虽然 Google 有广泛的隐私政策和设置,但其广告驱动的方法可能导致不总是优先考虑用户隐私的定向内容。

ChatGPT 再次,ChatGPT 搜索提供了一个更清晰的界面,没有推广内容。对于这种个人化的搜索,额外的隐私关注方式让我非常感激。作为一个希望在搜索过程中不被广告定向的用户,这种方式对我来说更具吸引力——或者在之后。

使用体验ChatGPT Search
在考虑隐私和负责任的内容使用方面领先。对于敏感搜索,不被广告定向是一个巨大的优势。

问题: 什么是我客厅里最好的电视?

Google 我说的就是我说的,Google。在纠正我输入「What's」而不是「What is」后,Google 给我回应了一些链接,所有这些链接都是赞助的,我需要点击才能找到电视。在得到这个回应后,我感觉我需要再次问它以帮助缩小范围。然而,在赞助链接下,还有来自内容发布者的链接。

ChatGPT 为我缩小了范围,包含了图像,并给出了我想要的答案。AI 确实感觉像是一个朋友,提供有价值的信息。每个电视图像旁边都有一段介绍,提供关于每个电视的信息。与 Google 相比,这种设计感觉更加干净和简洁。此外,对话格式直观,我可以滚动浏览推荐,而不需要像在 Google 搜索中那样需要浏览多个链接。

使用体验ChatGPT Search
提供了一个令人耳目一新的体验,直接回答和具体示例。

问题: 谁在民调中领先?

Google 的结果包括有关选举的新闻故事。我希望通过这个问题获得关于今天总统选举民调中谁领先的直接结果。我不得不挖掘新闻故事才能找到答案。

ChatGPT 给了我我想要的结果,直接提供了事实。选举新闻无处不在,所以我不需要阅读更多的新闻故事。ChatGPT 给了我一个直接的答案。

使用体验ChatGPT Search
提供了没有繁琐的实时答案。

问题: 洋基队在世界大赛中是如何崩溃的?

Google 的第一个结果是从《纽约时报》关于该主题的故事中提取的引用。这是一个快速的响应和直接的答案。然而,它让我感觉我没有得到完整的故事。

ChatGPT 提供了更全面的回应,从更多来源提取信息,但仍然感觉干净简洁。我得到了洋基队彻底失败的完整画面。

使用体验ChatGPT Search
再次提供了我所寻找的实时答案,并增加了确认我获得所有信息的全面性。

ChatGPTGoogle 在不同领域都表现出色,但它们满足的需求略有不同。如果你在寻找全面的搜索结果,拥有大量来源和视觉效果,Google 仍然是强者。

然而,如果你的优先事项是清晰、无广告、对话式的响应以及内置的实时更新,ChatGPT 提供了一种流畅、用户友好的体验,可能很快就会成为日常查询的主流。

ChatGPT Search 提供的无杂乱答案以及支持它们的来源是全面且可靠的。我对 ChatGPT 的答案更有信心,因为它们简洁且没有广告商的支持。结果感觉就像是专为我准备的。在杂乱的网络中,ChatGPT 就像一个乐于助人的朋友,我喜欢这种感觉。

我用 ChatGPT 和 Midjourney 剪掉了蓄满四年的长发

这是我蓄满了四年的长发,原本是打算捐给金丝带的,但我决定放弃了。

一来,捐赠的人太多了,不缺我这一个,它不需要我;

二是,这个活动太热门了,报不上名,我不喜欢凑热闹;

于是,我心里很快就决定了:剪掉,并且要烫卷、染发!

在音乐教室里,筱烨、阿吉和秋秋在上课,我就在旁边用 ChatGPT 写 Prompt,写完之后就丢给 Midjourney 去生成效果图。遇到不满意的,就丢两张我以前的半长发的照片上去,再调整 Prompt 的细节,接着画。

最后,我把这张效果图发给发型师:

虽然这脸型偏硬了,不怎么像我,但这个头发感觉是我想要的。

曲线、松软、紫色挂耳

确定方案之后就直接约时间,一方面要约发型师的时间,他很好约,就在楼下,我随时过去随时可以做;但另一方面,要约收头发的师傅过来,需要由他根据长度把我的头发抽出来。这也是我第一次卖头发,挺新鲜的体验。

首先,我要跟发型师和收头发的师傅一起商量,怎么剪、剪多少、剪到哪里、用什么方法剪。我原本以为就是咔嚓一刀剪了,但其实不是。整个过程里,这位师傅需要非常仔细地把我头发中最长的部份找出来,每次只挑选一小撮,然后用剃刀在距离头皮大约 8-10cm 的位置一点点把头发切断。这样做的目的是,即确保剪下来的头发是满足他收头发的需求,也能确保给发型师留有后续足够的操作空间,还得让头发之间的层次能自然地衔接上。

每次剪下一小撮头发后,他都会仔仔细细地把头发梳几遍,确保没有任何打结,然后放在准备好的毛巾上,平放着。剪之前还特意要把周围的风扇都关掉,万一吹乱了,这些头发都全都没用了。他就这么一遍一遍地重复捏一小撮、切下来、梳顺、平放,如此反复了半个多小时,才终于从我头上抽出来两把共 59g 的长发。

然后就是烫卷和染发。

之所以想这样折腾一下,多少有一点破罐子破摔的心态在,觉得既然这头长发不被需要了,那也就放过自己,不要再被「这件事」困住了,索性趁着这个机会来尝试一下之前没折腾过的事情!

其实我 17 年前也染过一次发,但那时候是因为演《暗恋桃花源》的老导演,为了贴近角色的年龄感,我就去染了一头白发。只不过那个白发染得不成功,黄黄的,加上那会儿我比较消瘦,自己觉得不好看,所以演出结束的第二天我就去剃光头了。所以那次严格来说我不觉得是一次正经的染发体验,毕竟没有顶着这头黄毛生活,勉强能算一次临时的体验。

我当然知道它会掉色,会变成黄毛,会干、会毛躁。

但这不重要,因为我就想试一试。

我紧绷了三十多年,现在崩断了,还不能讨好一下自己,玩一玩吗?玩!

不仅要玩,还要玩得不一样,用 AI 一起玩!

为什么是紫色?因为我喜欢!

虽然我也喜欢绿色,但我也不想染成绿色 😂

朋友说像杨千嬅,像极速拍档的小乔,那也挺好。

最近两周我忽然意识到,我是会因为自己感觉到快乐而感到羞耻的。这是从小根深蒂固的想法。过去我知道,如果我遇到一件好事,一件开心的事,就会有一个声音在警告自己不要乐,不要得意,不要喜形于色,要收起来,不然马上就会招来不幸和倒霉。但我一直认为这是克制和谨慎,是对于能量守恒定律的迷信式的执念,觉得这会儿开心了以后就没有了。

可是,为什么要把开心攒到以后呢?有没有以后都不知道。

筱烨说我的动力来自恐惧,确实,我总有各种恐惧在周围,挥之不去。

但现在我看见它了!我要让我的快乐活过来!我不要快乐羞耻!

尽管我现在还没有什么活力,但起码这个紫色能令我舒服好一阵子!

最后再看一眼,这头蓄了四年的长发和发髻。

我很喜欢这根石纹簪,但我感觉我应该不会再束成这个样子了。

这天色真好。

Last Week on My Mac: Writing Tools

Early this coming week those fortunate enough to have an Apple silicon Mac will be able to update Sequoia to version 15.1 and try out Writing Tools at last. I’ve been testing and using them since the first beta of 15.1 back when the daylight lasted well into the night. I’ve been surprised at how lukewarm some have been at their arrival, particularly as most of those comments have come from those who make a living from their writing.

Perhaps the best way to show what Writing Tools can do is with an example, using the text from yesterday’s article A brief history of Mac firmware, a little over a thousand fairly technical words. I concentrate here on Writing Tools’ summary modes rather than its rewriting features, although they’re also thoroughly sound and useful in the right context.

Summary

Producing a succinct single paragraph summary is a challenge for even the most literate of humans. I’m impressed with Writing Tools’ 62 word offering of:
Mac firmware has undergone significant changes, from the Macintosh ROM in Classic Macs to Open Firmware in PowerPC models and EFI in Intel Macs. EFI, later evolving to UEFI, provides hardware access and boot services, while Apple silicon Macs employ a verified chain of trust for enhanced security. Firmware updates are now integrated into macOS installers and updaters, ensuring security and accessibility.

Key points

With so much information in the original, a key point summary should provide a better reflection of my original thousand words. Rather than reproducing the full 250 words generated by Writing Tools, here’s an excerpt covering one of the more challenging sections:

  • Firmware Security Issue: Researchers demonstrated proof-of-concept attacks on Mac firmware, highlighting potential vulnerabilities.
  • Firmware Update Policy Change: Apple transitioned from separate firmware updates to delivering them through system upgrades and updates.
  • Firmware Security Concern: In 2017, Duo Labs researchers discovered many Macs running outdated firmware, raising security concerns.
  • Apple’s Response: Apple hired security researchers and developed eficheck, a tool to check and report firmware versions to Apple.

I don’t think I could better that.

List

The third type of summary suitable for that article is a detailed list. This strips everything else out to leave terse factual sentences. For the whole text, it reduces to 833 words, a reflection on its already dense information. You’re unlikely to want to use this with longer passages, but here’s the same section given as key points above:

  • In March 2015, two security researchers from LegbaCore demonstrated proof-of-concept attacks on the BIOS of several computers.
  • The attacks could have been used to implant malicious code.
  • Later that year, Kovah and Trammell Hudson turned their attention to Macs.
  • They demonstrated a firmware worm named Thunderstrike 2.
  • For the first nine years of Intel Macs, Apple had provided EFI firmware updates separately from updates to OS X.
  • In 2015, Apple changed the way that it supplied firmware, delivering it only as part of system upgrades and updates.
  • Although older separate firmware updates are still available, those were the last.
  • In 2017, Rich Smith and Pepijn Bruienne of Duo Labs discovered that many Macs were running outdated firmware.
  • Their concern was about the security risk posed by outdated firmware.
  • Apple had already been busy hiring Xeno Kovah and Corey Kallenberg who started work there in November 2015, and Nikolaj Schlej, another firmware security researcher, who joined them the following August.
  • They developed a new tool eficheck, released in High Sierra on 25 September 2017.
  • eficheck checked current firmware against a local database of versions known to be ‘good’, and with the user’s permission sent a report to Apple in the event that it found discrepancies.

Table

The fourth summary option is to generate a table. Unfortunately, my example wouldn’t produce a useful table without substantial additional knowledge. However, I’ve found this useful on long passages from fiction, where it can summarise relationships between different characters, and similar tasks.

On device and on target

Once Sequoia 15.1 has been released and I’ve had a chance to explore the internals of Writing Tools further, I’ll look at its processing and energy costs. Two important features distinguish it from other contemporary AI tools: all data remains on-device throughout, and it’s primarily using your text rather than a large language model built from vast quantities of text garnered from around the internet.

Privacy doesn’t generally worry me particularly, as much of what I write on Macs is destined in some way or another to be published, whether it’s in an article here, one in the magazines that I write for, or source code that will be built into apps. However, I do take exception to others making money out of my labours without my express consent, so I’ll generally be only too happy to keep my AI on-device.

I also think it’s important to draw a clear distinction between what Writing Tools offers, and the likes of ChatGPT. Now that I’m testing Sequoia 15.2 beta, I have been looking at that contrast. While you can’t ask Writing Tools questions (why would you want to when you have the whole text and its summaries?), I thought I’d see how ChatGPT answered one of my stock test questions for AI: what is the SSV?

At my first asking, ChatGPT didn’t have sufficient context, and told me that it’s a side-by-side vehicle, so I refined my question to what is the SSV in macOS?

Although much of its answer was correct and informative, the second sentence stated with complete confidence that the SSV was introduced in macOS Catalina, which is of course completely incorrect, as Catalina has a read-only System volume but not a Signed System Volume as was introduced in Big Sur. But you’d only spot that serious factual error if you already knew the answer.

Give me Writing Tools and my own fact-checking, thank you.

macOS Sequoia 15.1 next week

Apple provided developers with two Release Candidates of macOS Sequoia 15.1 this week. Provided there are no serious problems that come to light in the second of those, it’s likely that 15.1 will be released early next week, probably on Monday 28th. This article looks at what that brings, whether it’s safe to upgrade to Sequoia yet, and what comes next.

All supported Macs

Traditionally, the x.1 update is scheduled to be released about a month after the initial upgrade to a new major version of macOS, and brings with it the first wave of bug fixes, and a few features that weren’t quite ready in time.

Although there are reports of some other bugs in Sequoia, by far the most disruptive have been those affecting networking. Apple fixed the most serious of those in 15.0.1, released on 4 October, but some have continued to experience problems. Opinion from those testing betas of 15.1 are that it does resolve all those, and for the great majority should be ready for general use, provided that third-party apps are compatible. So if you normally wait for the x.1 version to be released before considering upgrading, this should fit the bill.

Apple does provide a list of fixes for developers, although as there’s no mention of any networking problems there, I suspect this isn’t of much help to users.

Apple silicon Macs

For those whose Macs run an M-series chip, the main interest in 15.1 is the first batch of Apple Intelligence features. Over the coming months, these should include:

  • Writing Tools, a suite of mainly on-device features for summarising and rewriting text.
  • Image Playground, producing synthetic images such as Genmoji, again using on-device methods.
  • Siri and related enhancements for user assistance, using on-device methods.
  • ChatGPT access, for more general AI features using text.
  • App-specific enhancement to Photos, including Clean Up, and others.

Of those, 15.1 brings Writing Tools and some other enhancements, but doesn’t bring Image Playground or ChatGPT. Although some have claimed that makes 15.1 little better, that understates the value and quality of Writing Tools for many.

Writing Tools should be accessible to pretty well any recent app that displays significant amounts of text. Although I haven’t intended the lower text view in SilentKnight to support them, Writing Tools are available there from the contextual menu (Control-click). They work great with all the text editors I have tested, including TextEdit, BBEdit, CotEditor, Pages, my Rich Text editor DelightEd, and even in my PDF viewer Podofyllin.

The initial release of Writing Tools in 15.1 does have language and regional limitations. It requires that your Mac’s primary language, as set in Language & Region settings, is set to English (US), although you can still switch to a secondary language such as English (UK) if you prefer. The other key control is in the new Apple Intelligence & Siri settings, where Siri’s language needs to be English (United States). As I don’t like Siri’s spoken interface, I have disabled that by setting the Listen for control to Off, and instead enabled a Keyboard shortcut to open Siri’s interactive window.

Apple has announced future support for non-US variants of English, and next year for other primary languages. However, Writing Tools still work excellently on British English, even that of Charles Dickens, with the settings described above.

When you have updated or upgraded to Sequoia 15.1, I suggest you download text versions of books by your favourite author(s) from Project Gutenberg and explore features in Writing Tools using those as prose sources.

Future Sequoia updates

Apple has this week released the first beta-test of Sequoia 15.2, with most if not all of the other Apple Intelligence features, including Image Playground and ChatGPT. Assuming testing proceeds well and there are no serious problems, this is likely to be released in the first couple of weeks in December. Although not confirmed yet, this should open supported languages to include most major regional variants of English.

Slated for next year is the extension of Apple Intelligence to cover French, German, Italian, Japanese, Korean, Portuguese, Spanish, Vietnamese, and others. However, these features aren’t likely to appear in the countries of the EU this year, and Apple hasn’t yet indicated when that’s expected.

For those concerned about on- and off-device AI and privacy, all the standard features of Writing Tools and Image Playground involve on-device processing, and don’t send your data to remote servers. If you choose to enable ChatGPT access, then that is handled off-device, but is opt-in, and requires a separate sign-in process to access either an anonymised free account or an existing ChatGPT account. You can also require confirmation of any Siri requests handled with ChatGPT before sending any information off-device.

Apple has already published a list of fixes in the first beta of 15.2, although it remains to be seen what it does for users.

M4 Macs

Apple has also signalled that it will be releasing new Macs next week, widely rumoured to be the first to use the M4 chip.

Summary

  • Sequoia 15.1 early next week, probably on 28 October, with Writing Tools in US English, and remaining networking bug fixes.
  • Sequoia 15.2 already in beta, probably for release in early December, with Image Playground, ChatGPT, and the remainder of this first wave of AI tools, including most other English variants.
  • Try Writing Tools out: I think they’re wonderful.

突发 | 曝 OpenAI 下一代模型 12 月前推出,性能提升百倍

OpenAI 下一代新模型还要多久才能到来?最新的答案是 12 月份之前。

据外媒 The Verge 报道,OpenAI 计划在 12 月之前推出其下一个前沿模型 Orion(猎户座)。

报道称,与 OpenAI 最近发布的 GPT-4o 和 o1 有所不同,Orion 不会立即部署到 ChatGPT。相反,OpenAI 计划首先向与其密切合作的公司提供访问权限,以便这些公司能够基于 Orion 构建自己的产品和服务。

此外,The Verge 的消息来源透露,微软内部的工程师已经准备好最早在 11 月份将 Orion 托管在 Azure。

在八月份的时候,外媒 The Information 曾经分享过关于 Orion 模型的不少信息。

当时的报道指出,OpenAI 正利用「Strawberry」(即现在的 OpenAI o1)模型的合成数据来训练 Orion。

在 OpenAI 内部,Orion 也被视为 GPT-4 的继任,但目前尚不清楚该公司是否会在外部将其称为 GPT-5。OpenAI CEO Sam Altman 曾不止一次在公开场合暗示:下一代模型性能碾压现有模型,但真不一定叫「GPT-5」。

在前不久的 KDDI 峰会上,OpenAI 日本公司 CEO Tadao Nagasaki 也透露新一代模型性能预计将比现有的 GPT-4 模型强大 100 倍,并计划在今年晚些时候发布。

The Verge 报道还指出,OpenAI 的研究人员在 9 月举办了一场庆祝活动,庆祝新模型的训练完成。巧合的是,Altman 九月份也在 X 平台发布了一条耐人寻味的推文:

「我喜欢回到中西部的家。
夜空真是太美了。
我期待冬季星座快点升起;它们实在是太棒了。」

插个热知识,Meta 打磨十年的首款 AR 眼镜也叫 Orion,属实是有些「巧合」。

Orion(猎户座)是天空中最明亮、最容易辨认的星座之一。

11 月份,猎户座会在日落后不久出现在东方地平线附近,随着夜晚的推移,它会逐渐升高,直到黎明前在西方落下。因此,11 月份是观察 Orion(猎户座)的好时机,尤其是在晚上到深夜时分。

此外,Altman 本周也在 X 平台连发多条推文,疑似打起了哑谜:

「第一条推文:不是未来进展得这么快,而是过去进展得这么慢。

第二条推文:哇,ChatGPT 下个月就两岁了!

第三条推文:我们应该送它什么礼物呢……」

值得注意的是,ChatGPT 的发布日期是当地时间 2022 年 11 月 30 日,所以综合以上线索,网传大概率会在这个时间点附近发布新模型。

The Verge 指出,下一代模型的发布对 OpenAI 来说正值关键时刻,因为该公司刚刚完成了一轮创纪录的 66 亿美元融资。

这是硅谷史上最大的一次融资,超过了今年马斯克 xAI 的 60 亿美元融资规模,也让 OpenAI 继续成为 AI 独角兽中的领头羊。

但这轮融资也有不少变数,OpenAI 需要在两年内完成从非营利组织转型到营利性公司的转变。

如果失败,本轮投资者将有权要求退回他们的「真金白银」。

另外,高管离职潮以及管理丑闻等一连串风波也给 OpenAI 的前途蒙上了阴影。

今年以来,前首席科学家 Ilya Sutskever、超级对齐团队负责人 Jan Leike、前 OpenAI CTO Mira Murati、首席研究官 Bob McGrew 和后训练副总裁 Barret Zoph 也都相继官宣离职。

甚至不少离职创业的 OpenAI 前高管,也都纷纷在线挖起了老东家的「墙角」。

并且,最近 OpenAI 前 AI 研究员 Suchir Balaji 爆料称,在职四年间,他帮助收集和组织了大量用于构建 ChatGPT 的互联网数据。

他认为 OpenAI 使用受版权保护的数据违反了法律,并且 ChatGPT 等技术正在损害互联网。

OpenAI 与最大金主「微软」的关系破裂,也是一层重要的隐患。

据华盛顿邮报报道,去年秋天,Altman 询问微软 CEO Satya Nadella ,这家科技巨头是否愿意向这家初创公司投资数十亿美元,而在此之前,微软已经向 OpenAI 投入了 130 亿美元。

纳德拉最初愿意继续提供资金。但在去年 11 月 OpenAI 董事会短暂罢免奥特曼后,纳德拉和微软改变了主意。

在随后的几个月里,微软毫不让步,因为预计 OpenAI 今年将亏损 50 亿美元,同时也会要求更多的资金和算力来构建与运行其 AI 系统。

拿到「反派」剧本的 Altman 最近也遭遇人设大翻车。不少网友表示,AGI 依然未来可期,但完成这项使命的主角却未必非 OpenAI 不可。

截至发稿前,OpenAI 尚未就此事作出回应。

你期待 Orion 的到来吗?

期待,希望能够快一点到来
无感,日常体验已经很满意了
更多想法,评论区见

附上报道原文:
https://www.theverge.com/2024/10/24/24278999/openai-plans-orion-ai-model-release-december

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


iOS 18.2 上线苹果 AI 更多新功能上线!首批实测来了,iPhone 更好用了吗

iOS 18.2 的首个开发者测试版来了,这也是最接近下周正式推送的版本。

这一 beta 版本继续履行了 WWDC 2024 所推出的 Apple Intelligence「分阶段升级」的承诺,为开发者用户带来了属于苹果 AI 的四大新功能,其中就包括接入了 ChatGPT 的「更智能」的全新 Siri。

▲随 iOS 18.2 beta 版一同推出的 Apple Intelligence 新功能(图源:Perplexity)

此外,新版的 Apple Intelligence 将支持更多的地区和语言,但目前仍不支持国区。对此,苹果公司 CEO 蒂姆·库克表示「背后有非常具体的监管流程,我们正在努力推进」。

既然暂时无法上手体验,我们可以跟随 Youtube 视频网站上的数码博主 Brandon Butch 的视角,看看海外网友对于最新 Apple Intelligence 的体验和评价如何。首先来盘点一下本次苹果 AI 引人注目的四大新功能

  • Image Creation:包括 Image Playground 图像游乐场、Genmoji 生成式 AI 表情符号和 Image Wand 图像棒;
  • Visual Intelligence 视觉智能(仅 iPhone 16 系列支持);
  • 集成了 ChatGPT 的最新人工智能语音助手 Siri;
  • Apple Intelligence 加持下的 Writing Tools 写作工具更新。

除上述新功能以外,最令人的惊喜的是 ChatGPT 的深度内置。不仅 Siri,还有很多其他功能也集成了 ChatGPT。并且值得一提的是,用户无需登录 ChatGPT 的账户就可以在支持其内置的功能中使用这个插件,诚意满满。

文生图、图生图,还能草图变大作

Image Creation 是本次 Apple Intelligence 的一个重大更新。相比于 Siri 的实用属性,这个功能则更加偏向娱乐。

其中,在 Image Playground 图像游乐场中,用户可以自由选择所给元素并融合生成几幅图像:

▲ 博主使用 Image Playground 功能生成图像

用该功能生成的图像可以切换「动漫」和「插画」两个风格,都很讨喜:

▲ 博主将生成的图像从「动漫」切换为「插画」

此外,用户还可以添加提示文本,同所选元素一起生成想要的画面,自然也可以通过文本直接生成:

▲ 博主添加了提示文本,并重新生成了一幅图像

这是以歌手 Taylor Swift 和篮球运动员 Shaquille O’Neal 为原型,使用 Image Playground 生成的 Q 版头像,可爱又有辨识度。

同属于 Image Creation 的 Genmoji 生成式 AI 表情符号则更强调社交属性。它可以通过文本描述和用户的个人形象生成专属自己的 emoji,还可以用于后续的短信聊天当中:

▲ 博主使用 Genmoji 功能创建了一个属于自己的表情

Image Wand 图像棒功能则允许用户在笔记中绘制草图,并将其加以润色和细节补充,使其变成一幅完整的,色彩结构丰富的图像。同样,用户也可以通过提示文本对生成的结果加以约束:

▲博主使用 Image Wand 功能润色了一幅草图

有意思的是,如果草图或者提示文本中出现了「人」,那么 Image Wand 将会自动忽略,只生成除「人」以外的其他部分。其中原因,也许是出于隐私保护或者伦理的考虑,也许是这个功能还不健全,我们不得而知。

可以注意到,本次更新中 Image Creation 所创造出来的图像,相比于 Apple Intelligence 刚刚发布时所使用的令无数人诟病的示例图片,在质量和观感方面都有不少提升。我们期待着它在正式发布时会变得更好。

你的智能「机械眼」

苹果公司给搭载了「相机控制」按钮的 iPhone 16 系列机型开发了全新的 Visual Intelligence 视觉智能功能。这一功能可以帮助用户进行识物,获取关于物品的更多信息,还可以提供相应的购买渠道:

▲博主使用 Visual Intelligence 识物

用户也可以直接调用 ChatGPT 对取景框中的物品进行描述:

▲博主用 ChatGPT 直接描述索尼储存卡

此外,对于建筑物一类的对象,Visual Intelligence 可以告诉你它的地理位置;对于餐厅等地点,它甚至可以为用户提供营业时间和菜单等相关信息:

▲博主使用 Visual Intelligence 识别图片中的地点

在我们日常出行和生活越来越便利的今天,Visual Intelligence 智能视觉的终极目标,就是要成为用户的智能「机械眼」,让用户通过苹果 AI 观察世界,进一步降低获取相关信息的成本,提高便利性和效率。

更聪明的 Siri 来了

回顾此前 Brandon Butch 对于支持 Apple Intelligence 的初代 Siri 的体验,我们可以得到的结论是其「智商有待提高」。

相比于 Image Playground 的娱乐属性,Siri 的升级更加实用而且「迫切」。

接入了 ChatGPT 的 2.0 版本 Siri 则可以直接基于 ChatGPT 提供的资料,对于用户的提问给出回答:

▲博主在询问 Siri,Siri 根据 ChatGPT 回答

这相当于给 Siri 接入了一个更为智能的「第二大脑」,实实在在地提高了 Siri 的「智商」。

当然,用户也可以在询问时选择是否调用 ChatGPT,甚至可以在提问中直接要求 Siri「询问 ChatGPT 并给出回答」:

▲博主要求 Siri 直接用 ChatGPT 查询当前时间

现在,即使用户的提问不够流畅,说话磕磕巴巴,Siri 也依然能够听懂并作出回应。

在众人期待许久之后,ChatGPT 与 Siri 终于「握手」。业内两大智能体的「合体」未来还会给用户带来哪些惊喜,拭目以待。

文字和画面,就在一圈之间

内置 ChatGPT 的全新写作工具 Writing Tools 或许可以一定程度上解决内容创作者的「灵感焦虑」。

除了可以使用「Compose」一键生成所需文案,还能用更加灵活自由的方式对 AI 生成的文本进行修改和调整以外,这款写作工具最令眼前一亮的功能是支持将用户的笔记内容归纳成几个小标签,然后转化为一幅图像。

实现方法也相当简单和优雅,在需要的文本下方轻轻画一个圆圈即可:

▲轻轻一圈,文字变成图像

如此充满想象力的交互手势,无形中也成为了提供给创意工作者用户的「灵感」之一。

好玩,但也实用

相比于许多其他 AI 行业独角兽「爆炸式」的创新速度和产出量,苹果在 AI 领域似乎总是显得有些「挤牙膏」。

苹果软件工程高级副总裁克雷格·费德里吉在近期的访谈表示,公司的态度更像是「试着把每一部分都做好,等准备好了再发布」。显然,这与苹果公司 CEO 蒂姆·库克「不求第一,但求最好」的理念不谋而合。

▲克雷格·费德里吉(图源:9TO5Mac)

诚然,作为地球上最有影响力的科技企业之一,苹果能够放下「首发」的包袱,依然选择「低门槛」的亲民路线,以用户喜闻乐见的形式,把 AI 功能打磨得好玩又实用,其实已经相当难得。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


别人刚上「端到端」,理想智驾却又迭代了

自动驾驶技术发展了这么多年,最大的变化是什么?

在写下这篇文章的前一天,两位汽车行业朋友来到爱范儿,和我们坐下聊了聊。聊到的内容有很多,从产品推广到行业趣闻,而自动驾驶作为行业热议的一个分支,自然也成为了我们讨论的焦点之一。

回顾自动驾驶这些年来的发展,变化其实有不少,包括传感器的迭代、车端算力的提升、从高精地图过渡到占用网络等。但在这些变化中,最引人注目的突破当属大模型的加入。

大模型,让自动驾驶技术的应用,变得触手可及。

10 月 23 日,理想汽车全新一代双系统智能驾驶解决方案「端到端+VLM」正式开始全量推送,理想汽车的智能驾驶,从此步入了 AI 大模型的时代。

像人一样思考,像人一样驾驶,如今的理想汽车,正在实现这一愿景。

好不容易搞懂了端到端,VLM 又是什么?

关于端到端到底是什么?是从哪个「端」到哪个「端」?别说普通消费者了,就连不少媒体从业者都没有搞清楚。

不少厂商都曾对此做出过解释,其中解释得最通俗易懂的,还是理想汽车:

一端,是传感器:摄像头、激光雷达等传感器,它们就像是人的眼睛,负责输入环境信息。此外还有特别设计的输入信息,如车辆的位置、位姿和导航等信息。

另一端,是行驶轨迹:接收了来自传感器的信息后,系统会输出「动态障碍物」、「道路结构」、「占用网络 Occ」和「规划轨迹」。前三个感知任务主要通过屏幕呈现给用户,第四个「行驶轨迹」,就是我们最终需要从传感器映射出来的东西。

▲理想智驾端到端架构图

不难发现,从传感器接收信息,到系统输出行驶轨迹这个过程,和我们自己开车非常类似——我们的眼睛负责接收信息,双手会自然而然地带动方向盘,把车辆带到正确的轨迹上。

是的,依靠端到端模型,理想新一代智驾系统做到了像人一样驾驶。

一直以来,无论是主机厂还是自动驾驶企业,都在不断宣传自家的智驾系统有多么类人,多么像「老司机」。然而,一些「老司机」们习以为常的场景,在很长一段时间里,都是难以解决的行业难题。

最典型的就是环岛这一场景,因为场景复杂、感知受限,因此在今年 7 月之前,还没有几家车企能够实现「老司机」般的进出环岛。

理想智驾技术研发负责人贾鹏曾对爱范儿和董车会表示,对于感知和规控分离的分段式智驾方案来说,在环岛场景里,感知模型需要为规控模型做「各种各样的假设。」

做个掉头,还得把掉头线拟合出来,不同的路口的掉头还不太一样,曲率都不太一样,所以你很难做到一套代码就可以把所有环岛掉头搞定,种类太多了。

一体式的端到端方案则不同,其具备更强的复杂道路结构的理解能力,可以运用人类驾驶员数据训练出不同的环岛类型、不同出入口的进出轨迹,自主选择合适的行进路线。

如此一来,原有的道路拓扑和人工定义的规则,就再是必须的了。

关于环岛这件事,贾鹏还分享过一个「好玩的故事」。

在我们(的模型数据包含)大概 80 万 clips(视频片段)的时候,还过不了环岛,后来突然有一天发现我们(喂了)100 万 Clips(之后)它自己能过环岛,我觉得是 100 万(视频片段)里头刚好有一些环岛数据放在里面了。

「模型确实很厉害,」贾鹏补充道,「你喂了什么数据他就能学会,这是模型的魅力所在。」

理想如今推出的全量版本基于 V4.8.6 模型,后者是在 400 万 clips 的基础上迭代的第 16 个版本。和以往相比,新模型对于超车场景和导航信息的理解能力得到提升,同时,障碍物的检测更加精准,绕行的幅度也更为合理。

因此不仅是环岛,像 U 型掉头、拥堵时的蠕行和博弈、十字路口等传统复杂场景,如今的「端到端+VLM」智驾系统,都能够很好地自主处理,甚至还支持 P 档激活——

在路边停车时,用户原地双击拨杆来激活智驾系统,不必再像以前一样,必须在车道内才能激活。

介绍完端到端模型的能力,接下来就是 VLM 模型。

VLM 模型是一种视觉语言模型,理想是第一个将视觉语言模型成功部署在车端芯片的厂商,使自动驾驶具备了未知场景的逻辑思考能力。

也就是说,它能够像人一样思考。

举个例子,能够生成行驶轨迹的端到端模型,完全具备通过收费站的能力,但它在面对收费站时,并不是很清楚自己应该走哪条道,最后只能随便挑一条来走。

而 VLM 模型,则能够像人类一样理解物理世界的复杂交通环境和中文语义,可以清楚地分辨 ETC 车道和人工车道,并辅助端到端模型做出正确的决策。

类似的场景其实还有很多,如公交车道和潮汐车道的识别、学校路段等路牌的识别、主辅路的进出等。不仅如此,在遇到施工场景、坑洼路面甚至是减速带时,VLM 模型也能很好地理解,进行提醒和降速。

截至目前,理想汽车的 VLM 视觉语言模型已经拥有了 22 亿的参数量,对物理世界的复杂交通环境具有更拟人的理解能力。

此外,在 OTA 6.4 版本中,高速 NOA 功能也得到了优化,在高速 &城市快速路场景中,系统可以更早地识别前方慢车,超车动作更加高效安全。

总而言之,在端到端+VLM 双系统的帮助下,如今面向用户的 OTA 6.4,其拟人化程度上到了一个新的台阶。

理想的「快」与「慢」

从技术架构来看,理想汽车这两年经历了三次比较大的调整。

从需要先验信息的 NPN 网络,再到基于 BEV 和占用网络的无图 NOA,再到如今的一体化端到端技术路线。

第一代 NPN 架构比较复杂,包含了感知、定位、规划、导航、NPN 等模块,它们共同支撑起了理想汽车当时 100 城的城市 NOA 推送。

第二代无图 NOA,理想汽车引入了端到端大模型,模块数量大幅缩减,只剩下了感知和规划,不再需要等待先验信息的更新。

理想的这一步,让车企的「卷」,不再局限于无聊的开城数量,真正实现了有导航就能开。

今年 5 月,理想汽车招募了 1000 位用户,正式开启了无图 NOA,也就是 AD Max 3.0 的公测。当时的用户反馈,远远超出了理想汽车的预期,短短两个月后,理想汽车就为 24 万多位理想 AD Max 用户推送了这次升级。

只不过,这个时候的端到端,还是一个分段式的端到端,第三代智驾方案,才是真正意义上的一体式端到端——从输入到输出,全部由一个模型实现,中间没有任何规则的参与。

在以往,无论是有图方案还是无图方案,都依赖工程师根据各种各样的道路场景去编写规则,力图穷举所有道路状况和与之对应的方案,让智驾的范围尽可能地广。

通常来说,厂商会把场景大致分为三种:高速场景、城区场景和泊车场景。这几大场景又可以继续细分,规控工程师们则需要针对这些场景来编写代码。

但面对错综复杂的现实世界,这样的做法显然不够现实。而一体式端到端,则可以学习人类开车的过程,接收传感器信息后,直接输出行驶轨迹。

有没有发现,这个时候,提升智驾能力最重要的因素,从工程师变成了数据。而理想,最不缺的就是数据。

10 月 14 日,理想汽车迎来了第 100 万辆整车在江苏省常州基地下线,中国首个百万辆新势力车企就此诞生。根据理想汽车公布的数据,在 30 万元以上的理想车型中,AD Max 用户的比例,高达 70%——

每过一个月,这些车都能给理想提供十几亿公里的训练数据。

另外,理想很早就意识到数据的重要意义,打造了关于数据的工具链等基础能力,比如理想的后台数据库实现了一段话查找当时,写一句「雨天红灯停止线附近打伞路过的行人」,就能找到相应的数据。

正是凭借庞大的训练数据和完善的控制链,理想智驾实现了在行业中的「后来居上」,用端到端和 VLM 组成了自己的「快」与「慢」。

在理想看来,这套双系统智驾方案,类似于诺贝尔奖获得者丹尼尔·卡尼曼在《思考,快与慢》中的快慢系统理论:

人的快系统依靠直觉和本能,在 95% 的场景下保持高效率;人的慢系统依靠有意识的分析和思考,介绍 5% 场景的高上限。

其中,端到端是那个「快系统」,而 VLM 自然就是「慢系统」了。

郎咸朋认为,一个自动驾驶系统到底是 L3 级别还是 L4 级别,并不取决于端到端,VLM 模型才是真正能去应对未知场景,拔高能力上限的关键所在。

「理想同学,我要去这里」

除了智能驾驶方面的升级,OTA 6.4 在用户交互方面也引来了革新。

这里同样分为「快」和「慢」两个部分。

作为「快系统」的端到端模型所对应的通常为文字弹窗,为驾驶员实时提供导航、交规、效率、博弈等执行逻辑和动作。

对于「慢系统」VLM 视觉语言模型,理想则为它准备了全新的图文视窗。在特殊场景下,将前方感知到的画面投射到页面内,配合文案讲解模型的思考过程和结果。

在文字弹窗和图文视窗的配合下,无论系统执行何种车控动作,驾驶员都能提前知悉。对于那些初次体验智驾的消费者来说,这种直观的信息展示也有助于迅速建立他们对智能驾驶系统的信任感。

不得不承认,理想汽车对用户需求的理解确实非常精准。

在我们对于未来的畅想中,智驾和智舱总是绑定在一起的,在 OTA 6.4 版本中,理想也为它的智能空间带来了不少升级。

首先是新增的任务大师 2.0 全面接入了理想同学和 Mind GPT 的能力,在大模型的加持下,任务大师的表现更为智能。

Mind GPT 加持下的理想同学,不仅能够在周末家庭短途旅行和解答日常小疑问这两个场景里发挥作用,结合新升级的高德 AutoSDK 750 版本导航地图,理想同学可以通过「触控+语音」的方式,让驾驶员迅速进行目的地搜索。

比如说,指着地图上的某个位置,让它帮你搜索充电站任一品牌的充电桩,甚至还可以指定功率。

总之,全新的理想同学完全可以让你不必拿起手机,你可以用最自然直观的方式,轻松设置导航路径。

端到端负责驾驶,VLM 替你思考,而你只需简单地指引方向。

带轮子的都关注,欢迎交流。 邮箱:tanjiewen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,Windows 版 ChatGPT 正式发布!还有一个实用的新功能| 附下载链接

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

就在刚刚, 宣布推出 桌面,向 Plus、Enterprise、Team 和 Edu 用户开放 。

不过,官方表示,目前开放的只是早期版本,将在今年晚些时候向所有 ChatGPT 用户推出「完整的体验」。

刚刚,Windows 版 ChatGPT 正式发布!还有一个实用的新功能| 附下载链接

例如,它还不支持高级语音模式,并且 GPT Store 的部分集成功能暂时也无法使用。

用户可以在微软应用商店 ChatGPT,接着安装即可,安装包大约 110MB,附上下载地址:

The Windows is currently only available to ChatGPT Plus, Team, Enterprise, and Edu users. This is an early version, and we plan to bring the full experience to all users later this year. With the official ChatGPT desktop app, you can chat about files and photos.

系统要求:Windows 10(x64 和 arm64)版本 17763.0 或更高版本。

在具体的使用过程中,OpenAI 提出了一个名为「Companion Chat」的辅助聊天功能,它允许你在不离开当前应用程序的情况下,快速访问和使用 ChatGPT

这个功能类似于一个快捷方式或者浮动窗口,你可以通过特定的快捷键(Alt + Space)来调出这个聊天窗口。

借助这个聊天窗口,你可以快速地向 ChatGPT 提问、上传文件、生成或者开始一个新的对话。它还具有记住上次位置的功能,并且当主应用程序重置时,它会回到屏幕底部中心的位置。

此外,你还可以通过点击窗口顶部的「New chat」来清除聊天内容,或者通过点击「Open in Main Window」按钮将对话转移到 ChatGPT 的主应用程序窗口中继续。

如果不小心关闭了这个聊天窗口,你也可以通过查看侧边栏的聊天记录来在主应用程序中继续对话。

需要注意的是,如果这个快捷键已经被其他 Windows 应用程序占用,那么它将会不起作用,并且也不支持更改快捷键。

目前 ChatGPT 已经向 Windows 两大操作系统开放桌面版本,但 Linux 却没有给出明确的时间表,也惹得不少网友在线催更。

另外,前不久 OpenAI 推出了 ChatGPT Canvas 功能,允许用户与 ChatGPT 合作处理写作或编程任务。

今天 ChatGPT Canvas 也更新了一个比较实用的功能,你可以点击右上角的「Show changes」图标来查看文章或代码的更改。

▲ Window 的 ChatGPT Canvas 功能,图片来自 @test_tm7873

如下文所示,我使用 ChatGPT Canvas 将朱自清的《背影》改写成文言文版本,点击图标,所做的更改一目了然。

实际上,今天更新的功能也算是补上了 ChatGPT 生态的重要一环。

不过,正如开篇所说,这个桌面版本本质上还是个阉割版,食之无味弃之可惜,尽管快捷键调用方式简单,但网页版所带来的体验明显会更好。

刚刚,Windows 版 ChatGPT 正式发布!还有一个实用的新功能| 附下载链接

就在刚刚,OpenAI 宣布推出 Windows 桌面应用,向 ChatGPT Plus、Enterprise、Team 和 Edu 用户开放 。

不过,官方表示,目前开放的只是早期版本,将在今年晚些时候向所有 ChatGPT 用户推出「完整的体验」。

例如,它还不支持高级语音模式,并且 GPT Store 的部分集成功能暂时也无法使用。

用户可以在微软应用商店搜索 ChatGPT,接着下载安装即可,安装包大约 110MB,附上下载地址:

https://apps.microsoft.com/detail/9nt1r1c2hh7j?rtc=1&hl=en-us&gl=US

系统要求: Windows 10(x64 和 arm64)版本 17763.0 或更高版本。

在具体的使用过程中,OpenAI 提出了一个名为「Companion Chat」的辅助聊天功能,它允许你在不离开当前应用程序的情况下,快速访问和使用 ChatGPT。

这个功能类似于一个快捷方式或者浮动窗口,你可以通过特定的快捷键(Alt + Space)来调出这个聊天窗口。

借助这个聊天窗口,你可以快速地向 ChatGPT 提问、上传文件、生成图片或者开始一个新的对话。它还具有记住上次位置的功能,并且当主应用程序重置时,它会回到屏幕底部中心的位置。

此外,你还可以通过点击窗口顶部的「New chat」来清除聊天内容,或者通过点击「Open in Main Window」按钮将对话转移到 ChatGPT 的主应用程序窗口中继续。

如果不小心关闭了这个聊天窗口,你也可以通过查看侧边栏的聊天记录来在主应用程序中继续对话。

需要注意的是,如果这个快捷键已经被其他 Windows 应用程序占用,那么它将会不起作用,并且也不支持更改快捷键。

目前 ChatGPT 已经向 Mac、Windows 两大操作系统开放桌面版本,但 Linux 却没有给出明确的时间表,也惹得不少网友在线催更。

另外,前不久 OpenAI 推出了 ChatGPT Canvas 功能,允许用户与 ChatGPT 合作处理写作或编程任务。

今天 ChatGPT Canvas 也更新了一个比较实用的功能,你可以点击右上角的「Show changes」图标来查看文章或代码的更改。

▲ Window 的 ChatGPT Canvas 功能,图片来自 @test_tm7873

如下文所示,我使用 ChatGPT Canvas 将朱自清的《背影》改写成文言文版本,点击图标,所做的更改一目了然。

实际上,今天更新的功能也算是补上了 ChatGPT 生态的重要一环。

不过,正如开篇所说,这个桌面版本本质上还是个阉割版,食之无味弃之可惜,尽管快捷键调用方式简单,但网页版所带来的体验明显会更好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


后面试时代与 AI 刷题

一、引言

七月的时候,我写了一篇文章《AI 编程助手测评:GitHub Copilot vs 豆包 MarsCode》,推荐了后者。

豆包 MarsCode 团队最近就邀请我,试用他们的新功能"代码练习",它专门用来准备面试和刷题。

试用以后,我有很多想法。

我觉得,AI 会改变程序员的面试,以后是 AI 刷题的后面试时代

二、面试的 LeetCode 刷题

现在的程序员面试,一般都有算法解题。

为了准备面试,大家都会去刷算法题,最常见的就是使用 LeetCode 题库。

LeetCode 是世界最流行的算法题库。它源自美国,专门收集各种面试算法题,目前已经超过了3000道,不少是互联网大厂的真题。

很多同学坚持不懈,每天投入几个小时,做里面的题目,训练自己的算法能力。一般来说,至少要刷200题,面试才较有把握。

(图片说明:上图是某个老外的刷题统计面板,他一年365天,每天都在刷题,一共刷了1500题。)

三、AI 颠覆 LeetCode

生成式 AI 出现后,越来越多的人发现,有了 AI,人肉刷题似乎不那么必要了。

今年(2024)8月份,一位美国网友在 Reddit 论坛发了这样一个帖子。

他说,自己写了一个脚本,让 AI 自动求解 LeetCode 算法题,一天之内做了633道题目,正确率达到了86%,成本只要9美元。

这个帖子引起了巨大反响。

既然 AI 可以提示正确答案,为什么不参考 AI 来准备面试呢? 何必坚持苦思冥想、徒手 LeetCode 刷题。

四、AI 助手的解题能力

我们完全可以跟着 AI 刷题,做到事半功倍。

我选一道 LeetCode 题目,展示一下这是多么简单的事情。


你是一个 JavaScript 程序员,请补充完成下面的函数。

要求是输入一个代表罗马数字的字符串(比如"IX"),该函数会返回对应的阿拉伯数字(比如9)。

 /**
  * @param {string} s 
  * @return {number} 
  */ 

var romanToInt = function(s) {


};

选择上面这道题,主要是因为它很短,便于展示。而且,这道题的难度不大,但需要考虑多种情况,很适合用在初级面试。

我选择的 AI 工具,就是 VS Code 编辑器的豆包 MarsCode 插件,它是免费的。

在 VS Code 代码编辑器里,从左边栏打开该插件(如果未安装,可以在插件市场搜索"MarsCode")。然后,在对话框输入题目。

稍等片刻,AI 就会给出答案以及代码解释。

哪个地方看不懂,就向 AI 询问。

这节省多少时间啊,大大加快了刷题速度。

五、后面试时代

可以看到,AI 能够快速解决面试算法问题,那么,基于算法解题的面试模式,是不是应该有所改变了?

现在的互联网大厂,都允许工作中使用 AI 模型,面试再要求"徒手解题",已经有点过时了。

AI 将越来越普及,如果未来的面试不使用 AI,就好像不使用 IDE 编辑器一样不合理,应该允许程序员在面试中使用日常工具。

我的想法是,面试的考察重点可能会改变,从让面试者解题,变成让面试者解释和审查 AI 生成的代码。

面试时,给你一段 AI 生成的解题代码,让你解释这段代码,并且修正里面的错误和没有考虑到的地方。

这样做有很多好处:(1)更贴近程序员的实际工作模式;(2)能看出程序员的代码阅读和理解能力;(3)难以事前准备或作弊;(4)更能反映一个人的协作能力;(5)也适用于偏向阅读代码而不是编写代码的岗位,比如项目经理、架构师等等。

这可以称为"基于 AI 的后面试时代",即面试从考察编码解题能力,演变到考察代码的审查理解能力。

六、AI 陪练功能

现在已经有很多工具,为面试提供 AI 辅助训练。

豆包 MarsCode 的"代码练习"就是一个最新的尝试。我用了以后,觉得对准备面试、有效刷题真的有帮助,可以训练自己与 AI 协同编程。

它是一个基于云 IDE 的专门页面,内置了上百道字节跳动的面试真题

所有相关操作都集中在这个页面上,只要有浏览器就可以使用,刷题全过程不必切换页面,大大方便了使用:选题、解题、调试、AI 对话......

而且,它是免费的,大家现在就可以试试看:进入豆包 MarsCode 官网,点击顶部菜单的"代码练习",就可以进入。

这个页面是云 IDE,不需要任何安装,打开后直接在浏览器使用。

默认状态下,页面分成四栏。左侧是面试真题的目录,目前有100道,以后还会不断增加。选中一道题目,点击后可以看到具体内容。

页面右侧是代码框和 AI 框。

在代码框,需要首先选择你的编程语言,共有8种可选(Python、JavaScript、Go、C++、C、Java、Rust、TypeScript),上图是 JavaScript。然后,输入解题代码,再点击顶部的运行按钮,就可以看到运行结果。

在 AI 框,则是三个预设选项,点击后就可以让 AI 提示思路、代码、检查代码。下方还有对话框,用来跟 AI 对话。

一般来说,拿到题目后,(1)先点击"需要一点思路提示",让 AI 帮助你理解题目。(2)再点击"给我一些代码提示吧",让 AI 给出初步代码。(3)你修改和完善代码,再点击"帮我检查一下代码",看看会不会报错。

此外,这个页面还集成了 IDE 功能,比如语法检查和代码调试。随着代码键入,会自动给出用法提示(下图)。

这样的"代码练习",堪称面试刷题的利器,我觉得,面试指导书籍和辅导班可能都不需要了,以后都会被淘汰。

七、总结

AI 改变软件行业,也必然改变程序员的面试求职。

AI 刷题是未来的趋势,善用者将更容易通过面试,拿到心仪的 offer。

但是,需要提醒的是,AI 只是工具,生成的代码不一定正确和安全,而且项目之中也不应该有黑箱。

正确的做法是,使用 AI 但不依赖,思路比答案更重要,只有理解了每一行代码,才能接受它的结果。我们使用 AI 的首要目的,永远是提升自己的能力,而不是让 AI 替代我们,代码的最后责任人的不是 AI,而是你。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2024年10月10日

刚刚,ChatGPT 发布重磅更新!让我看到了 AGI 时代的终极交互形态

今天凌晨,ChatGPT 罕见地迎来了一次交互界面的大改。

没有颠覆式创新,奔着生产力革命的 ChatGPT Canvas 新功能隐约透着几分 Claude Artifacts 的影子。

Canvas 是一个全新的界面,旨在帮助用户与 ChatGPT 在写作和编码方面进行更紧密的协作。

对于这项功能,OpenAI 研究主管 Karina Nguyen 在 X 平台阐述了她的想法:

我心目中的终极 AGI 界面是一张空白画布(Canvas)。

它能够随着人类的偏好不断演变、自我变形,并发明出与人类互动的全新方式,重新定义我们与 AI 技术以及整个互联网的关系。

简言之,Canvas 就是一个更大的、更适合复杂工作的协作空间。

有意思的是,在 OpenAI 官网上,我们也发现了支持该新功能的领导团队包括了一些今年离职的熟悉面孔——Barret Zoph、John Schulman、Mira Murati。

而即日起,OpenAI 将向 ChatGPT Plus 和 Team 用户推出 Canvas。

Enterprise 和 Edu 用户则在下周获得访问权限。测试结束后,OpenAI 计划向免费用户推出 Canvas。

指哪改哪,写作能力更强了

写作和编码都是 ChatGPT 的两大高频使用场景。

尽管聊天界面简洁高效,适用于多种任务,但目前在处理需要复杂步骤和多方面技能的项目上显得有些力不从心。

Canvas 便提供了一种新的工作界面,用户可以在其中编辑和改进 AI 的输出。

OpenAI 官方表示,Canvas 能够让 ChatGPT 更懂你的心思,比如你可以高亮标注出重点部分,告诉 ChatGPT 特别关注哪里。
用官方的话来说,就像是旁边有一个文案编辑或代码审查员在实时地提供实时反馈和建议。

在 Canvas 界面中,你也可以轻松地编辑文字或代码。

页面还配备了快捷方式,让你可以要求 ChatGPT 调整写作长度、调试代码,并快速执行其他有用的操作。一键撤销,恢复到之前的原版本也轻而易举。

写作快捷方式包括:

  • 建议编辑:ChatGPT 提供实时建议和反馈。
  • 调整长度:编辑文档长度,使其更短或更长。
  • 更改阅读水平:调整从幼儿园到研究生的阅读水平。
  • 增加最终润色:检查语法、清晰度和一致性。
  • 添加表情符号:添加相关的表情符号以强调和增加色彩。

杀鸡焉用牛刀,在小事上频繁调用 Canvas 反倒有些复杂。

通常情况下,Canvas 会在 ChatGPT 检测到可以提供帮助的场景时自动启用。当然,你也可以在提问时加上「use canvas」来打开该功能。

据 OpenAI 介绍,比如在遇到像「写一篇关于咖啡豆历史的博客文章」这样的请求时,Canvas 会自动启动。

但如果是在简单的问答任务中,比如「帮我做一个新晚餐食谱」,那么启动 Canvas 就有些小题大做了。
为什么说 Canvas 功能能够提升写作质量和改善交互体验?

官方表示,类似于质量监控系统,开发团队设置了超过 20 个自动化测试来追踪他们的 AI 在开发过程中的表现。

在开发过程中,研究团队使用前不久推出的 OpenAI o1-preview 版本来生成合成数据,然后用作后训练的数据集,从而加强模型的关键功能,比如写作和与新用户的互动。

真·AI 程序员来了

考虑到编码通常不是一次性完成的,而是需要多次修改和改进。

Canvas 的目的是让追踪和理解 ChatGPT 所做的修改变得更加简单明了,并且未来 OpenAI 将进一步考虑提升编辑过程的透明度。

编码快捷方式包括:

  • 审查代码:ChatGPT 提供实时建议,以改善代码。
  • 添加日志:插入打印语句以帮助调试和理解代码。
  • 添加注释:为代码添加注释,以便更容易理解。
  • 修复错误:检测并重写有问题的代码以解决错误。
  • 移植到其它语言:将代码翻译成 JavaScript、TypeScript、Python、Java、C++ 或 PHP。

在编码任务中,为了避免干扰经验丰富的开发者,Canvas 也不应该那么频繁地调用。OpenAI 特意在这方面进行了改进,使得它在写作和编码任务中更准确地触发 Canvas,分别达到了 83% 和 94% 的准确率。

目前,基于 GPT-4o 模型构建的 Canvas 仍处于早期测试阶段,用户可以在模型菜单栏中切换体验该功能,OpenAI 宣称将迅速改善其功能。

除了教会模型要适当地启动,研究团队还要教会其如何更聪明地编辑内容。

当 Canvas 启动后,模型需要判断:是只修改内容的某些部分,还是全部重写。

因此,如果用户在界面上明确指出了要改的地方,模型就会只修改那些部分。而如果用户没有特别指出,模型就会选择重写整篇内容。

终极的 AGI 界面——空白画布

Karina Nguyen 也分享了 Canvas 的一些实际使用案例。

GPT-4o 结合 Canvas 可以研究艺术史并撰写报告,可以要求验证其观点并添加引用文献。

用 ChatGPT 搜索最好的餐厅,并通过电子邮件邀请朋友。

GPT-4o 结合 Canvas 可以编写 Rust 代码并进行代码审查。

浏览食谱后,Canvas 可以根据现有的食材创造新菜谱。

OpenAI 开发者大会的狂欢仍在继续。

Canvas 功能的着力点依然牢牢锁定在内容创作和编码开发过程。

独立窗口的设计自由度更高,能够让我们能够直接在主界面上与复杂内容进行互动和管理,这不仅极大优化了用户体验,也让我们看到了人机交互的未来。

只有简单问答功能的 AI 服务,已经跟不上人类「副驾驶」的第一梯队了。

随着 Claude Artifacts、Cursor 等功能/工具的爆火出圈,Canvas 功能的推出也是为了补上市场竞争的重要一环。
OpenAI 人机交互的「弹药库」依然充足,也依然春风得意。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Windows 11/10 系统优化和推荐应用

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

有人说 11 适合大多数普通用户,即便个人需求不同,也可以在此基础上进一步调整(折腾)。仔细一想,更新使用 Windows 11 这段时间我确实进行了不少调整,稳定使用好一阵子之后,许多折腾过程被我逐渐淡忘。

于是想着写下本文作为记录,以便回顾,顺带给也有意深入调整 Windows 11 的朋友一些参考。

Windows 10 在初次使用的时候可以跳过网络连接设置,选择「离线账户」。这样可以避免微软账户的一些设置,但也会导致一些功能无法使用。而 Windows 11 在安装时──至少从 UI 来看──会强制要求连接网络并登录 Microsoft 账户。

如果你只想通过离线账户使用,或碰上微软服务抽风偏偏又无法登录的情况,在这一步可通过 Shift + F10 调出命令行,输入 oobe\BypassNRO。命令执行后系统将自动重启,此后初始化过程中的网络配置会额外出现「我没有 Internet 连接」选项,再点击「继续执行受限设置」后续即可配置离线账户。而如果你已经联网,看到强制要求登录 Microsoft 账户界面后才寻找使用离线账户账户的方法,此时只通过上面的命令是不够的——至少从我唯一的一次经历来看输入命令后重启后仍然会自动配置好网络,此时则需要先输入 devmgmt 打开设备管理器、禁用无线网卡,然后再输入 oobe\BypassNRO

截至目前通过这些额外的手段还是能够使用离线账户,但微软如此收窄用户选择的空间,很难不让人揣测其意图,甚至给人留下一种不断侵蚀用户和选择权的糟糕印象,毕竟在线账户只会让微软更轻松地收集各种用户,包括使用习惯、偏好设置等个人信息,而这些收集行为也不只在本设备,通过在线账户,微软也能更轻松地跟踪用户在不同设备间的行为,构建更完整的用户画像……收集到的数据则可以用于精准投放、出售给第三方广告商、通过与其他微软服务的集成二次扩大数据共享范围。

要知道 Microsoft 账户隐私设置界面着实复杂,迈过离线账户的坎,后面想要完全控制自己的隐私选项难度就不低了。

除了预装系统的 OEM 设备,新设备至少第一次的完整的更新是必要的,这些更新包含正常使用的驱动等。如果 Windows 更新无法为你下载安装特定版本的驱动,你也可以前往对应设备厂商的官网手动下载安装,如: 

至于特殊的「鸡生蛋」情况──无线网卡驱动──没有无线网卡驱动无法联网、无法联网就无法通过 Windows 更新升级无线网卡驱动,可以通过 USB 网卡或者手机共享网络连接,或者直接下载驱动到 U 盘,然后在设备管理器中手动更新。对于 OEM 设备可以去对应官网寻找驱动支持,对于个人 DIY PC 主要前往主板官网下载最新驱动,当然如果你知道具体网卡型号(例如常用的 Intel AX210)也可以直接去对应官网下载。

说到 OEM 设备,OEM 厂商关于硬件的支持性应该优于更广泛的 Windows。倘若 OEM 厂商有提供完整的硬件驱动管理工具,这些工具优先级应该高于 Windows Update。为避免 OEM 驱动管理与 Windows 更新工作重复、覆盖乃至冲突,可以按照如下流程操作:

说回 Windows 更新本身。对于目前桌面端主要使用的三大(类)系统──WindowsmacOS、各 Linux 发行版──相较于更加专用的各 Linux 发行版和产品线单一又严格由 Apple 控制淘汰周期的 macOS,兼容性最好的 Windows 在更新上也更容易受兼容性带来的多样性所困,从而很难实现更新行为和质量的一致性。这也是为什么每每听闻 Windows 更新问题时,总有人说「从来没遇到过」,也总有另一些人抱团抱怨仿佛 Windows 都快完全不可用了那般。

其实如今没必要过于抵制 Windows Update,更新内容本身带来的问题几乎没法举例,更多主要是更新过程中的意外。如果你很清楚自己在做什么,也可以尝试推迟 Windows 更新。除了在更多选项中至多推迟五周外,还可以通过修改注册表推迟任意长度时间:

你可以填写一个很大的天数,然后在需要更新的时候点击 Windows 更新中点「继续更新」即可方便地跳过更新推迟,在此之前不会收到任何更新检测或提示,更不会自动更新。

上述通过注册表推迟更新的操作可以通过脚本完成:

再配合任务计划程序实现自动化。这样就可以根据自己的节奏推迟更新、累计更新,例如每六周推迟五周等。

至于彻底禁止 Windows 更新,其实上文提到的通过注册表推迟到一个不可能的天数便可达到类似效果,除此以外还可以通过编辑组策略、修改更新服务器到一个空地址、借助诸如 Windows Update Blocker 等第三方工具等。这里不再一一赘述。

本篇围绕 Windows 11 系统本身的设置调整展开,尽量不涉及第三方软件、工具,若非要涉及也是主要是在辅助调整设置(例如把隐藏的系统设置项调出来)而不提供额外功能。

任务栏、开始菜单最直接的调整在「设置 > 个性化」中。

在任务栏设置中,我们要做的第一件事就是把塞满广告和各种无用信息的小组件整体关闭,然后根据个人习惯调整其他设置,比如我会将搜索仅显示图标、任务栏左对齐、永远合并任务栏按钮。

在开始菜单设置中,记得关掉第一面的所有推荐内容,并在「文件夹」中打开设置方便快速进入。

搜索栏在任务栏中的开始菜单附近,但是它的设置项目却在「隐私和安全性 > 搜索权限」中。而微软也往此处插入了一些「推荐内容」,需要在关闭设置项目最后的「显示搜索要点」。

Windows 11 中,即便解锁任务栏,我们也不能像 Windows 10 那般将任务栏拖动到屏幕左右侧,只能在底部。虽然通过修改注册表可以强行改动任务栏位置,但是会导致 UI 错位。更推荐的方法是使用第三方工具将整个任务栏回退到 Windows 10 模式,例如后面会介绍的 ExplorerPatcher。 

除了任务栏和开始菜单,很多人在 Windows 11 中最先接触到的变化可能是右键菜单。其实如果不带成见来看,Windows 11 的右键菜单在设计上更加简洁、更符合整体设计语言,且按钮排布更加宽松,没有按钮增多时密密麻麻的视觉压迫感,也更适合触摸操作等非精确点击。

问题是,宽松的按钮排布,代价是并非所有功能都能直接在右键菜单中找到,部分功能被隐藏在「显示更多选项」中,且这些更多选项并非像「新建」那样以二级菜单展开,而是完全退回到类似 Windows 10 的右键菜单。在桌面/文件资源管理器按住 Shift 右键也能直接唤出这种经典风格的右键菜单,除了真的需要考虑触摸可用性,为什么不一开始就显示完全呢?

倘若你不想节外生枝使用复杂插件,其实直接修改注册表的方法也并不繁琐。

注销或重启文件资源管理器即可生效,右键菜单将恢复到 Windows 10 风格。

在我自己的日常使用习惯中,无论在 Windows 还是 macOS,虚拟桌面都是高频使用的功能。对于临时被打断或者由于时间问题没有完成的工作,在确保保存后我会将其原封不动放在原位置并新建一个虚拟桌面继续其他工作。同时在处理多个任务时候,我也会尽可能保证一个虚拟桌面内是一个相对独立的任务,相当于在标签页、窗口之上再加一层桌面维度,检索时更加快捷。

如此频繁的使用,自然容易在 Windows 10 升级到 Windows 11 感受到一些细微的变化。对于单次虚拟桌面切换来说动画是更加丝滑了——Windows 11 非线性动画的加速、减速比起 Windows 10 更加自然。但多次切换就有点灾难了,在 Windows 10 按住 Ctrl + Win 并多次按左右方向键时,滑动动画经历「加速 > 连续的桌面滑动(哪怕有来回)> 减速」停到目标桌面,而在 Windows 11 中,多次切换时,每次都会经历完整的「加速 > 减速」动画,相当于把单次切换简单的拼接起来,这样的动画在频繁切换时会显得有些拖沓。

以上都是针对快捷键切换虚拟桌面的情况,对于触控板切换来说动画都是尽量跟手的,而连续切换之间的停顿也符合直觉(毕竟触控板没法像快捷键那样连续多次按方向键,中间肯定也有停顿对应)。

网络上暂时没有找到将动画回退到 Windows 10 版本的方法,所以我简单粗暴地关闭了这个动画——在「设置 > 辅助功能 > 视觉效果 > 动画效果」开关可以关闭虚拟桌面切换动画,但是这样也会波及其他动画效果;在高级系统设置(cmd/Win + R: sysdm.cpl)中的性能设置中视觉效果页关闭「对窗口内的控件和元素进行动画处理」也可以关闭虚拟桌面切换动画,但同样也会波及诸如 Win + Tab 窗口动画效果,不过从描述来看想必波及的范围更小。

我个人有个癖好是桌面不出现任何图标、任务栏只留一个文件资源管理器、所有应用在开始菜单以磁帖排布。在注意力有些散漫的时候 Win + D 回到桌面欣赏下壁纸休息——不得不承认 Windows 11 背景设置中的「Windows 聚焦」挺好看,同时又不会过分吸睛,应该是和 Bing 每日壁纸同源的。

在「设置 > 个性化 > 主题 > 桌面图标设置」中可以关闭桌面图标。遗憾的是当清空桌面图标后,角落「Learn about this picture」更加显眼,且没有显式关闭设置,除了再次借助 ExplorerPatcher,也可以通过修改注册表实现:

这样桌面就只剩下壁纸了。如果你第一次这么设置会发现有一尴尬之处──回收站怎么进?确实一般情况下回收站都是放在桌面的。这时可以通过在文件资源管理器的地址栏中输入 shell:RecycleBinFolder 打开回收站,然后将其固定到快速访问中,这样就可以在文件资源管理器的侧边栏方便访问回收站。

硬件部分关于屏幕、缩放、渲染等内容会占用太多篇幅且涉及技术原理部分可操作性不强。这里直接给结论:

Windows 10 之时我还能接受通过 noMeiryoUI 软件方式修改默认系统字体为更纱黑体,配合 MacType 软件实现更好的字体渲染效果(一定程度上抵消 ClearType 在高分屏的负优化)。虽然 noMeiryoUI 依然兼容 Windows 11,Windows 11 上更多的系统组件、官方应用并不默认遵守该设置,导致字体修改效果十分有限。

因此在 Windows 11 上我选择一种比较 dirty 但是好用的手段──将其他字体(例如更纱黑体)重新打包成伪装的「微软雅黑」并移动至 Windows 字体文件夹下以欺骗系统。chenh96/yahei-sarasa 提供了一个截止本文修改时仍运行良好的 Python 脚本自动将更纱黑体伪装为微软雅黑和宋体。

目前主要有三种方法将伪装字体替换系统默认字体:

这里仅展示第一种方法,不需要任何额外工具。在 Windows 恢复模式中的命令行使用 xcopy 将伪装的微软雅黑移动到相应文件夹下:

覆盖后重启即可。请特别注意不要在任何有用于演示、汇报用途的 Windows 设备上进行此操作,以免一些不必要的麻烦。

Windows 的色彩管理仍是一个相对混乱的领域,短期内是不指望能和 macOS 相提并论。但是 Windows 11 还是比前代 Windows 10 在 HDR 支持上有 明显改进,至少算是过了及格线。

在开启 HDR 之前,还请确保屏幕至少支持 HDR 600 标准,HDR 400 可以当作不支持看待(注意区别于 HDR true black 400,这是 OLED 标准,甚至严格过 HDR 1000)。OLED 和 MiniLED 屏幕往往效果更好。

全局开关在「设置 > 系统 > 显示 > HDR」。开完先别急,点击下面的「HDR Display Calibration」,这里可以矫正 HDR 显示效果。

「自动 HDR」功能可以将仅支持 SDR 的游戏转化为 HDR 输出,效果挺不错。但如果你的设备使用较新的 N 卡,那更推荐关闭此功能 Windows 11 的自动 HDR,用 NVIDIA 内的 RTX HDR 替代。由于 HDR 会尽可能用尽显示器硬件性能,不能通过调整显示器亮度来改变内容整体亮度,在开启 HDR 显示时只能通过设置「SDR 内容亮度」将桌面调整至不开 HDR 相近效果。

在开启 HDR 模式下就是纯 HDR 信号输出,不存在区域渲染,原本 SDR 内容也会通过算法转化为 HDR 输出,这其中必然是会丢失信息的。目前消费级 HDR 显示器素质良莠不齐。如果在开启 HDR 模式看 SDR 内容时发现颜色「寡淡」,有可能是眼睛已经被各种「鲜艳模式」惯坏了,毕竟在开启 HDR 后系统会自动对 SDR 内容做 sRGB 限缩,从某种意义上这才是「正确」的颜色,除此以外就是显示器还跟不上,前者可以尝试常驻 HDR 模式适应,后者建议常用 Win + Alt + B 快捷开关 HDR 仅在消费 HDR 内容时开启。

「Wintel 联盟」现在似乎已经很少提起,当初意图取代 IBM 公司在个人计算机市场上的主导地位,直至现在 Microsoft 和 Intel 的合作依然紧密。Intel 新大小核处理器在 Windows 10 上有许多调度问题促使其用户不得不选择 Windows 11。

如果你在电源设置中发现缺少某些设置项目,除了一个个查注册表,更方便的方法是通过 PowerSettingsExplorer 这个仅调用 Power Management Functions 接口的小工具来调出那些被隐藏的选项。在 Windows 11 中与大小核调度策略有关的隐藏高级电源设置有:

在「高性能」电源计划中,这三个的设置按顺序是「0 – 自动 – 自动」,调度策略是「大核 > 小核 > 大核超线程」;如果将后两个设置同时设为「高性能处理器」,那么调度策略变为「大核 > 大核超线程」。总体而言异类策略 0 优先使用大核,对应的异类策略 1 优先使用小核。异类策略 4 比较奇怪,它是「节能」电源计划的默认设置,但是在烤鸡、游戏挂机等测试场景大小核调度策略几乎和「高性能」一致,怀疑是高负载场景积极调度、中低负载再节能的策略。

其实预设的几种电源计划均挺符合直觉的,没必要过于纠结。即便有极端省电需求也不建议完全小核优先,其实该设置中的所谓「高效处理器」也就是小核还真未必比限制后的大核能效比高。看看对功耗更加敏感的移动端,都有越来越多大核的势头,乃至天玑的全大核构想。当然移动端大核甚至还没够到桌面端的小核,不能简单横向比较。不过时至今日我依然对桌面端异构架构持保守态度。

以上都是针对 Intel 新处理器的情况,对于 AMD 全大核处理器,Windows 11 的大小核调度反而引入额外问题导致游戏场景表现甚至不如 Windows 10。众所周知,锐龙 CPU 各核心都有成为 CPPC 属性,代表各个核心的「体质」,在 AMD 官方工具 Ryzen Master 中可以查看的金、银核心分别就是 CPPC 最高的两个核心,而 Windows 11 会将 CPPC 最低核心视为小核(高效处理器)进行调度。通过上述真正大小核的 Intel 处理器上观测的不同异类调度策略并在 AMD 全大核处理器上对应测试,发现 Windows 11 对 AMD 处理的调度的确遵循 N-1 个高性能处理器和 1 个高效处理器的策略。这样默认的调度策略会更不倾向调用所谓的小核,这种不对称可能会导致更多的跨核行为、特别是游戏场景频繁地 L3 缓存争用造成无端性能损失。

之前的民间偏方,在 BIOS 开 PBO、XMP/EXPO 的同时顺手把 CPPC 关掉,或许也是由此而来。

早在去年 UP 主 @开心的托尔酱 在 关于 Windows 系统对 AMD 的负优化—异类线程调度 就有提到这个问题。而在最近 AMD 在社区更新 关于 Zen 5 游戏性能提升远不及理论的回应,宣布 Windows 11 24H2 将通过优化「branch prediction」 来提升 AMD Zen3/4/5 系列处理器的性能表现,部分游戏甚至有 10% 以上提升,要知道 Zen 5 由于相较于前代提升过于微妙有被戏称「Zen 5%」,更有特例 5700X3D 在 Windows 11 上性能表现比 Windows 10 差 15%……该说锐龙 CPU 首发一如既往地一言难尽呢、还是说与 Windows 合作不够紧密呢?

当然,尽管 Windows 几个电源设置的预设符合直觉无需额外调整,电源设置里还是有很多可玩性的,例如不用重启调整 CPU 睿频参数等。具体不再展开,感兴趣可以参阅 Windows 电源设置注释

Windows 11 在「设置 > 账户 > Windows 备份」中可以设置包括文件、设置等备份选项,但似乎必须绑定微软账户使用,对于离线账户并不友好。且这种方法不支持备份系统。

个人认为更好用的还属控制面板中的「备份和还原(Windows 7)」,不仅支持对系统分区全量备份,还支持制作系统镜像和系统恢复盘。虽然 Windows 在 知识库 中鼓励大家尽可能使用设置取代控制面板,无奈前者体验还偏偏不如后者。

此外,Dism++ 也提供系统备份功能,同时支持不添加文件的增量备份(不算快照)。Dism(Deployment Imaging and Management)是 Windows 自带的一个工具,用于安装和维护 Windows 映像,Dism++ 只是将常用命令封装成 GUI 便于操作,并没有额外单独实现,这种备份也算是半官方方法。

还有两个系统功能看似很好用但是我不推荐:一是系统检查点,它本意主要用于系统更新失败的回滚,很难说胜任纯粹的系统备份,对个人文件的行为很奇怪经常在回滚的时候搞得一团糟;而文件历史,它默认备份整个用户目录,需要自己一个个排除,且该功能仅放置于控制面板,微软对此也并不算上心,一个 bug 三五年不修。

话说回来,目前单独备份系统的意义远不如备份文件,通过链接把一些应用的数据文件夹(例如微信保存的文件)link 到其他分区、外置存储乃至云端上,更多链接操作留到后续关于快捷创建链接的工具那一部分。

Windows 11 正常要求硬件支持 TPM 2.0。TPM 芯片是一种安全加密处理器,包含多个物理安全机制以防篡改。BitLocker 会将专用密钥存储在 TPM 芯片内,在除了更改 TPM、BitLocker 检测到 BIOS 或 UEFI 配置、关键操作系统启动文件或启动配置的更改之外的情况下,BitLocker 会自动解锁,用户登录无需进行任何额外交互即可解锁。无其他加密手段建议对系统盘开启 BitLocker,这已经是 Windows 集成最高、最无感的方式。

关于几个关键问题:

如果真有换设备需求,但是事先忘记解锁 BitLocker,会导致无法访问数据吗?

不会。在创建加密的时候 BitLocker 同时会创建恢复密码,可以将其打印或存在安全位置。检测到硬件更改后 BitLocker 进入恢复模式,用户输入恢复密码可以重新访问数据。

备份工具是否支持 BitLocker 加密盘?

对于基于文件系统的备份方式来说,理论上解锁后 BitLocker 是透明的,先解锁再备份即可。对于分区的备份方式,理论上可以不解锁整个区拷走,但是加密后不知道哪一部分是空的会导致备份文件更大且不好压缩,虽说 BitLocker 通过长长一串恢复密码也可以离线挂载,但不建议盲目还原。

BitLocker 是否会影响性能?

理论上会,但实际上体感不明显。别单看开 BitLocker 后硬盘读写速度有的下降超 10%,解密过程应是压力越大损耗越明显,所以不能根据硬盘测速这一极端压力情况下的性能损耗来界定 BitLocker 的性能损耗。

BitLocker 闭源,微软可以添加后门,如何保证安全?

你说得对,可以尝试开源方案 VeraCrypt,支持 Windows 11 系统加密,在普通分区加解密上还提供更好的跨平台支持,但是 VeraCrypt 不支持 TPM 且由于理念不合永远不会支持,在和 Windows 集成上肯定也不如 BitLocker 无感。看你愿不愿意拿所谓的安全换便利了。

平心而论,这个软件本身并没有什么问题,但是大陆用户对「电脑管家」的 PTSD、早期仅在中国区推送和不事先提醒地静默安装才是其被人诟病的原因。

后来,我的区域美国、语言英语的 Windows 11 也被推送,Reddit、Discord 也有相关讨论,才得知微软打算全球推送。单看软件本身,清理、加速、系统保护项、应用管理、常用小工具(截图、字幕、翻译、词典、以图搜图等)还有快捷修复建议,其实就是可能原本在设置里藏很深的 Windows 已有功能的拿出来,不需要联网也没有广告,不像小组件和 Office Plus 那样尽塞垃圾。

如果抛开前两点,静默安装也确实不厚道,用户的诟病并非完全无端。不过实现手段其实不是 Windows 更新而是 Edge 后台下载安装包安装。所以它就单纯是个软件,看不惯直接卸载就好。Edge 自从某次我重装系统后,在搜索 Chrome、进入 Chrome 官网时用大半个页面阻挠我安装 Chrome 我就已经心留芥蒂,出了这一茬直接让我彻底禁用 Edge,还不能简单卸载,留到后面 Remove MS Edge 插件部分。

除了深入设置、注册表、组策略等方法调整系统外,还有一些第三方插件可以帮助我们更好地使用 Windows 11。当然这里提到的插件依然主要针对系统调整,不发散到更广泛的效率提升上。

Windows 本身其实一直缺乏一个好用的包管理器,不提不如 Linux 各发行版的,就连 HomeBrew 类似产品都没有。微软官方推行的 WinGet 严格意义上称不上包管理器,它并没有提供统一的包格式,而是依赖于各个软件的安装程序下载下来静默安装,正如 HomeBrew Cask。Scoop 才稍微有些包管理器的感觉,安装同时也能自动配置环境变量,在迁移时备份还原更方便。如果不介意添加多余的工具,用 UniGetUI 可以一次性管理 WinGet, Scoop, Chocolatey, Pip, Npm, .NET Tool 和 PowerShell Gallery 多个包管理器。

仅关于 Scoop 的安装,在 PowerShell 中输入以下命令即可:

倘若你还希望使用 UniGetUI,可以在 PowerShell 中输入以下命令通过 Scoop 安装:

Windows 并不像 macOS 通过三个应用分别控制桌面、Dock 栏、Finder,而是通过一个「资源管理器」一并控制。而 Windows 11 相较于 Windows 10 许多令人不满的改动──任务栏、开始菜单、右键菜单──都可以通过介入资源管理器来调整。

虽然前面系统设置部分已经提到部分调整手段,但是这些调整往往需要手动修改注册表等隐藏更深的手段。如果你不想折腾,亦或是觉得这些调整不够全面,可以尝试 ExplorerPatcher 这款开源插件,不仅可以将任务栏、开始菜单、右键菜单一并调回 Windows 10 风格,还有许多诸如 Office Key、禁止文件高级搜索、取消窗口圆角等功能。

虽然在部分时刻,例如系统更新后,ExplorerPatcher 偶有失效,但考虑到开源插件能做到这种程度,完全配得上其自称的「增强 Windows 上的工作环境」宗旨,无需吝啬赞美。

开源项目 Power plan switcher 可以在系统托盘中切换电源计划,支持快捷键、自动切换等功能。

一般来说对于长期接通电源或者没有续航焦虑的设备可以常驻「高性能」或「卓越性能」电源计划,这些计划的默认设置已经十分符合直觉,无需额外微调。

而对于笔记本电脑,它有时接通电源有时使用电池,前往控制面板翻出电源计划设置十分麻烦。PowerPlanSwitcher 可以不仅在系统托盘中切换电源计划,还支持在电源状态变化(从 AC 供电到电池供电)时自动切换对应电源计划。

官方称该软件支持 Windows 10,但实际上在 Windows 11 上也能正常使用。

Microsoft PowerToys 是一组实用工具,可帮助高级用户调整和简化其 Windows 体验,从而提高工作效率。

——Microsoft PowerToys

作为一款出现在 Microsoft 知识库的官方工具,可能考虑到不用像 Windows 那样背负沉重的历史包袱,PowerToys 工具箱中的绝大多数功能都轻量、专一且直击用户需求,被誉为 Windows 用户必备瑞士军刀,且在 GitHub 上完全开源,算是微软给我留下正面印象的产品之一。

早在 Windows 95 时代,PowerToys 就集成了包含了 Tweak UI 在内的共计 15 个小工具,Tweak UI 可以调整 Windows 中原本需要修改注册表才能访问的较为晦涩的设置。微软在 2019 年接管并重新推出 PowerToys,目前也已经有如下我认为很好用的功能:

同时还有诸如 Color Picker、Image Resizer、Text Extractor 等一众小工具,让你免去管理一堆小工具的烦恼、也减少众多工具中出现某几个断更的风险。PowerToys 也有丰富的 第三方插件,例如 PowerTranslator 在 PowerToys Run 中直接翻译文本、
EverythingPowerToys 在 PowerToys Run 中通过 Everything 检索文件、
ChatGPTPowerToys 在 PowerToys Run 中调用
PowerToys-Run-Spotify 在 PowerToys Run 中让 Spotify 放歌等等。

各个工具具体用法这里不再赘述,PowerToys 每个工具页面都有详尽的描述。

单看 PowerToys Run 中的文件搜索功能其实比较孱弱,而 Windows 资源管理器的搜索效果更是惨不忍睹。Everything 通过访问 NTFS 文件系统的 USN 日志,在数秒内检索 TB 级别硬盘,并实时监测所有文件的增改情况,同时支持通过正则表达式进行文件精确匹配,还可通过插件与 PowerToys Run 联动。

自从某次我重装系统后,Edge 在搜索 Chrome、进入 Chrome 官网时用大半个页面阻挠我安装,反而彻底让我将 Edge 定位明确为 Chrome 下载器。更改默认浏览器后某些链接还是会给我跳转到 Edge 打开,之后还闹出自动下载静默安装微软电脑管家一事。

不过 Edge 是不能够简单直接卸载的,可能会导致一些依赖系统 WebView 的应用出问题,而且可能在某次重启后惊觉 Edge 又回来了。

Remove MS Edge 这个工具旨在通过可执行文件或批处理脚本以静默方式彻底卸载 Microsoft Edge,并提供保留 WebView 选项。

虽然 PowerToys 的 Keyboard Manager 也能完成一些键盘映射的工作。但是 AutoHotKey 作为完整脚本语言,功能更加强大,可以实现更多的自定义功能。

例如我对于大写锁定键的需求很小,但是却又有频繁的中英文输入法切换和自定义快捷键需求。自定义快捷键时一般会引入 Hyper 键 的概念,在 Windows 上即同时按下 CtrlShiftAltWin 四个键,这样可以避免与系统快捷键冲突。

我希望产生下述行为:

这种行为仅通过 PowerToys Keyboard Manager 是难以实现的,但是通过 AutoHotKey 可以轻松实现:

同样的,在 macOS 中文输入法会自动将 Shift + [/] 映射为部分中文排版更推荐的直角引号「/,而 Windows 自带输入法并没有这个功能。除了更换输入法、全局替换掉某个键、设置字典打出一对引号等方法,通过 AutoHotKey 识别当前输入法状态并映射不同的按键不失为一种更优雅的解决方案。

Windows 上也有自带的 Win + V 的高级剪贴板功能,甚至可以和微软账户绑定实现云同步。但是这个功能对我而言比较花里胡哨,UI 确实更加现代化也与系统保持一贯风格。不过系统自带的剪贴板历史过于循规蹈矩,保存的历史条目太少不说,在隐身浏览器模式下乖乖不记录。Ditto 作为一款开源剪贴板增强工具,UI 更加简洁紧凑,可以保存更多历史记录、支持搜索、支持自定义快捷键、同时还有清除格式等高级粘贴功能。

配合 AutoHotKey 设置的 Hyper 键,我一般通过 Hyper + V 调出 Ditto 剪贴板历史记录。

C++ 编写的小工具具有不俗的性能,在保存 300 条目且不随时间清空的情况下,调出和检索都察觉不到卡顿,且占用极低只用个位数 MB 内存。

macOS Finder 中,Quick Look 赋予空格快速预览文件夹属性或者多种文档内容功能——俗称「一指禅」。Windows 用户一直垂涎这种功能,虽然 Windows 资源管理器也可以通过侧边栏预览,但是这种方式开启后任何选中都会预览,占用大量资源,同时支持的文件内容类型也有限,还会有反馈带来奇怪 bug。

这催生了 Windows 同名第三方开源插件 QuickLook,行为几乎与 macOS Quick Look 一致,通过空格快速预览,同时支持通过 引入插件的插件 形式支持预览 markdown、jupyter notebook、电子书等更多格式文件,并且支持在 Directory Opus、FilesOneCommander 等第三方文件管理器中使用。

MacBook 触控板和妙控板凭借着超大的触控面积、以假乱真的震动体验和 macOS 软硬结合,造就了曾经以及当下最优秀的触控板体验。许多 macOS 用户或许和我一样并不愿意使用鼠标,而是更倾向于触控板。其中稍微有些弯弯绕绕就属 macOS 的三指拖拽,如此好用的功能就藏在辅助功能里。

当然随着微软给出精确式触控板的驱动和建议硬件规格,也体现出 Windows 对于触控板的上心,目前绝大多数 Windows 设备触控板也都支持精确式触控板,相当一部分产品日用体验已足够优秀。可惜的是即便系统对于多点触控的支持已经覆盖从二指到四指,但是三指和四指滑动手势略有重合且使用频率不高,Windows 也没有给出类似 macOS 的三指拖拽功能。

好在可以通过插件 ThreeFingerDragOnWindows 在 Windows 上实现 macOS 的三指拖拽,依赖 .NET 运行环境实现。使用前请确保通过触摸板设置中禁用「轻点两次并拖动以多选」行为和所有默认的三指轻扫行为,这样拖动操作才不会受到干扰。

相较于 Windows 10 主题色、背景和明暗模式的割裂设置,Windows 11 将更统一、更完善的「个性化 – 主题」设置提到更优先位置,并提供若干预设主题。但是 Windows 11 仍然没有 macOS 那样的自动切换深色模式功能。Windows Auto Dark Mode 支持通过设定固定时间或跟随该定位的日出日落时间自动切换深色模式,同时可以自定义深色、浅色模式对应主题。

在前文提到:

目前单独备份系统的意义远不如备份文件,通过链接把一些应用的数据文件夹(例如微信保存的文件)link 到其他分区、外置存储乃至云端上……

所谓「链接」,在文件系统中指的是软链接(符号链接)和硬链接──两种创建文件引用的方法。软链接(符号链接)是指向另一个文件或目录的路径,可以跨文件系统,类似于快捷方式;如果原文件被删除,软链接会失效。硬链接是直接指向文件数据的引用,两个文件共享相同的物理数据块,它们的内容完全一致,删除一个硬链接并不会影响到文件的实际数据,只有所有硬链接都删除时,数据才会被清除。硬链接只能在同一文件系统中创建,其实文件管理器上的几乎所有文件都可以被看作是硬链接。

更详细关于链接的介绍可以参阅少数派文章 符号链接、硬链接及其在 Windows 上的应用举例。我对 Link Shell Extension 的初识也正是在这篇文章中。一个最常见的案例是,对于 小而美 微信可以将其 Files 文件夹移动至 OneDrive,然后通过符号链接将其链接回原位置,这样既可以保证微信正常运行,又可以实现微信保存的文件备份。该插件的多版本硬链接功能会自动分析和前一次的差异并对不变的内容创建硬链接,实现增量备份,但该功能不能链接到外部存储,仅适合在同盘做备份版本管理。

特别注意,少数派文章中介绍的「中键拖动」快速创建链接操作适用于 Windows 11,正确操作应当修改为使用右键拖动。

虽然 Windows 自带输入法对于绝大多数用户已经足够好用。但是我有跨设备需求,特别是需要兼容 macOSWindows 双系统,这导致明明两者的系统自带输入法都可圈可点我都率先排除。而高度自由、高度定制的 RIME 进入我考虑范围。在 Windows 上通过 Weasel、在 macOS 上通过 Squirrel 实现 RIME 输入法的部署,在 Linux 上还有诸如 ibus-rime 等多种版本。

但 RIME 的高度自由伴随的也是较高准入门槛。好在开源项目 oh-my-rime 及其 配套配置教程 算是相当程度上降低这种门槛。但这种打包配置并未限制你设置自由度,你依然可以根据自己的需求自行修改配置文件,例如取消 Shift 切换中英文、更改翻页快捷键和以词定字快捷键等等。

许多功能和其他配置在 oh-my-rime 项目教程中也有提及,这里单独展开讲一下多设备同步。虽然该教程中也完整提到同步设置,但是同步行为是要用户手动触发的,而平时工作中很可能忘记触发。更优雅的方案是通过 Windows 的计划任务触发同步:

OpenAI 推出全新 Canvas 工具,帮助用户更好地写作和编程 ,以及完整「Canvas」 的系统提示词泄露

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

推出了一款叫做 Canvas 的新,用来帮助用户更好地与 协作写作和编程。

OpenAI 推出全新 Canvas 工具,帮助用户更好地写作和编程 ,以及完整「Canvas」 的系统提示词泄露

写作的快捷方式包括:

编程的快捷键包括:

模型功能

详细介绍:https://openai.com/index/introducing-canvas/

你是 ChatGPT,由 OpenAI 训练的大型语言模型。

JAILBREAK PROMPTS FOR LIBERATING MODELS. Contribute to elder-plinius/L1B3RT45 development by creating an account on .

ChatGPT Canvas 全新 AI 写作、源码、文本编辑工具,功能测试

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

最近推出会主动思考推理的「 o1-preview 」,以及更即时、自然的「高级语音对话模式」后,今天又再次推出新功能:ChatGPT Canvas」,这是基于 GPT-4o 架构开发的全新 写作、源码编辑界面。让 ChatGPT 不再只能对话,而可以进行更深入、准确的内容创作工作。

第一波更新中,ChatGPT Plus 和 Team 用户会先获得 Canvas 功能,而全球的企业和版用户将会在下周获得使用权限。并且 还计划在 Canvas 正式发布后,向所有 ChatGPT 用户开放这项新的人机协作界面。

实际测试后,我觉得可以把「ChatGPT Canvas」想象成一种 AI 文本、源码,在这个中,人和 AI 可以更有效率的协作,共同编辑更好的内容成果。

以前的 ChatGPT 是即时通,一切内容要在对话中生成,也只能用对话引导 AI 去生成、修改,这很多时候会有点麻烦,常常在问答的过程偏离主题,难以指定要修改的部分,容易愈改愈乱,再也回不去之前更好的版本。

但是「ChatGPT Canvas」能够解决上述问题,它让人与 AI 在一个类似文本编辑的界面中讨论,就像多人一起编辑一份在线文件那样,可以一起处理文字、源码内容,可以针对任何指定段落修改,能够整合人与 AI 各自编写的内容,最后一起合作完成一份文本。

于是, ChatGPT 不再只是「对话软件」,而可以当作真正的「AI 文本内容、源码内容编辑器」,你可以利用来处理下面的工作流程:

在这篇文章中,我通过一个完整的写作实测案例,带大家了解 Canvas 的操作流程、快捷功能以及它如何帮助创作者解决具体问题。

ChatGPT 的 AI 模型中切换到「GPT-4o with canvas」模式,下面我测试看看利用这个新界面编写一篇文章。

首先,我先利用原本常用的 AI 指令结构,结合我的想法草稿,请 ChatGPT 改写成一篇完整的文章内容。

ChatGPT Canvas 全新 AI 写作、源码、文本编辑工具,功能测试

当 AI 开始编写文章草稿,或是源码时,「GPT-4o with canvas」就会像是下图这样,进入独立的文件编辑界面。

进入独立的 Canvas 编辑界面后,最大的优点就是,我们甚至可以直接在上面修改 AI 生成的文章内容。

于是这样一来,可以实现更流畅的「人与 AI 的协同写作流程」。

以前 AI 生成的内容,我们有不满意的地方,无法人为的介入修改,只能让 AI 自己去改,而常常愈改愈乱。

现在, AI 生成的草稿,我可以直接在编辑界面介入,修改成我觉得更好的版本,然后再请 AI 接续调整,实现真正的人与 AI 协同合作。

「GPT-4o with canvas」不只可以修改内容,也可以调整粗体、标题样式,就像是一个结合 AI 功能的简易 Word 编辑器,还支持 markdown 编辑格式

以文章写作的 ChatGPT Canvas 界面为例,编辑界面右下方会出现一排「快捷功能菜单」,文章写作、源码编辑会有不同的对应菜单。

「快捷菜单」中有很多默认功能,可以快速修改整篇文章、源码的内容。

例如其中有一个「阅读等级」的调整按钮,可以把文章的内容改成从小孩子到博士等级的不同风格与深度。

下面是一篇我让 AI 改写的、文章,我让 ChatGPT 把原本相对专业的文章内容,改成适合小朋友阅读的版本。

而下面是同一篇第二大脑的教程文章,我让 ChatGPT 把原本相对口语的草稿,改成更精炼、专业的文章风格。〔可以跟上面的小朋友版本进行比较,都是同一篇草稿的不同阅读等级修改。

通过快捷功能,一个按钮就可以快速转换我们需要的文字深度与风格。

以文章编辑界面为例,具备下面几种快捷功能:

下图是按下「建议编辑」后,ChatGPT 针对不同段落提供的编辑建议,我只要按下允许,就可以让 AI 直接进行修改。

这是不是跟以前的对话生成内容有很大的不同?现在 ChatGPT 可以针对一篇长篇文章,提供各种分段的调整、建议与修改。

除了整篇文章的快捷修改、建议外,在「ChatGPT Canvas」的编辑界面中,我可以任意圈选一段觉得有问题的段落,这时候会浮现「Ask ChatGPT」的按钮,点击后,我可以输入这一段的修改建议,让 ChatGPT 去进行指定段落的调整。

这是不是很像我们在 Google 文件上提供伙伴文章修改建议?只是这一次,AI 成为我的伙伴,听从我的指令去修改。

更棒的事,在「ChatGPT Canvas」中不用再怕 AI 修改内容后,回不去之前可能更好的版本。

因为在编辑器中,自带了可以还原之前版本的功能,而且不只可以还原到前一个版本,也可以回到上上版、上上上版,或是跳回最新版本。

经过简单的文章写作实测,我们可以看到 ChatGPT Canvas 的可能性,它突破了传统 AI 对话生成文本的限制,将人机协同的创作流程无缝结合,无论是在写作还是程序设计的应用场景中,Canvas 以更灵活的编辑能力和快捷的功能,帮助用户实现了更精准、有效的工作流程。

对于我相对熟悉的文章创作者而言,ChatGPT Canvas 不仅提供了文稿即时的优化、编辑建议,还能调整文本的阅读等级和风格,帮助你快速针对不同的受众进行调整。而对于程序员,Canvas 的源码、注解添加与错误修正功能,让程序开发过程变得易于维护。

这样的功能让人与 AI 之间的互动变得更具深度,不再只是被动地接受 AI 的生成内容,而是能主动参与其中,实现真正的协同创作。

无论你是需要改进写作的创作者、需要帮助调试的程序员,还是想要在教育中使用 AI 辅助的教师或学生,ChatGPT Canvas 都是一个值得一试的工具。

为了抢夺 AI 人才,马斯克在 OpenAI 旧总部开了一场招聘会

10 月 1 日,OpenAI 在旧金山召开了年度开发者大会「DevDay 2024」,此时的 OpenAI 即将获得一笔 66 亿美元的融资,创下硅谷历史上最大融资的历史。

就在同一天稍晚时候,马斯克在位于旧金山的 OpenAI 旧总部,召开了一场别开生面的 AI Party。

晚上 8 点半,由 AI 实时编写生成的音乐停止播放,马斯克在保镖的簇拥下,站上一张桌子,向与会者发表讲话:

我们想创造一个尽可能良性的超级 AI。

以这句话为引子,马斯克讲述了为什么要创办 xAI,并将其搬到近十年前他帮助创办 OpenAI 的同一间办公室。

2015 年,马斯克与 OpenAI 的 CEO Sam Altman 以及一群志同道合的伙伴共同创立了 OpenAI,但仅仅三年后,他就退出了董事会。

虽然当时他给出的理由是特斯拉专注于人工智能,并认为自己的公司与 OpenAI 未来可能会有冲突,但又推翻了这个说法,声称分手的原因是理念不合,在 2023 年,马斯克甚至一度以 OpenAI 违反了自己的非盈利使命为由,一纸诉状将 OpenAI 送上了法庭,但根据曝光的邮件来看,马斯克是在试图获得 OpenAI 的控制权,包括要求 CEO 职位和多数股权,未果后选择离开。

接下来的事情就简单多了,既然掌管 OpenAI 失败,那就自己搞一个。

2023 年 3 月,在社交媒体平台 X 办公楼的第十层,xAI 诞生了,初期的团队成员由特斯拉、SpaceX 以及他 17 岁的儿子、表兄弟和管理家族办公室的 Jared-Birchall 的儿子组成,后续又招募了来自 OpenAI、微软以及 Meta 的研究人员,目的是在三个月内超越 OpenAI,提供一个有竞争力的大语言模型。

此后,马斯克从合伙人摇身一变,彻底成为了 AI 市场新的挑战者,只是想要与 OpenAI 等公司过招,显然不是一件很容易的事情。

在外部竞争与内部压力下,xAI 的第一个模型 Grok 于 2023 年底推出,这是一个面向 X 的付费用户的聊天 AI,不过,Grok 的核心功能目前还比较依赖外部技术,比如搜索方面依赖微软的必应,在查询重写方面则依赖 Meta 的开源 Llama 模型。

这样的依赖带来了不可控的风险,比如一个多月前,xAI 与黑森林实验室(Black Forest Labs)达成协议,为图像生成提供支持,但由于该功能缺乏其他图像生成器设置的防护措施,人们可以随意生成穿着内衣的泰勒·斯威夫特以及拿着枪的卡马拉·哈里斯。

对此,马斯克在 X 上回应说,与外部技术的合作有利于让 xAI 能更快地在 Grok 中推进自己的研发。

一位熟悉 xAI 工作内容的人士称,除了目前已有的功能外,xAI 还在开发语音和搜索功能,就像 OpenAI 和 Meta 的语音模式一样,Grok 也能与人对话,并提供 X 上的新闻故事摘要和热门话题。

想发展得更快,人才是关键。

于是,当 OpenAI 的 CEO Sam Altman 刚在几个小时前向高朋满座的开发者发表完演讲,马斯克后脚就来挖墙脚了:

加入 xAI,帮助建立一个有用的 AI。

但是,这个世道下的 AI 人才可谓是炙手可热,最优秀的开发者可以轻松赚到数百万美元,想要将这些人收入囊中,还需要报酬之外的针对性招揽。

比如其中许多人都对 AI 的未来抱有利他主义的愿景,他们希望自己参与创造的 AI 可以通过某个途径帮助世界变得更好,而不是单纯的获利工具。

马斯克看中了这一点,于是在这场 Party 中尽力去迎合了这部分开发者的利他心理,顺带还踩了一下 OpenAI:

ChatGPT 是封闭的、以利润最大化为目的的人工智能,所以我无法信任它们,AI 不该被 OpenAI 或 Google 这样的公司控制,它们总是将最佳模型保密。xAI 将改变这一点:AI 模型属于 xAI,但会与全世界共享。

满足了理想主义的开发者后,马斯克也不愿意放弃实用主义的开发者,除了这些虚无缥缈的东西外,xAI 的确有着自己的吸引力:小步快走。

与像 OpenAI 这样规模更大的竞争对手相比,在 xAI 的优点非常明显:较小的团队与较短的开发周期,使 xAI 可以加快步伐,快速创新。

这种灵活的工作环境意味着开发者可以更自由地实践想法,而不是被繁琐的审批流程束缚。快速迭代的节奏也让开发者能更快看到自己的成果,吸引那些渴望看到 AI 快速发展的人,赋予他们更多成就感与掌控力。

双管齐下,马斯克的这场「Party」,井然成为了一场精心准备的招聘大会,也是 xAI 面对逐渐白热化的 AI 市场的军备竞赛。

此时,OpenAI 凭借其大语言模型和新一轮 66 亿美元的融资,继续推动人工智能前沿技术,并保证自己的霸主地位;Google 利用其强大的计算资源和深厚的技术基础,专注于开发更强大的 AI 模型,并在个人终端上率先落地;而 Anthropic 以安全和可靠性为核心,致力于构建对人类更友好的 AI 系统。

三家公司在研发、人才和计算资源上展开了激烈的竞争,争夺 AI 领域的领导地位。

而马斯克对 xAI 的期望也不外如是,能像 SpaceX 在火箭领域一样,xAI 也要在 AI 领域占据主导地位,并相当乐观地预测在未来五年中,OpenAI、Anthropic、Google 和 xAI 将是这场竞赛的主要参与者。

这并非自大,今年 5 月,xAI 已经从安德森-霍洛维茨(Andreessen Horowitz)、光速创投(Lightspeed Venture Partners)和红杉资本(Sequoia Capital)等几位知名投资者那里获得了 60 亿美元的融资,公司估值达到 240 亿美元。

并且有消息称,OpenAI 的首席执行官 Sam Altman 正在执行一项全球性的任务,与阿联酋领导人、亚洲芯片制造商和美国官员会面,为 36 家半导体工厂和数据中心筹集了 7 万亿美元,旨在推进 OpenAI 对 AI 的研发,而在最新一轮融资后, Altman 直接要求这些支持者不要投资 xAI 这样的竞争对手,以杜绝更强的竞争者威胁到自己,也算是侧面印证了 xAI 的潜力。

在这场既是招聘会,又是宣战书的 Party 最后,马斯克毫不遮掩自己的野心和策略,他把 xAI 比作一家超音速喷气飞机公司,与冷战时期的 SR-71 黑鸟侦察机相提并论:

SR-71 黑鸟从来没有被击落过,因为它只有一个策略:加速,用不断的加速去解决所有麻烦。

用 SR-71 作为例子,的确非常巧妙,xAI 现在需要的就是不停的加速、不停的加速,才有希望赶上三个巨头的脚步,并在三足鼎立的格局中插上一脚。

但需要注意的是,SR-71 黑鸟侦察机虽然使用了当时最强的技术,在滑行时却依然漏油。只有在加速到巡航速度飞行时,金属的膨胀才可以密封所有泄漏点,解决漏油的问题。

也就是说,一旦 SR-71 出问题,它唯一能杀死的只有自己的飞行员,而不是敌方的有生力量。

晚上十点整,所有与会者离开现场,这场 AI Party 在黑夜里落下帷幕,但 AI 领域的正面交锋,正在拉开序幕。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 中文语音对话测试心得,头脑风暴、即时口译、冥想教练

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

之前让许多人惊艳的「进阶语音模式」功能,今天开始陆续针对 Plus 与 Team 用户推出。这个模式最大的特色,就是可以用更加自然〔接近于真的跟一个人聊天〕的对话方式,让用户通过语音与 进行交流。

相较于旧版的功能,新的语音交谈过程更加流畅、AI 反应迅速、接话过程几乎没有等待,也能随时打断 AI、插入新话题,除了可以支持多国语言在同一个对话中自由切换外,还能让 AI 模仿或调整各种对话风格等等。

那时候在 推出的官方中,这个 AI 进阶语音不只是更自然流畅而已,他还可以结合看的功能〔摄影镜头〕来回答用户问题,或是在语音中识别出用户的情感而提供对应的回应,这些跟原本拟人化的语音结合在一起,效果确实令人惊艳。

不过目前的「进阶语音模式」功能,似乎还没有当时视频中「完成体」的样子,在我实际的测试中,目前的〔2024/9/25〕的「进阶语音模式」有下面这些特点与限制:

ChatGPT 中文语音对话测试心得,头脑风暴、即时口译、冥想教练

我测试了几个 ChatGPT「进阶语音模式」的情境,下面跟大家「纯心得」,之所以叫做纯心得,就是因为我没有时间录制成视频再剪辑,所以真实过程其实是手机 上的语音对话,但我就用事后图文的结果来说明

首先,我之前就尝试过,利用跟 ChatGPT 进行一来一往的语音对话,一起构思一个企划案、文章草稿,例如,ChatGPT 假装成一个采访者,采访我对某个主题的想法,引导我把想法说出来,最后我就可以把这些内容转换成报告或文章。

旧版本的时候,其实我就已经觉得满好用的,只是那时候 ChatGPT 的每一次回应「要等很久」,所以对话过程相对生硬很多。

但使用新版的「进阶语音」模式,整个对话讨论过程完全不需要等待,AI 几乎都可以立即回应、接话,而当我 AI 说的东西走偏时,我也可以立即打断他,重新拉回主题。

最大的改变就是整个过程会更迅速,更节省时间,而脑中的想法可以更顺畅地说出,更有头脑风暴的感觉。

我喜欢用这种来回对话的方式,把很多想法激发出来。

经过完整的语音讨论后,请 AI 统整前面的讨论,整理成报告、文章的草稿。

不过,最后这一段我用的是文字的指令,当我这样做之后,这个聊天室就不能再进入进阶语音模式了

其实现在有很多 App 可以做类似的事情,无论是真人还是 AI,有一个在线家教,通过语音来教我们学习一些事情。

于是我试试看让 ChatGPT 通过「进阶语音模式」,当一个冥想教练。

首先,我先试试看在对话中让他调整语调。〔毕竟冥想教练的语调应该更缓和、舒服一点〕

然后我请他当一个冥想教练,通过进阶语音模式,引导我进行深呼吸的练习,或是引导我做大脑放松,效果还可以,这看起来也是一个适合 ChatGPT「进阶语音模式」做的事情。

当然,在这种特别需要情感的情况下,AI 的声调听起来还是比真人的语调生硬一点点。

或者,我也请 ChatGPT 通过「进阶语音模式」当一个英文家教,带我练习口说。

相较于旧版本,因为现在对话过程更流畅,所以更有面对面家教的感觉。例如我先跟他说明想要学习的背景,通过讨论,我们决定一起来练习旅行中的英文。接着 AI 提示我可以先练习餐厅中使用的英文,于是他先说几句如何点餐的用语,然后要求我照着念一次,并且会给我即时回馈。

这部分的过程非常顺畅也满有用的,而且可以通过对话随时调整成自己想要学习的内容,比很多固定的英文学习 App 更好用。

我也尝试看看把这样的「进阶语音」当作翻译来使用看看,以后如果有旅行、会议场合,可否帮我更快速、流畅的翻译双方沟通的内容呢?

首先,我进入语音对话后,先做一些设置,请 ChatGPT 充当即时口译的角色,并告诉他听到什么语言时,要口译成什么语言。

然后我说了一段中文,他很顺畅地直接翻译成正确的日文内容,当然,是用说的说出来。

然后我尝试在不同的语言之间切换,ChatGPT 的 AI 语音都可以即时口译成我需要的另一种语言。

而且当使用台语〔闽南语〕沟通时,ChatGPT 的 AI 语音也能听得懂,并且也会用台语回答。

整体来说,昨天初步测试,上述几个应用情境,对我来说就可以生成很大帮助:

使用 ChatGPT Plus 或 Team 版本的用户,值得试试看。

OpenAI 不 Open 了?公司重组、高层地震,但也没坏得那么糟糕


OpenAI 不 Open 了?

根据以往多家可靠外媒的爆料,以及 OpenAI 这些时日以来的举动,上面的疑问句或许也可以换成陈述句。

今天凌晨,据路透社报道,OpenAI 计划重组为营利性共益公司,不再由非营利性董事会控制,不过,这一计划仍在与律师和股东商讨中,完成重组的时间表仍不确定。

OpenAI 重组后的公司结构将类似于老对手 Anthropic 和埃隆·马斯克的 xAI。这是一种特殊的企业形式,旨在追求经济利益的同时,也将致力于促进社会责任和可持续发展。

报道称,未来 OpenAI 的非营利组织将继续存在,并拥有这家重组后的公司的少数股权。

消息人士表示,重组后的 OpenAI 公司价值可能达到 1500 亿美元,而这却取决于能否颠覆公司结构并取消投资者回报上限。

路透社此前曾报道称,取消回报上限需要获得 OpenAI 非营利委员会的批准,这个董事会由 Altman、企业家 Bret Taylor 和其他七名成员组成。

消息人士补充说,鉴于 OpenAI 营收的快速增长,本轮大规模融资的投资者需求旺盛,可能会在未来两周内敲定。

Thrive Capital、Khosla Ventures 以及微软等现有投资者预计将参与投资,英伟达和苹果在内的新投资者也计划投资。红杉资本也在洽谈回归投资事宜。

路透社报道称,OpenAI 的新一轮融资预计以可转换票据形式出现,若重组不成功,OpenAI 需与投资者重新谈判估值,可能以较低数字进行转换。

值得注意的是,OpenAI 的掌舵人 Sam Altman 也将首次获得公司股权。

目前尚不清楚 Altman 将获得多少股权。而作为亿万富翁的他曾经表示,「我没有 OpenAI 的股权,我做这项工作是因为我热爱它。」

不过,Altman 也没有完全说实话, 他并不拥有 OpenAI 的任何股权,但他拥有 Y Combinator 的股权,而 Y Combinator 拥有 OpenAI 的股权。

OpenAI 发言人表示:

我们将继续专注于打造造福于每个人的人工智能,我们正在与董事会合作,以确保我们能够以最佳状态成功完成使命。非营利组织是我们使命的核心,将继续存在。

除了公司结构的地震级重组,OpenAI 目前也面临着高管离职潮的困扰。

从去年 Sam Altman 被罢免开始,OpenAI 的内部动荡似乎从未结束,最近一段时间更是频繁引发高层地震。

今天凌晨,OpenAI 的首席技术官 Mira Murati 突然宣布离职。

在 OpenAI 今年最重要的一场发布会,也正是由 Mira 来发布新模型 GPT-4o。

8 月初 OpenAI 联创、重要元老级人物 John Schulman 宣布从 OpenAI 离职。除了 Schulman 的离职, OpenAI 总裁 Greg Brockman 也正在休长假,而去年才加入的产品负责人 Peter Deng 也已经离职。

在 Mira 宣布离职几个小时后,OpenAI 首席研究官 Bob McGrew 和研究副总裁 Barret Zoph 也陆续官宣离职计划。

对此,Altman 在 X 平台暗戳戳地表示,Mira、Bob 和 Barret 是在相互独立、友好的情况下做出这些决定的。注意,这里划个重点,「独立且友好」。

他进一步说道:

领导层变动是公司的正常现象,尤其是那些发展如此迅速、要求如此苛刻的公司。

但我们不是一家普通的公司,我认为 Mira 向我解释的原因(从来没有一个好时机,任何不突然的事情都会泄露,而且她想在 OpenAI 处于上升期的时候这样做)是有道理的。

在以上两则消息在占据主流舆论视野的同时,另一则关于 OpenAI 视频生成模型 Sora 的消息也正在引起广泛的关注。

还记得今年的 2 月份发布的 Sora 吗?

据外媒 The Information 的报道,OpenAI 正在训练新版本的 Sora,希望能生成更高质量、更长的视频剪辑,并且训练需收集数百万小时高分辨率、多种风格和主题的视频数据。

此前,Sora 曾被曝实际效果不及预期,距离被捧上神坛的「现实不存在了」还遥遥无期。

  • 生成视频速度慢,最初需 10 多分钟才能生成 1 分钟左右短片;
  • 使用困难,电影创作者需生成数百个剪辑才能找到可用的;
  • 风格难保持一致,物体和角色在不同剪辑中难保持一致;
  • 存在物理学和解剖学等错误;

改进后的 Sora 模型将有望解决上述问题,对于创作者和电影创作者而言也是个好消息。

群狼环视之下, OpenAI 似乎在过往总是急于发布演示 demo,但产品却并未真正准备好实际商用落地。这也是这也是 OpenAI 的老毛病了。

ChatGPT 高级语音助手和 SearchGPT 也都存在类似的情况。

两周前,扎克伯格表示,Meta 更倾向于发布新产品以获取反馈,而不是等到产品完美无缺才发布。抛却企业竞争的恩怨情仇,扎克伯格和 Altman 在这一点上倒是聊得来。

而在国产 AI 视频模型一片形势大好,甚至逆势反超的情况下,Sora 的再次亮相也必然需要更精心的雕琢,既要雷声大,也要雨点大,也希望届时能让我们看到一些亮眼的新变化。

写在最后,如果换个角度想,OpenAI 频发的离职潮也不全然是一件值得大加抨击的坏事。

人才是 AI 行业发展的第一资源。Flux 最近的爆火生动诠释了聚是一团火,散是满天星的经典真理。

一批批拥有成熟 AI 研发和管理经验的高管陆续从 OpenAI 离开,也如同种子一样播撒到整个 AI 行业,更好地滋养着行业的茁壮成长。

最典型的标杆当属 Anthropic。

从 OpenAI 出走的 Anthropic 创始人给后来者蹚出了一条新路,而这家公司最近也被曝出正在洽谈新一轮融资,估值预计将达到 300-400 亿美元。

于用户而言,如果说 AI 行业遵循的是没有赢家的残酷法则,那么用户无疑是站在胜利者的位置,享受着技术内卷带来的益处。

于 Altman 而言,尽管他因背离 OpenAI 成立初衷而备受争议,但高层大换血也可能让这家正处于强劲上升势头的 AI 独角兽拧成一股绳,成为一驾唯 Altman 意志的战车。

换言之,抛却道路选择的正确与否,OpenAI 何尝又不是在迎来一种新生?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 们能讲人话后,AI 污染互联网将变本加厉

人类最担心的事情还是发生了。

随意在网上看几篇新闻,却分不清是出自 AI,还是人类之手;忙里偷闲时打把游戏,也分不清队友是 AI 人机还是真人。

直播间里,明星数字人自顾自地吮鸡爪,与卖力吆喝的真人助播形成割裂的场景……

据外媒 404 media 报道,一个原本用来追踪和分析多种语言中不同单词和词汇流行度和使用频率的项目——Wordfreq,现在也成了最新的受害者。

阳光明媚的地方总有阴影潜伏,显然 Wordfreq 不是第一个受害者,也不会是最后一个受害者。

换句话说,最终为之买单的或许还是人类本身。

GPT 们污染语言,人类要为之买单

「生成式 AI 污染了数据,我认为没有人掌握关于 2021 年后人类使用语言的可靠信息。」

这句来自 Wordfreq 项目创建者罗宾·斯皮尔心中的呐喊,透出了几分无奈与愤懑。

要探究这背后的原委,还得从 Wordfreq 的来历谈起。

通过分析维基百科、电影和电视字幕、新闻报道、以及 Reddit 等网站内容,Wordfreq 试图追踪 40 多种语言的变迁,进而研究随着俚语和流行文化变化而不断变化的语言习惯。

对于语言学家、作家和翻译人员而言,Wordfreq 无疑是一项宝库。但是现在,GitHub 地址上偌大的一句声明「该项目将不再更新」,也悲情地给这个项目敲响了丧钟。

曾经,网络抓取公开数据是该项目数据源的生命线,但生成式 AI 的崛起让 AI 文本开始大行其道。

斯皮尔举了一个典型的例子,过去人们很少使用「delve」这个词,而随着 ChatGPT 将这个词汇变成了口头禅,大有李鬼冒充李逵之势,间而也就让失真的词频统计影响了对人类语言习惯的准确分析。

如果这还不够直观,GPT 们那些陈词滥调,比如「总之」、「综上所述」等词汇的泛滥便是最醒目的警告。

这种趋势也正逐渐渗透到学术写作乃至文学创作中。

一份来自斯坦福大学的报告曾指出,ChatGPT 在短短五个月内,就成了许多专家学者们的「写作神器」。其中在计算机科学领域,几乎每六篇摘要、每七篇引言中,就有一篇出自它的手笔。

随之而来的,便是生成式 AI 对人类写作风格的「大举入侵」。

意大利国际高等研究院的博士生耿明萌的研究成果就像一面镜子,进一步映照出 ChatGPT 的词语偏好,也充分证实了它在学术论文写作中的影响力。

在分析 arXiv 上超过百万篇论文的摘要后,耿明萌发现,论文的词频在 ChatGPT 普及后出现了明显变化。其中,「significant」等词汇的使用频率大幅上升,而「is」和「are」等词汇则减少了约 10%。

多数情况下,生成式 AI 可以让一个创造力 60 分的人变成 70 分甚至更高的分数,但在文本创作中,虽然个人创造力和写作质量有所提高,却在无形中让集体创意变得无趣且同质化。

UCL 和埃克塞特大学的两位学者在《Science》上发表了一项研究,500 名参与者被指派借助 AI 围绕随机主题撰写约 8 行故事,并分析目标受众。

结果显示,借助 AI 的灵感,故事变得更有「创造性」,但这些 AI 生成的故事彼此之间的相似度也惊人地高。

因此,当生成式 AI 文本如同无孔不入的污染物,肆意涌入互联网,对于 Wordfreq 也好,还是人类也罢,怎么看都是利远小于弊。

反爬虫战争打响,Wordfreq 遭殃

Wordfreq 项目的终止算得上是巨头爬虫战争夹缝中的牺牲品。

AI 的发展离不开算法、算力和数据的支持。尽管 AI 生成的文本与人类真实语言相比还有差距,但它在语法和逻辑性方面越来越像模像样。

这片风平浪静的水面之下,一场 AI 爬取与反爬取的无声战争正在酝酿。

在当前的舆论环境中,爬取网页数据似乎成了冒天下大不韪的禁忌,不少新闻报道评论区里充斥着网友的唾弃之声,而 Wordfreq 本质上也是通过爬取不同语言的文本而构建起来的。

在生成式 AI 尚未盛行之时,Wordfreq 也曾度过一段蜜月期。

以往一般来说,只要遵守网站的 robots.txt 文件规定,爬取公开数据似乎也合情合理。这是网站与爬虫之间的一种默契约定,用来指示爬虫哪些内容可以抓取,哪些则不可以。

当一个网站设置 robots.txt 限制协议时,就像竖起了禁止擅自进入的标志牌。如果爬虫违反了 robots.txt 协议,或者采用了突破网站反爬虫技术手段的方法获取数据,那么就可能会构成不正当竞争或侵犯版权等违法行为。

然而,随着模型对高质量数据的灌溉需求日益增长,这场爬取与反爬取的战也愈发激烈。

回顾过去,关于生成式 AI 巨头爬虫与反爬虫数据的纠纷比比皆是。为首突出的自然是 OpenAI 和 Google。

去年,OpenAI 公司特地推出网络爬虫工具 GPTBot,声称用于抓取网页数据训练 AI 模型。但显然,没有哪家媒体愿意被爬虫暗地里薅羊毛。

意识到数据和版权重要性的媒体遵循着一手交钱,一手交数据的商业逻辑。

一项来自路透社研究所进行的研究表明,截至 2023 年底,全球 10 个国家的热门新闻网站中,近一半的网站屏蔽了 OpenAI 的爬虫(Crawler),而近四分之一的网站也对 Google 的爬虫采取了相同的措施。

后来的故事大家应该都很熟悉了,OpenAI 三天两头就被传统媒体起诉,无一例外不是版权诉讼纠纷。直到今年,官司缠身的 OpenAI 才老老实实和新闻出版商建立合作关系。

只是,此前的高墙林立、以及数据收费等策略也让 Wordfreq 也成为了这场「数据荒」的牺牲品。

斯皮尔指出,由于 Twitter 和 Reddit(Wordfreq 包含的网站)已经开始对其 API 收费,这使得网络抓取数据变得更加困难。

「过去免费获取的信息变得昂贵,」斯皮尔写道。「我不想参与任何可能与生成式 AI 混淆的工作,或可能使生成式 AI 受益的工作。」

即便能用金钱换数据,但数据总有用尽的一天。

研究公司 Epoch AI 预测,互联网上可用的高质量文本数据或将在 2028 年耗尽,这一现象在业内被称为「数据墙」,可能成为减缓 AI 发展的最大障碍。

于是乎,不少大模型厂商开始将目光转向合成数据,主打一个用 AI 训练 AI。

用 AI 训练 AI,可能越练越「傻」

我的直觉是,网络上的文本都是狗屎,这些数据上进行训练简直是在浪费算力。

当 Llama 3.1-405B 以掀桌子的实力横扫一众开源大模型之时,领导 Llama 系列的 Meta AI 研究员 Thomas Scialom 在接受采访时发出了如上暴论。

据他透露, Llama 3 的训练过程并不依赖任何人类编写的答案,而是完全基于 Llama 2 生成的合成数据。

Scialom 的说法或许过于粗暴,但也有一定的道理。

互联网每天都在涌现源源不断的数据,但训练 AI 从来就是一个宁缺毋滥的单选题,若数据中满是错误和噪声,模型自然也会跟着学习这些「瑕疵」,预测和分类的准确性可想而知。

而且,低质量的数据往往充斥着偏见,无法真正代表整体数据分布,从而导致模型产生有偏见的回复。教科文组织总干事阿祖莱也曾警告:

「新的 AI 工具有着在不知不觉中改变千百万人认知的力量,因此,即便是生成内容中极为微小的性别偏见,也可能显著加剧现实世界中的不平等。」

不过,合成数据也未必是解决「数据墙」难题的灵丹妙药。

最近来自牛津剑桥的研究人员发现,当模型使用 AI 生成的数据集,则输出的质量会逐渐下降,最终产生无意义的内容,也就是俗称的模型崩溃。

研究负责人 Ilia Shumailov 用了拍照的比喻来形容这一过程:

如果你拍了一张照片,扫描、打印出来并再对其拍照,然后不断重复这个过程,随着时间的推移,基本上整个过程都会被「噪声」淹没。最后,你会得到一个黑暗的方块。

当越来越多 AI 生成的垃圾网页开始充斥互联网,训练 AI 模型的原材料也将遭到污染。

例如,程序员问答社区 Stack Overflow 深受 AI 其害。

在 ChatGPT 爆火之初,Stack Overflow 便宣布「临时禁用」。「从 ChatGPT 获得正确答案的平均比例太低了。」官方在声明中如是吐槽。

专业用户的数量毕竟有限,不可能逐一核实所有答案,而 ChatGPT 的错误率又是显而易见的。当 AI 污染社区环境,彼时无计可施的人类也只能一禁了之。

在图像领域,AI 模型趋向于重现最常见的数据,经历多次迭代后,最终可能连最初的事物都会忘得一干二净。

被看到的这一切指向了一个恶性循环:AI 生成低质量乃至错误信息,与人类数据混淆在一起,这些普遍低质量的数据又被 AI 反复喂养,最终导致肆意泛滥的 AI 反噬自身。

而人类如果意识到昔日的数据足迹会成为喂养自己的养料,或许我们会更加谨慎地对待在互联网留下的每一句话。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 发布最强推理模型 o1!打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

DUN.IM BLOG

DUN.IM BLOG

没有任何预警, 突然发布了 OpenAI o1 系列模型。按照官方技术博客说法,o1 在推理能力上代表了当前人工最强的推理水平。

OpenAI CEO Sam Altman 表示:「OpenAI o1 是一个新范式的开始:可以进行通用复杂推理的 。」

在复杂推理任务上,这款新模型是一次重要突破,代表了 AI 能力的新水平。基于此,OpenAI 选择将此系列重新命名为 OpenAI o1,并从头开始计数。

不知道这是否意味着,GPT-5 这个命名也不会出现了。

简单总结新模型的特点:

OpenAI 发布最强推理模型 o1!打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

现在,该模型已经全量推送,你可以通过 网页端或者 API 进行访问。

其中 o1-preview 还是预览版,OpenAI 还会继续更新开发下一版本。目前使用有一定次数限制,o1-preview 每周 30 条消息,o1-mini 每周 50 条。

和传闻中的「草莓」一样,这些新的 AI 模型能够推理复杂任务,并解决科学、编码和数学领域中比以往更为困难的问题。官方表示,如果你需要解决科学、编码、数学等领域的复杂问题,那么这些增强的推理功能将尤为有用。

例如,医疗研究人员可以用它注释细胞测序数据,物理学家可以用它生成复杂的量子光学公式,开发人员可以用它构建并执行多步骤的工作流程。

此外,OpenAI o1 系列擅长生成和调试复杂代码。

为了给开发人员提供更高效的解决方案,OpenAI 还发布了一款更快、更便宜的推理模型 OpenAI o1-mini,尤其擅长编码。

作为较小版本,o1-mini 的成本比 o1-preview 低 80%,是一个功能强大且高效的模型,适用于需要推理但不需要广泛世界知识的应用场景。

在具体训练过程中,OpenAI 会训练这些模型在回答问题之前深入思考。o1 在回答问题前会产生一个内部的思维链,这使得它能够进行更深入的推理。

通过训练,OpenAI o1 模型能够学会完善自己的思维方式,并且随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而持续提高。

OpenAI 研究员 @yubai01 也点出了 01 的训练路线:

我们使用 RL 来训练一个更强大的推理模型。很高兴能成为这段旅程的一部分,而且要走很长一段路!

据介绍,在测试中,这款模型在物理、化学和生物等任务中表现得如同博士生,尤其是在数学和编码领域表现突出。

在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 只解决了 13% 的问题,而推理模型得分高达 83%。在 Codeforces 编程竞赛中,它的表现进入了前 89% 的队列。

不过,和传闻的爆料一样,作为一个早期版本,该模型还不具备一些 ChatGPT 的常用功能,比如网页浏览和上传文件或图像等多模态能力。

相比之下,GPT-4o 反而会更加胜任许多常见的应用场景。

为了确保新模型的OpenAI 提出了一种新的安全训练方法。

在最严苛的「越狱」测试中,GPT-4o 得分为 22(满分 100),而 o1-preview 模型得分为 84,在安全性方面堪称遥遥领先。

从下周开始,ChatGPT Enterprise 和 Edu 用户也可以访问这两款模型。符合条件的开发人员现在可以通过 API 使用这两款模型,每分钟速率也有所限制。

在这里划个重点,OpenAI 表示,未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限。不过,大概率也会在次数上有所限制。

关于新模型 o1 更多细节,我们很快将在更详细的体验后与大家分享。如果你有感兴趣的问题,欢迎在留言区告诉我们。

官方也放出了更多 OpenAI o1 的更多演示

比如使用 OpenAI o1 来编写一个找松鼠的网页游戏。这个游戏的目标是控制一只考拉躲避不断增加的草莓,并在 3 秒后找到出现的松鼠。

与传统的经典游戏如贪吃蛇不同,这类游戏的逻辑相对复杂,更考验 OpenAI o1 的逻辑推理能力。

又或者,OpenAI o1 已经开始能通过推理,解决一些简单的物理问题,

演示列举了一个例子,一颗小草莓被放在一个普通的杯子里,杯子倒扣在桌子上,然后杯子被拿起,询问草莓会在哪里,并要求解释推理过程。这表明模型能够理解物体在不同物理状态下的位置变化。

落地到具体的应用中,OpenAI o1 还能成为医生的得力助手,比如帮助医生整理总结的病例信息,甚至辅助诊断一些疑难杂症。

热衷于将 AI 与科学相结合的量子物理学家马里奥•克莱恩(Mario Krenn)也向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题,结果,OpenAI o1 也轻松拿捏。

「Strawberry」里有多少个「r」,GPT-4o 会回答错误,但却难不倒 OpenAI o1,这一点值得好评

不过,经过实测,OpenAI o1 依然无法解决「9.11 和 9.8 哪个大」的经典难题,严重扣分。

对于 OpenAI o1 的到来,英伟达具身智能负责人 Jim Fan 表示:

我们终于看到了推理时间扩展的范式被推广并投入生产。正如萨顿(强化学习教父)在《苦涩的教训》中所说,只有两种技术可以无限制地与计算规模化:

学习和。是时候将重点转向后者了。

在他看来,大模型中的很多参数是用来记忆事实的,这的确有助于在问答的基准测试「刷分」,但如果将逻辑推理能力与知识(事实记忆)分开,使用一个小的「推理核心」来调用工具,如和代码器,这样可以减少预训练的计算量。

Jim Fan 也点出了 OpenAI o1 最强大的优势所在,即 o1 模型可以轻松成为数据飞轮的一部分。

简单来说,如果模型给出了正确的答案,那么整个搜索过程就可以变成一个包含正负奖励的训练数据集。这样的数据集可以用来训练未来的模型版本,并且随着生成的训练数据越来越精细,模型的表现也会不断改善。好一个通过自己博弈,实现自己训练自己的内循环。

不过网友的实测中也发现了一些问题,比如回复的时间长了不少,虽然花了更长时间思考,但在一些问题上也会出现答非所问输出不全等问题。

赛博禅心猜测,这次的 o1 有可能是 GPT-4o 在进行一些微调/对齐后的 agent,整体远低于预期,

Sam Altman 也承认 o1 仍然有缺陷,存在局限,在第一次使用时更令人印象深刻,而在你花更多时间使用后就没那么好了。

尽管如此,OpenAI o1 模型在整体的表现上还是可圈可点。

现在,OpenAI o1 模型的发布堪称下半年 AI 模型大战的导火索,如无意外,接下来,其他 AI 公司也不会藏着掖着了。

没错,我点的就是 Anthropic、Meta AI、xAI 等老对手、以及一些潜在深处的 AI 黑马。

并且,从 GPT-4 发布至今,OpenAI 每一次模型发布的最深层意义并不在于性能的强大,而是提供了一种技术路线的标杆,从而带领人们往未知的深水区迈进。

GPT-4 如此,OpenAI o1 也希望如此。

ChatGPT o1 会主动思考推理的 AI,新模型发布实测总结

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

ChatGPT o1 会主动思考推理的 AI,新模型发布实测总结

今天发布「 ChatGPT o1-preview」,是会尝试主动思考的 语言模型, Plus 订阅用户现在就可使用。

根据 OpenAI 的说法:「我们训练这些模型〔ChatGPT o1-preview〕在回应前花更多时间思考问题,就像人类一样。通过训练,它们学会精炼思考过程、尝试不同策略,并能察觉自己的错误。」「如果您正在解决科学、程序设计、数学和相关领域的复杂问题,这些增强的推理能力可能特别有用。」

我自己在讲 ChatGPT 提升工作效率的相关课程时,常常强调一个设计指令的重点:「如果我们写 AI 指令〔 prompt、提示语〕时,可以让 AI 写出自己在想什么、怎么处理任务,通常生成的内容结果会相对更好。

从用户端的角度来看「ChatGPT o1-preview」,就是在 AI 生成内容前,会先展开一步一步的思考流程,它可能会选择思考的策略与切入点,有时会提出一些批判思考,也会更仔细的分析资料细节来做深入处理。

在这个过程中,ChatGPT o1-preview」生成内容的速度其实比 GPT-4o 要慢上不少,可能需要 30~60 秒的思考时间〔或者更久〕,才会开始一步一步的生成内容。

也因为这样的「思考」过程需要耗费更多运算,所以即使是 ChatGPT Plus 用户,在使用「ChatGPT o1-preview」时也有一些限制:

也就是说,目前「ChatGPT o1-preview」比较像是「GPT-4o」的辅助,在进行一些需要深入分析资料、产出有逻辑结果的任务,或者像是科学、数学、程序代码相关领域时,可以运用。

今天这篇文章,我就从自己日常惯用的几个 AI 辅助需求:翻译、摘要、企划思考、文案,以及有时用代码写个小的角度,以实际案例测试看看,「ChatGPT o1-preview」的效果如何,并和「GPT-4o」同样指令下的结果作比较。

当然,如果能从科学、数学与代码的角度来更好,不过从我个人常用角度出发,也想验证看看 ChatGPT o1-preview 是否能满足我的日常工作需求,也提供大家参考。

下面,先提供大家下面测试案例的快速心得比较表格。

翻译结果更简洁有力,文句白话流畅。

用语更符合台湾惯用词汇。

在「白话流畅度」与「专业用语」间平衡得更好。

翻译结果相对较弱,文句不如 o1-preview 流畅。

能计算分数并回馈对错。

无需修改即可使用。

需要多次反复调整才能达到可用程度。

提供具体、逻辑分明的建议步骤和文章架构。

深入分析资料细节。

缺乏深入的分析和明确的建议。

能整理出详细的步骤和操作要点。

细节完整程度略有不足。

缺乏社交贴文所需的流畅性和吸引力。

更注重性和准确性,避免使用版权材料。

可能在细节上不够精准。

首先来试试看翻译〔英翻中〕,我通常会用下面指令来要求 ChatGPT 翻译文章:「把下面这篇 XXX 主题的文章,翻译成中文,请一段一段翻译,尽量在维持原文语意,主题风格的情况下,让上下文的语句更自然通顺,遇到专有名词时附注英文原文,并在第一遍基本翻译后,用台湾惯用词汇与语气进行最后修饰。

下图「左方」,是「ChatGPT o1-preview」翻译的结果。下图「右方」,是「GPT-4o」翻译的结果。

结论是,「ChatGPT o1-preview」花了 57 秒完成一整篇文章的翻译〔文章是 OpenAIChatGPT o1-preview」官方公告〕,但是翻译的结果比「GPT-4o」优异不少。

例如,大多数时候,ChatGPT o1-preview」翻译的文句更加简洁有力〔相对「GPT-4o」〕,可以在许多段落看到这样的差别。

ChatGPT o1-preview」翻译的结果也更白话,相对流畅,用语更符合我指定的中文用语。

ChatGPT o1-preview」在「白话的流畅度」与「专业用语」之间也相对更能拿捏得当,会让人更容易看懂,但又保持专业用语的明确性。

我让「ChatGPT o1-preview」测试直接写一个九九乘法表小工具。o1 同样会先思考撰写工具的逻辑,然后才开始写出程序代码。

我提供的指令是:「我的小孩正在练习记忆数学的 99 乘法表 ,你可以设计一个协助她练习的小游戏吗?

请一步一步分析,从简单的 2 与 5 的乘法表开始,然后练习 3、4、6、7、8、9 的乘法表,根据每一个乘法表设计一个记忆游戏,游戏一开始可以选择要练习哪一个乘法表,进入后可以随机考验该乘法表的熟练度,最好设计有游戏机制。

下面是 ChatGPT o1-preview 第一次生成的 99 乘法表小游戏,我没有做任何的修改,但是正确性、界面美化、操作流畅度都已经达到可用的程度,还会计算分数与回馈对错。

下面是旧版 GPT-4o 第一次生成的小游戏,基本界面可操作,但有一些明显错误〔如下图〕,可能还需要多几次的反复问答,才能调整正确。

我也很常跟 ChatGPT 一起讨论沟通企划案,下面是新旧版本生成的结果比较。

我提供了许多参考资料,请 AI 帮我做产品的企划报告。

ChatGPT o1-preview」在生成过程中,会主动做一些反向思考,与探索不同的报告呈现方式,并且提供一些具体的、逻辑分明的建议步骤,这些不一定有出现在我的指令中。

下面是 ChatGPT o1-preview 生成的版本,我举出其中一部分,它提出了一个撰写初稿的建议方案,并指出了一些明确的试写步骤、文章架构方向。

下面是 GPT-4o 类似段落的版本,虽然也提出了撰写初稿的建议,但整体的说明就比较一般,少了一些明确的、深入的分析与建议。

我也测试了用两个版本去摘要同一篇文章。

下面是 ChatGPT o1-preview 的版本,可以看到文章细节整理得更深入、完整、有条理。

下面是 GPT-4o 版本摘要的结果,基本架构也相似,但细节的完整程度就有一点落差。

不过,ChatGPT o1-preview 也有他不擅长的内容,目前看起来它撰写流畅文案的效果,反而没有 GPT-4o 好〔现在写文案相对效果最好的可能是 Claude 3.5 Sonnet 〕。

下面我请 AI 根据参考资料写出社交贴文上的文案。

ChatGPT o1-preview 版本,AI 会思考撰写过程,撰写时会进行更多安全性、准确性的思考,例如避免使用版权材料

但是多次尝试后, ChatGPT o1-preview 版本目前的结果,比较像是把参考资料更有结构、更有逻辑的分析整理,不太像是社交贴文。

相较之下, GPT 4o 的版本,可能细节没有那么精准,但文案比较流畅。〔如下图〕

以上就是我的初步测试案例与心得,提供大家参考。

OpenAI 发布最强模型 o1 !打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

没有任何预警,OpenAI 突然发布了 OpenAI o1 系列模型。按照官方技术博客说法,o1 在推理能力上代表了人工智能最强的水平。

OpenAI CEO Sam Altman 表示:「OpenAI o1 是一个新范式的开始:可以进行通用复杂推理的 AI。」

在复杂推理任务上,这款新模型是一次重要突破,代表了 AI 能力的新水平。基于此,OpenAI 选择将此系列重新命名为 OpenAI o1,并从头开始计数。

不知道这是否意味着,GPT-5 这个命名也不会出现了。

简单总结新模型的特点:

  • OpenAI o1:性能强大,适用于处理各个领域推理的复杂任务。
  • OpenAI o1 mini:经济高效,适用于需要推理但不需要广泛世界知识的应用场景。

现在,该模型已经全量推送,你可以通过 ChatGPT 网页端或者 API 进行访问。

其中 o1-preview 还是预览版,OpenAI 还会继续更新开发下一版本。目前使用有一定次数限制,o1-preview 每周 30 条消息,o1-mini 每周 50 条。

和传闻中的「草莓」一样,这些新的 AI 模型能够推理复杂任务,并解决科学、编码和数学领域中比以往更为困难的问题。官方表示,如果你需要解决科学、编码、数学等领域的复杂问题,那么这些增强的推理功能将尤为有用。

例如,医疗研究人员可以用它注释细胞测序数据,物理学家可以用它生成复杂的量子光学公式,开发人员可以用它构建并执行多步骤的工作流程。

此外,OpenAI o1 系列擅长生成和调试复杂代码。

为了给开发人员提供更高效的解决方案,OpenAI 还发布了一款更快、更便宜的推理模型 OpenAI o1-mini,尤其擅长编码。

作为较小版本,o1-mini 的成本比 o1-preview 低 80%,是一个功能强大且高效的模型,适用于需要推理但不需要广泛世界知识的应用场景。

在具体训练过程中,OpenAI 会训练这些模型在回答问题之前深入思考。o1 在回答问题前会产生一个内部的思维链,这使得它能够进行更深入的推理。

通过训练,OpenAI o1 模型能够学会完善自己的思维方式,并且随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而持续提高。

OpenAI 研究员 @yubai01 也点出了 01 的训练路线:

我们使用 RL 来训练一个更强大的推理模型。很高兴能成为这段旅程的一部分,而且要走很长一段路!

据介绍,在测试中,这款模型在物理、化学和生物等任务中表现得如同博士生,尤其是在数学和编码领域表现突出。

在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 只解决了 13% 的问题,而推理模型得分高达 83%。在 Codeforces 编程竞赛中,它的表现进入了前 89% 的队列。

不过,和传闻的爆料一样,作为一个早期版本,该模型还不具备一些 ChatGPT 的常用功能,比如网页浏览和上传文件或图像等多模态能力。

相比之下,GPT-4o 反而会更加胜任许多常见的应用场景。

为了确保新模型的安全,OpenAI 提出了一种新的安全训练方法。

在最严苛的「越狱」测试中,GPT-4o 得分为 22(满分 100),而 o1-preview 模型得分为 84,在安全性方面堪称遥遥领先。

从下周开始,ChatGPT Enterprise 和 Edu 用户也可以访问这两款模型。符合条件的开发人员现在可以通过 API 使用这两款模型,每分钟速率也有所限制。

在这里划个重点,OpenAI 表示,未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限。不过,大概率也会在次数上有所限制。

关于新模型 o1 更多细节,我们很快将在更详细的体验后与大家分享。如果你有感兴趣的问题,欢迎在留言区告诉我们。

推理能力遥遥领先,但仍分不出「9.11 和 9.8 哪个大」

官方也放出了更多 OpenAI o1 的更多演示视频。

比如使用 OpenAI o1 来编写一个找松鼠的网页游戏。这个游戏的目标是控制一只考拉躲避不断增加的草莓,并在 3 秒后找到出现的松鼠。

与传统的经典游戏如贪吃蛇不同,这类游戏的逻辑相对复杂,更考验 OpenAI o1 的逻辑推理能力。

又或者,OpenAI o1 已经开始能通过推理,解决一些简单的物理问题,

演示列举了一个例子,一颗小草莓被放在一个普通的杯子里,杯子倒扣在桌子上,然后杯子被拿起,询问草莓会在哪里,并要求解释推理过程。这表明模型能够理解物体在不同物理状态下的位置变化。

落地到具体的应用中,OpenAI o1 还能成为医生的得力助手,比如帮助医生整理总结的病例信息,甚至辅助诊断一些疑难杂症。

热衷于将 AI 与科学相结合的量子物理学家马里奥•克莱恩(Mario Krenn)也向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题,结果,OpenAI o1 也轻松拿捏。

「Strawberry」里有多少个「r」,GPT-4o 会回答错误,但却难不倒 OpenAI o1,这一点值得好评

不过,经过实测,OpenAI o1 依然无法解决「9.11 和 9.8 哪个大」的经典难题,严重扣分。

对于 OpenAI o1 的到来,英伟达具身智能负责人 Jim Fan 表示:

我们终于看到了推理时间扩展的范式被推广并投入生产。正如萨顿(强化学习教父)在《苦涩的教训》中所说,只有两种技术可以无限制地与计算规模化:

学习和搜索。是时候将重点转向后者了。

在他看来,大模型中的很多参数是用来记忆事实的,这的确有助于在问答的基准测试「刷分」,但如果将逻辑推理能力与知识(事实记忆)分开,使用一个小的「推理核心」来调用工具,如浏览器和代码验证器,这样可以减少预训练的计算量。

Jim Fan 也点出了 OpenAI o1 最强大的优势所在,即 o1 模型可以轻松成为数据飞轮的一部分。

简单来说,如果模型给出了正确的答案,那么整个搜索过程就可以变成一个包含正负奖励的训练数据集。这样的数据集可以用来训练未来的模型版本,并且随着生成的训练数据越来越精细,模型的表现也会不断改善。好一个通过自己博弈,实现自己训练自己的内循环。

不过网友的实测中也发现了一些问题,比如回复的时间长了不少,虽然花了更长时间思考,但在一些问题上也会出现答非所问输出不全等问题。

赛博禅心猜测,这次的 o1 有可能是 GPT-4o 在进行一些微调/对齐后的 agent,整体远低于预期,

Sam Altman 也承认 o1 仍然有缺陷,存在局限,在第一次使用时更令人印象深刻,而在你花更多时间使用后就没那么好了。

尽管如此,OpenAI o1 模型在整体的表现上还是可圈可点。

现在,OpenAI o1 模型的发布堪称下半年 AI 模型大战的导火索,如无意外,接下来,其他 AI 公司也不会藏着掖着了。

没错,我点的就是 Anthropic、Meta AI、xAI 等老对手、以及一些潜在深处的 AI 黑马。

并且,从 GPT-4 发布至今,OpenAI 每一次模型发布的最深层意义并不在于性能的强大,而是提供了一种技术路线的标杆,从而带领人们往未知的深水区迈进。

GPT-4 如此,OpenAI o1 也希望如此。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT on macOS客户端app正式面向所有用户开放

OpenAI宣布了适用于 macOS 的 ChatGPT 客户端app正式面向所有用户开放。该应用专为 macOS 系统设计,支持快捷键呼出和多种内容形式的交互。目前仅适用于配备 Apple Silicon(M1 或更高版本)的 macOS 14+,但计划在今年晚些时候登陆 Windows。

ChatGPT on macOS客户端app正式面向所有用户开放最先出现在Justin写字的地方

LM Studio – 傻瓜、一站式本地的大语言模型,支持直接对话和 API 调用

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

LM Studio 是一款将目前主流大模型 LLM 元素打包在一起的,可以让你在自己的电脑上,“0 门槛”运行本地大语言模型 LLM,并且用起来就像 ChatGPT 那样。支持 、Linux。

LM Studio is an easy to use desktop for experimenting with local and open-source Large Language Models (LLMs). The LM Studio cross platform desktop app allows you to download and run any ggml-compatible model from Hugging Face, and provides a simple yet powerful model configuration and inferencing UI.

傻瓜、一站式部署本地大语言模型,大概就是打开电脑 > 双击运行程序 > 开始提问 > 获得 回答这样三步走。

我觉得 LM Studio 就是这样的,它长这样:

LM Studio – 傻瓜、一站式本地的大语言模型,支持直接对话和 API 调用

你唯一需要操心的事情,就是挑选模型,然后使用,就好了。

直接在目前的主流模型托管 huggingface 你需要的模型,比如 Meta-Llama-3.1-8B-Instruct-GGUF,然后找到对应的 Files 页面,挑选你需要的模型,点击那个下载按钮

最终,你将得到一个类似 Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf 的文件,很大,一般都好几个 GB。

LM Studio 默认的模型保存路径在 C:\Users\appinn.cache\lm-studio\models,可以更换:

不过这里注意,你需要使用 ${Publisher}/${Repository}/${ModelFile}这样的路径结构,如上图第二个红色框框,需要将手动下载的 .gguf 模型文件保存在路径的两级文件夹下才能正确识别。

然后,就能提问了。会自动使用你的 CPU、GPU…

LM Studio 也支持 类的服务器,即可以在第三方服务器上使用这个 LLM,就像使用 OpenAI API 一样,只不过这里的 API 服务器是你自己的。

OpenAI 一样,使用过 /v1/chat/completions 、 /v1/completions 、 /v1/embeddings 即可。

全球 AI 产品 Top100 出炉!只有一个国产应用进前十

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

8 月 21 日,硅谷知名投资机构 a16z,根据近半年的数据,选出了前 100 名 应用

大多数人在使用哪些 AI 产品?哪些类别更受欢迎?用户会坚持使用哪些 AI 产品,而不是转瞬即忘?接下来,我们一起来看看。

这已经是 a16z 第三次发布 AI 百强榜单了,第一次是 2023 年 9 月,第二次是 2024 年 3 月,半年一更,频率稳定。

a16z 的评选方法是,基于 Similarweb、Sensor Tower 的数据,每 6 个月排一次名,榜单分成 2 部分:

全球 AI 产品 Top100 出炉!只有一个国产应用进前十

▲网页端前 50

▲移动端前 50

网页端和移动端的 TOP10 里,美图秀秀国际版 Meitu 属于国产,靠粘土滤镜爆红的 Remini 最开始也是出海产品,后被一家意大利公司收购。

接下来我们分门别类地谈谈,首先是通用型 AI 助手。

第三次了,ChatGPT 还是遥遥领先,在网页和移动端都拿下第一,绝对的 killer app

与此同时,ChatGPT 不如对手们增长势头猛烈。谁才是最好的 AI 助理,尚且没有定论。

▲增长指数

黄仁勋爱用的 AI 搜索 Perplexity 在网页端排名第三,并首次入围移动端榜单,正好排在第 50 名,差点名落孙山。

Perplexity 超过 7 分钟的用户平均停留时间,甚至略胜于 ChatGPT

比起 等传统搜索,Perplexity 直接提供简洁、实时、相对准确、可以引用信息来源的答案。数据说明,AI 搜索的形式在一定程度上走通了。

OpenAI 的 Sam Altman 也对这种形式保持认可,然而,OpenAI 的 AI 搜索 SearchGPT 还在小范围地内测,用户比 CEO 更着急。

ChatGPT 定位最像、竞争更直接的产品是 Claude,来自前 OpenAI 员工创立的 Anthropic。这次,Claude 的排名有所提升,在网页端排名第四,好过上个榜单的第十。

今年 6 月,Claude 推出的新功能 Artifacts 突破了聊天窗口的限制,可以实现实时可视化、互动编程等,拓展了用户与 Claude 交互的方式,好评不少。

▲Artifacts

除了早已功成名就的一代目,通用助手的赛道也有一些后起之秀。

字节跳动这次一次性上榜了五个产品:教育应用 Gauth、开发平台 Coze、通用助手豆包、豆包英文版 Cici、照片和编辑 Hypic。

除了 Hypic,其他都是首次出现在榜单,其中,豆包移动端第 26 名、网页端第 47 名,Cici 也在移动端排到第 34 名。

豆包的功能发展得很全面,并且多端覆盖,使用门槛又低,日常场景够用,所以有这么大的用户量,也在情理之中。论做产品和商业化,还得看字节。

另外,AI 助手 Luzia 首次上榜移动端,一来就是第 25 名。

你可能没有听说过这款产品,它主要服务西班牙语环境,全球拥有 4500 万名用户。最初,Luzia 作为 WhatsApp 的聊天机器人出道,但 2023 年 12 月有了独立的 app

除了什么都能聊的通用助手,消费者对于 AI 还有哪些垂直的、特别的需求?

一个重要的趋势是,大家都在用 AI 搞创作,并且创作的形式越来越丰富了。

a16z 的网页端榜单里,52% 的公司支持图像、视频音乐、语音等的内容生成和编辑。

其中包括 7 家新上榜的公司,排名还不低,视频生成工具 Luma 排在第 14 名,音乐生成工具 Udio 排在第 33 名。

和 Udio 同一个赛道、被称为音乐界 ChatGPT 的 Suno,存在感更是暴涨,从今年 3 月的第 36 名,上升到今年 8 月的第 5 名。

榜单和榜单的纵向比较也很有意思,之前的榜单里,大多数内容生成工具围绕图像。

但现在,图像生成的占比降到了 41%,只有一个图片生成工具(SeaArt)首次上榜,视频生成工具出现了三个新面孔(Luma、Viggle 和 Vidnoz)。

端新增产品

Udio 上线于今年 4 月,6 月则是 AI 视频工具爆发的一月,快手可灵、Dream Machine 的 Luma AI、Runway 的 Gen-3 Alpha 接二连三发布。

可以看到,不过半年,AI 在音乐和视频上的输出质量,都卷出了成绩。

至于移动端,最常见的创作形式是编辑图像、视频。相关工具占到榜单的 22%,是移动端的第二大产品类别。

▲Adobe Express

虽然也有初创公司涌现,但排名更高的,是那些在生成式 AI 浪潮里转型、推出更多玩法的传统创意公司。

其中有我们比较熟悉的名字,美图秀秀国际版 Meitu 在第 9 名,字节跳动旗下的照片和视频编辑器、醒图国际版 Hypic,位列第 19 名。

另外,韩国互联网巨擘 Naver 旗下的相机应用 SNOW 第 30 名,内置了 Adobe Firefly 生成式 AI 的 Adobe Express 第 35 名。

之前 washingtonpost 做过一个调查:人们会和聊天机器人说什么?他们分析了数千次对话,第一是搞黄色,第二是完成家庭作业。

最近也有一款很火的 P 肌肉应用 Gigabody,让你提前看看增肌之后的模样。它会产出很多照骗,也会打击健身人群的自信心,因为很可能练了半天,还不如 Gigabody。

举出这两个例子,是为了佐证 a16z 的结论。

a16z 移动和网页端的榜单,都出现了一个很有意思的新类别:美学和约会。

其中包括三个新入围移动端榜单的工具:LooksMax AI(第 43 名)、Umax(第 44 名)和 RIZZ(第 49 名)。

▲移动端新增产品

LooksMax 和 Umax 采集用户的照片并评分,然后给出建议,提升你的魅力。Umax 甚至会给出一个「满分模板」,也就是 AI 眼里你的完美模样。

LooksMax 不仅照顾到了颜控的看脸需求,也会分析用户声音的吸引力。

但它们的用户规模并不大,LooksMax 超过 200 万,Umax 在 100 万左右。

可能和这个赛道太卷有关,上网随便搜搜能够找到大量身体美颜滤镜,减肥、增肌、健身、变胖、换衣服,AI 都能帮忙,我们不再需要在 B 站学习复杂的 PS 教程

但这些应用的套路又都很类似,靠订阅赚钱,能赚多少是多少,Umax 每周收费 4.99 美元,LooksMax 每周收费 3.99 美元。

如果说 LooksMax 和 Umax 是认识更多发展对象的敲门砖,下一步就该用 RIZZ 了。

笨嘴拙舌的用户,可以用它提升回复约会 app 消息的水平。上传对话截图、个人资料等,RIZZ 都可以教你说些高情商表达。

古代的邹忌问身边人「吾与徐公孰美」,童话里的皇后问魔镜谁是世界上最好看的人,现在的人们则在问 AI:我怎么变得更帅、更漂亮、更有魅力,怎么不算一种科技与狠活呢?

食色性也,情感关系未必在人和人之间,也可以是人机。这次,AI 伴侣应用 Character.AI 排在移动端的第十,上次是第十六。

其实,上榜的还有一些尺度更大的 AI 伴侣应用,包括 Janitor、SpicyChat、candy.ai、Crushon 等,但 a16z 没有特别强调出来。

拿 a16z 今年 8 月的榜单和今年 3 月相比,近 30% 的公司是新公司。

如果再拿今年 3 月和去年 9 月的榜单相比,那么这个数字是 40%。

可见 AI 产品竞争之激烈和残酷,新一代 AI 原生产品和公司的发展速度,前所未有地快。

下一个爆款的 AI 产品,可能会是什么?答案或许在社交产品 Discord 出现。

a16z 发现,Discord 的流量,能够体现一个产品有没有潜力,尤其在内容生成方面。

Discord 的好处是,提供了服务器和交流社区,开发者无需构建完整的前端产品,所以它很适合作为一个沙盒,用来验证 PMF(产品与市场契合度)。

很多产品都是从 Discord 起步,构建社区,测试功能,积累用户,然后才有自己的独立,比如 Suno 和

时至今日,Midjourney 还是所有 Discord 服务器邀请流量的第一名。

▲ 在 Discord 受欢迎的 AI 公司

截至 7 月,10 家 AI 公司在所有 Discord 服务器邀请流量中排名前 100,与 1 月相比,其中一半是新秀。

AI 继续发展下去,未来可能连 app 的概念都会消失,人手一个 agent,AI 主动帮我们解决需求,但现在,我们还是从被用户选择的 app 中,一窥 AI 的可用性如何被定义。

常言道「不要创造需求」,产品的成功不在于通过广告等人为方式制造需求和虚假繁荣,而是找到并满足已经存在的、真实的需求。

AI 也是这样,融资、刷屏、炒作之后,依然是沉默的大多数,做出最诚实也最落地的投票。其中,有没有你正在使用并欣赏的产品呢?

We crunched the data to find out: Which gen AI apps are people actually using? And which are they returning to, versus dabbling and dropping?


2024 年 3 月:

Thousands of new AI-native companies are vying for attention. We crunched the data to find out: Which generative AI products are people actually using?


2023 年 9 月:
https://a16z.com/how-are-consumers-using-generative-ai/

镜头的变幻就是故事|Midjourney V5.2 Zoomout 测试

➡阅读更多 AIGC 相关内容

最近一直都非常忙,所以连续 20 来天都没有碰过 Midjourney 了。前两天在社交媒体上看到,新推出的 V5.2 中有一个向外扩写的功能,因为此前已经在 PS+SD 的组合中见过这类拓展画面的应用思路,所以很想看看 MJ 的 Zoomout 能做出什么样的东西来。趁着端午假期这个空档,我集中跑了几波测试,有一些小小的心得,在此记录一下。

总体结论有三个:

1、Zoomout 可以无限次数地向外扩展,但随着镜头的拉远,Midjourney 自身的联想能力并不足以做出任何有意思的画面,不刻意控制地放大出来的画面,到了第 3~5 步之后,就会明显变得乏味和缺乏美感。

2、通过刻意地控制画幅比例、扩张倍数,以及针对性地调整 prompt 的描述,可以利用这个功能讲出有意思的故事。关键在于,使用者对于「镜头语言」的理解,以及对运镜和故事之间联系的掌控程度。

3、对工业设计的辅助甚微,做点「花活儿」可以,一旦涉及到逻辑,依旧不行。

Zoomout 功能的主交互界面

测试内容目录:

1、通过默认的 Zoomout X2 按钮连续放大 3 次

2、通过默认的 Zoomout X2 按钮连续放大 15 次

3、通过自定义 Zoomout 微调构图

4、通过自定义 Zoomout 构建人物画像

5、通过自定义 Zoomout 构建人物性格

6、通过自定义 Zoomout 完善场景氛围

7、在 niji 中应用自定义 Zoomout 构建人物和场景

8、自定义 Zoomout 构建情绪与故事

9、通过焦点变化构建故事的场景

10、通过镜头变化,构建故事的起承转合

以下为部分测试过程记录:

test case no.1:通过默认的 Zoomout X2 按钮连续放大 3 次

⬆ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 3 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:在奔跑的场景中增加了后方的人,有一点点故事性,但继续放大后会明显失焦,花面焦点始终在最开始的小女孩身上,继续放大生成的场景和人物都是模糊的。

test case no.2:通过默认的 Zoomout X2 按钮连续放大 15 次

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:连续 15 次放大图像两倍,不对 prompt 进行修改,也不对画幅做设置。

输出成果:外围拓展的场景越宏大,有效信息和故事性就越低,除了在阴影中无意间冒出的人影,没有任何惊喜和意料之外,拓展的画面也很单调乏味。

test case no.3:通过自定义 Zoomout 微调构图

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:不对 prompt 进行修改,按 1.1 和 1.2 的拓展比例小幅度调整画幅。

输出成果: 初始图像是近景特写,根据图像本身的特点,对画幅进行小幅度地微调来获得完整的全景镜头,以及合适的构图比例。

test case no.4:通过自定义 Zoomout 构建人物画像

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个黄色漩涡图案,然后拓展时改写 prompt 为一只眼睛,进而生成一个带特征的面部局部画面,再次拓展时修改描述词为一个洞穴中的原始部落男性。

输出成果: 成功构建了一个有目标特征「黄色漩涡瞳孔」的男性角色,通过控制拓展比例以达到最终效果—-人物整体和局部特征均得以完整呈现的画面。

test case no.5:通过自定义 Zoomout 构建人物性格

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:先生成一个红色皮夹克的女性胸像,再改写 prompt 获得其坐在摩托车上的局部画面,再改写画幅比例获得完整的人物与车辆的全景照。

输出成果: 成功构建了一个有目标特征「红色皮衣+摩托车」的女性角色,通过控制拓展比例以达到最终效果—-人物细节和整体氛均衡的画面。

test case no.6:通过自定义 Zoomout 完善场景氛围

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:在初次生成的几批图像中,选择合适的画风和画面主体,再根据已有画面特征修改画幅比例。

输出成果: 在选定风格和主体后,将竖幅主体拓展为气势更足的全景影像。关键是拓展比例并非默认的 2 倍或 1.5 倍,而是根据实际需求来控制比例,同时也需要关注怎样的画幅比例可以传达对应的氛围。最终图像画幅比例是 3:1,适合展现有足够细节的宽幅场景。

test case no.7:在 niji 中应用自定义 Zoomout 构建人物和场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、使用 niji 5 的 style original 生成一个细节丰富的初始人物;

step 2、以 1.2 的 Zoomout 比例纵向拓展出人物的半身画像,画幅比例是 1:2;

step 3、以 1.1 的 Zoomout 比例和 2:1 的画幅比例重构画面,得到外围场景;

step 4、以 1.2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成人物全身像;

step 5、改写 prompt 添加「宫殿」关键词,以 1.65 的 Zoomout 比例和 3:2 的画幅比例重构画面,生成人物在场景中的全景画面。

输出成果: 虽然人物细节和场景氛围的融合程度还不错,但因为漫画角色的细节较多,在多次 Zoomout 的过程中,场景的丰富会逐渐抢掉中心人物的视觉焦点。因此在每一次修改画幅比例与关键词的时候,需要多加注意对视觉元素的控制。

test case no.8:自定义 Zoomout 构建情绪与故事

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个情绪和神情符合目标的初始人物;

step 2、改写 prompt 同时添加「马」关键词,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,生成后续画面的基础,此时需要注意人物与马的位置关系,否则后续生成的画面会非常扭曲怪异;

step 3、以 1.05 的 Zoomout 比例和 2:1 的画幅比例重构画面,生成完整的马匹造型与部份环境信息;

step 4、对比改写 prompt 产生的变化,黑发组不改描述词,以 1.1 的 Zoomout 比例和 3:4 的画幅比例重构画面;白发组添加「巨大镜子」关键词,以 1.6 的 Zoomout 比例和 3:4 的画幅比例重构画面。

输出成果:通过控制 Zoomout 的幅度、画幅比例和 prompt 的调整,可以生成指定场景的画面,且人物的神态到位、情绪饱满,整体画面焦点清晰。但美中不足是,构图不够自由。

test case no.9:通过焦点变化构建故事的场景

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一个在河岸上的粽子;

step 2、修改 prompt 为「熊宝宝正准备吃粽子」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面;

step 3、修改 prompt 为「小熊一家在野餐」,以 1.2 的 Zoomout 比例和 4:3 的画幅比例重构画面。

输出成果:通过对 prompt 的修改,控制 Zoomout 的幅度、画幅比例,可以改变画面中的焦点和表达主题,适合不同文化元素之间的混搭。

test case no.10:通过镜头变化,构建故事的起承转合

⬇ 点击以全屏查看图片 Click to view the image in full screen

操作方式:

step 1、生成一幅鲜花山谷的画面,人物要明显;

step 2、修改 prompt 为「一面巨大的镜子在草地上」,以 2 的 Zoomout 比例和 3:4 的画幅比例重构画面,此处竖构图是为了生成较高的全身落地镜;

step 3、修改 prompt 为「少女站在镜子前」,以 1.5 的 Zoomout 比例和 3:2 的画幅比例重构画面,改为横构图是为了囊括少女全身以及环境信息。

输出成果:通过改变画面中的焦点和增加元素,在镜头逐渐拉远的过程中,故事缓缓托出。

➡阅读更多 AIGC 相关内容


我的整体感受是:

通过 Midjourney V5.2 的 Zoomout 无限拓展,一次次修改画幅比例、提示词内容,可以用镜头语言的变化来讲故事了,也可以基于一些初始的「点子」延展成有意思的融合作品。但越是这样,越发显得对话式、指令式的交互界面( SD 那种也不算图形交互 )的局限太大了,我很希望今年之内能发展出图形交互界面。

没错,今年 AI 的爆发指向了一个新的趋势:对话式交互界面。但人类之所以发明绘画,开始通过设计图来制作各式各样的新工具,恰恰就是因为语言本身的效率太低。这个逻辑其实也可以从媒体形态上找到端倪:文字–> 图像–> 视频。仅仅依靠对话,我们无法构建出一个一把剪刀;仅仅通过语言表达的播客,也无法传达任何需要视觉才可以精准理解的信息。对话指令的交互界面与图形交互界面之间的关系,并非只是 dos 和 windows 之间的差异,更重要的点在于,后者可以更直观地完成交互,以及精准地进行创作行为。AIGC 的重点不仅仅只是 AI,而是我们如何使用 AI 进行「Generative Content」。

我说一句话,AI 给我一个东西,这不是创作。

创作是一个生命在主观意志的驱使下,刻意的、有目的地表达其心中所想。

因为 GPT 的爆发而说对话式交互是未来,这样的断言是过于冲动的。只要是一个严肃的创作者,就会立刻意识到,真正的创作一定需要多纬度的交互界面。这其中不仅仅包含对话指令,同样更需要图形界面以及在数字虚拟空间中的三维交互。AIGC 工具与 PS、表格、PPT、思维导图等已有工具的结合,就是这类多维交互的雏形。

那一刻,我们不会等太久。

➡阅读更多 AIGC 相关内容

借行业科普聊了一次 AI 与设计师的关系

上个月去上海之前,@取景框看世界 在微信上邀请我一起做一期关于设计行业的科普视频,面向学生群体做一次对行业整体状况的分享。这次是 B站 向他发起的约稿,也是他频道的主要内容类型之一。答应他后,从上海回来我就根据自己这么些年的体会和反思,录了一期比较掏心窝的内容。由于参与的人比较多,直到前天,节目才终于上线。

🎥 点击图片跳转到播放页面

因为参与的人数比较多,我说的话也比较多,所以在汇总的成片里需要剪掉一些。但我又觉得难得录一期视频(从去年11月到现在都没有更过视频了),为了保证表达的完整性,我还是得有一个自己的版本。但因为实在忙得顾不过来,于是麻烦 @小雨 帮我把这条视频剪了出来。

毕竟是 @怪物尚志 的御用摄影/后期,有他的帮忙,我的视频里头一回多了许多配合文案的动画,比我一个人在镜头前单口相声好看多了。这一期花絮,也在昨天发了出来,跟正片错开一天。

🎥 点击封面跳转到播放页面

这期视频的封面是我昨晚用 midjourney 画的。

在这条视频里,除了科普工业设计的一些基本概念和行业现状,我也特别聊了一下 AIGC 和设计师之间的关系。前两个月虽然一直很忙,但我也一直在关注 AIGC 的动向。这两个月的变化实在是过于惊人了!

以下是我去年八九月用 midjourney 画的一些东西:

然而在这短短半年内,版本已经从当时的 v3 发展到了现在的 v5。ChatGPT 也从 GPT-3 发展到了 GPT-4,坊间传言 GPT-5 的研发已经完成且爬完了全网所有视频,可以直指某一条视频中的某一段话,只是还没发布。可以说开年后的这两个月内,AIGC 的发展速度已经大大超乎了预料,甚至正处于失控的边缘,它们正在开始颠覆一些东西。将来会发生什么,无法预料,但一定有什么事情已经在发生了。

所以我觉得,无论如何,再忙也得重新用起来。光是跟进各种新闻和消息是不行的,midjourney 前两天刚发布了由图片转译成 prompt 的新功能,多模态的 AI 已经不远了,这会更进一步推动人和 AI 之间的交互。我觉得,自己还是得保持使用状态才行。所以前两天我又重新充了值,开始体验它的新版本。

我先试着画了一些机甲的东西,例如这样的:

上面的两张的用 prompt 直接生成的,但下面的两张,是用 /remix 命令修改了部分描述词后的新图。可以看到下面的图和上面的图保持了相关性,于是我想试试,如果用这个命令替换背景会是什么效果,于是有了这组车的图:

上面的两张图是用 prompt 直接生成的,当我用 /remix 替换了背景描述的 prompt 之后,就生成了下面的两张。更换环境之后,车辆的姿态和镜头视角几乎没有变化,车身的反光与环境之间的关系也很自然,这个效果已经可以说非常惊人了!

然后,我随便画了一些白色的机器人站在燃烧废墟上的场景:

用 /remix 替换了机器人配色部分的描述词后,生成了下面这样的图:

对 /remix 有了基本的体感之后,我开始尝试用 /blend 命令来做一些融合的实验。

首先,我随便描述了一个赛博少女,得到一些随机的图:

接着,我再随便生成一个红发少女:

材料准备好之后,开始把它们进行组合。

第一次先尝试融合两张图,一个是游戏画风的机甲人,一个是二次元的赛博少女。

它们俩合成后,得到了以下这个人物:

新角色具备其中一张图里人物的长相特征与体态,也有另一张图的配色和机甲特点。虽然得到的结果具有随机性,但既然可以这样融合,那么应该也可以通过 /blend 命令来得到一些更有目的性的创作。

有了第一次的体验后,第二次我用三张图片进行合成:

图一是现画的半透明金属机器人,图二是上面准备好的红发少女,图三是现画的骑士。

这三个合成出来的新角色,同时具备了细碎的金色细节、波浪红发、银白色盔甲:

但这不是我想要的,我想试试加大红发少女的比例。在垫图的方式下,可以通过 –iw 命令来分配各个图片之间的权重占比,但是在 /blend 中不能这么操作。于是,我想通过把合成的新图作为素材,再一次与红发少女进行融合,并加入机甲的元素来强化她身上盔甲的质感。

二次合成使用的图,如下:

合成出来的新角色我非常满意!

她既有红发少女面部和眼神的特征,又把两副银白外甲融合得非常优雅,也保留了初始半透明金属机器人遗传下来的金色金属关节的特征,又做出了图三机甲的坚硬感和图一外甲的银白光泽。这一次的融合很成功。

但如果 /remix 可以局部替换特征,那么这些没有写 prompt 而是通过 /blend 直接合成的图,能否通过 /remix 加入新的 prompt 来修改已有的特征呢?

为了让实验效果明显一些,我想让盔甲的白色部分比例缩小,增加金属部分的比例,于是就先把这批图重新刷了几遍,直到出现肩甲是金色的变异版本:

然后不断在此基础上进一步变异,强化金色肩甲的特征:

所有图片均可以点击放大下载原图

准备好之后,我在 /remix 中添加新的 prompt:pink armor

以下是修改特征后的结果:

所有图片均可以点击放大下载原图

整体的效果我还是挺满意的。一来,新生成的人物很好地保持了最初红发少女的眼神和神态;二来,金色金属被替换成粉色金属后,金属质感的表达是正确的。虽然头发也一起变成了粉色,这确实是没完全理解指令,但原有的发色搭配新的粉色盔甲也确实不是很和谐。

到此,重新开始用 AIGC 工具的热身完毕,找回一些感觉了。

至于这期视频封面里用到的车图,是我昨晚用 Maserati 和 Ferrari 以及 Apple 和 Tesla 分别杂糅出来的缝合怪。虽然乍一看好像没什么新奇的,但是如果我把去年八月底用 midjourney 画的汽车拿出来对比,就会意识到这是多么疯狂的进化速度了:

上面三个是去年八月用 v3 画的车;

下面这些是昨晚用 v5 画的车:

所有图片均可以点击放大下载原图
视频封面使用的图片
所有图片均可以点击放大下载原图

虽然工业设计有大量的细化和落地工作是 AI 无法干的,但从目前来看,无论是 midjourney 还是 Stable Diffusion + controlNET 都已经可以很好地帮助设计师完成概念发散和快速枚举了。这样的图像质量,通过垫图、remix 和 blend 的组合使用,完全可以在创意初期快速拉出一批高质量的「草图」,设计师可以把更多的精力放在对方案思路的推敲、对细节的考据以及各个环节的沟通协调上。

从今年二三月开始到往后的十一二年,人类社会将迎来一场以破坏为开端的变革和创新。

无论我们是否愿意,都将一起进入新的世界。

❌