Reading view

There are new articles available, click to refresh the page.

Google vs ChatGPT 搜索体验对比实测

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

随着 的新实时搜索功能, ChatGPT 正在将自己定位为传统搜索引擎如 的竞争对手。ChatGPT 以其对话式的响应而闻名,能够提供实时的上下文信息而不带广告。

我抓住机会看看 ChatGPT Search 与 Google 长期以来的搜索专业性相比如何。我进行了几次比较,涵盖了速度、准确性、视觉效果和整体用户体验等类别。以下是它们的表现。

问题“东京的主要旅游景点有哪些?”

Google 的搜索引擎非常快速,结果在毫秒内就能交付。搜索引擎拥有多年的优化经验,并且有专门为高速索引和检索而构建的基础设施,可以立即获得来自多个来源的广泛相关结果。

ChatGPT 的搜索同样快速,并为每个地点生成了更清晰、更用户友好的图像和信息。显然,AI 通过从相关来源提取信息来生成响应,然后以对话的方式分享这些信息。结果感觉更加友好,几乎就像 AI 很高兴我去旅行一样。

使用体验ChatGPT Search
在以对话且简洁的方式提供有价值的快速响应方面领先。

问题: “解释气候变化和全球变暖之间的区别。”

Google
 的响应来自 Gemini,概述了气候变化和全球变暖,并将其包裹在一个简短的段落中。从那里,我可以向下滚动并搜索一些来自 NASA、USGS.gov 甚至 Quora 的链接。显然,算法优先考虑流行和权威的来源,但它也是以广告驱动的,这意味着顶部结果有时包括我看到的来自联合利华的赞助内容。此外,对于复杂的主题,我自己需要浏览多个链接才能拼凑出完整的答案。

ChatGPT 提供了直接的答案,从网络中提取经过的信息,然后添加了一个可点击的「来源」图标。这个功能减少了我在 Google 搜索中从多个收集信息的时间。在这个搜索和其他搜索中,ChatGPT 的总结对于一般查询甚至更详细的主题都是准确的,其设计允许更干净、更加集中的体验。(不过,请记住,广告可能会在未来出现。)

使用体验ChatGPT Search
在便捷和准确的直接答案方面赢得了这一轮。

问题: 苹果目前的股价是多少?最近有什么更新?

Google 实际上没有给我一个立即的答案。相反,我得到了一个指向 Yahoo Finance 的链接,我可以点击并希望自己找到答案。

ChatGPT
在毫秒内,答案就在我眼前。我还得到了关于苹果的新闻和更新,当然,还有来源。ChatGPT Search 真是令人耳目一新。我得到了问题的答案,而不需要四处寻找细节。通过将答案直接呈现在我面前,我节省了时间,而不需要再点击几次。显然,对于实时的股票 或天气更新,ChatGPT 提供了可比的准确性,甚至在深度上超过了 Google 庞大的视觉库。

使用体验ChatGPT Search
继续以其策划的实时直接答案给我留下深刻印象,显示出未来更新的潜力。

问题: 给我展示媒体对心理健康影响的最新研究。

Google 提供了如此多不同的答案,我甚至不知道该从哪里开始。从 Gemini 的响应到侧边栏,再到下面的链接结果,整个体验极其杂乱——这是我在使用 ChatGPT Search 时从未注意到的。此外,Google 的广告模式意味着用户数据通常被用来提供个性化广告。虽然 Google 有广泛的隐私政策和设置,但其广告驱动的方法可能导致不总是优先考虑用户隐私的定向内容。

ChatGPT 再次,ChatGPT 搜索提供了一个更清晰的界面,没有推广内容。对于这种个人化的搜索,额外的隐私关注方式让我非常感激。作为一个希望在搜索过程中不被广告定向的用户,这种方式对我来说更具吸引力——或者在之后。

使用体验ChatGPT Search
在考虑隐私和负责任的内容使用方面领先。对于敏感搜索,不被广告定向是一个巨大的优势。

问题: 什么是我客厅里最好的电视?

Google 我说的就是我说的,Google。在纠正我输入「What's」而不是「What is」后,Google 给我回应了一些链接,所有这些链接都是赞助的,我需要点击才能找到电视。在得到这个回应后,我感觉我需要再次问它以帮助缩小范围。然而,在赞助链接下,还有来自内容发布者的链接。

ChatGPT 为我缩小了范围,包含了图像,并给出了我想要的答案。AI 确实感觉像是一个朋友,提供有价值的信息。每个电视图像旁边都有一段介绍,提供关于每个电视的信息。与 Google 相比,这种设计感觉更加干净和简洁。此外,对话格式直观,我可以滚动浏览推荐,而不需要像在 Google 搜索中那样需要浏览多个链接。

使用体验ChatGPT Search
提供了一个令人耳目一新的体验,直接回答和具体示例。

问题: 谁在民调中领先?

Google 的结果包括有关选举的新闻故事。我希望通过这个问题获得关于今天总统选举民调中谁领先的直接结果。我不得不挖掘新闻故事才能找到答案。

ChatGPT 给了我我想要的结果,直接提供了事实。选举新闻无处不在,所以我不需要阅读更多的新闻故事。ChatGPT 给了我一个直接的答案。

使用体验ChatGPT Search
提供了没有繁琐的实时答案。

问题: 洋基队在世界大赛中是如何崩溃的?

Google 的第一个结果是从《纽约时报》关于该主题的故事中提取的引用。这是一个快速的响应和直接的答案。然而,它让我感觉我没有得到完整的故事。

ChatGPT 提供了更全面的回应,从更多来源提取信息,但仍然感觉干净简洁。我得到了洋基队彻底失败的完整画面。

使用体验ChatGPT Search
再次提供了我所寻找的实时答案,并增加了确认我获得所有信息的全面性。

ChatGPTGoogle 在不同领域都表现出色,但它们满足的需求略有不同。如果你在寻找全面的搜索结果,拥有大量来源和视觉效果,Google 仍然是强者。

然而,如果你的优先事项是清晰、无广告、对话式的响应以及内置的实时更新,ChatGPT 提供了一种流畅、用户友好的体验,可能很快就会成为日常查询的主流。

ChatGPT Search 提供的无杂乱答案以及支持它们的来源是全面且可靠的。我对 ChatGPT 的答案更有信心,因为它们简洁且没有广告商的支持。结果感觉就像是专为我准备的。在杂乱的网络中,ChatGPT 就像一个乐于助人的朋友,我喜欢这种感觉。

我用 ChatGPT 和 Midjourney 剪掉了蓄满四年的长发

这是我蓄满了四年的长发,原本是打算捐给金丝带的,但我决定放弃了。

一来,捐赠的人太多了,不缺我这一个,它不需要我;

二是,这个活动太热门了,报不上名,我不喜欢凑热闹;

于是,我心里很快就决定了:剪掉,并且要烫卷、染发!

在音乐教室里,筱烨、阿吉和秋秋在上课,我就在旁边用 ChatGPT 写 Prompt,写完之后就丢给 Midjourney 去生成效果图。遇到不满意的,就丢两张我以前的半长发的照片上去,再调整 Prompt 的细节,接着画。

最后,我把这张效果图发给发型师:

虽然这脸型偏硬了,不怎么像我,但这个头发感觉是我想要的。

曲线、松软、紫色挂耳

确定方案之后就直接约时间,一方面要约发型师的时间,他很好约,就在楼下,我随时过去随时可以做;但另一方面,要约收头发的师傅过来,需要由他根据长度把我的头发抽出来。这也是我第一次卖头发,挺新鲜的体验。

首先,我要跟发型师和收头发的师傅一起商量,怎么剪、剪多少、剪到哪里、用什么方法剪。我原本以为就是咔嚓一刀剪了,但其实不是。整个过程里,这位师傅需要非常仔细地把我头发中最长的部份找出来,每次只挑选一小撮,然后用剃刀在距离头皮大约 8-10cm 的位置一点点把头发切断。这样做的目的是,即确保剪下来的头发是满足他收头发的需求,也能确保给发型师留有后续足够的操作空间,还得让头发之间的层次能自然地衔接上。

每次剪下一小撮头发后,他都会仔仔细细地把头发梳几遍,确保没有任何打结,然后放在准备好的毛巾上,平放着。剪之前还特意要把周围的风扇都关掉,万一吹乱了,这些头发都全都没用了。他就这么一遍一遍地重复捏一小撮、切下来、梳顺、平放,如此反复了半个多小时,才终于从我头上抽出来两把共 59g 的长发。

然后就是烫卷和染发。

之所以想这样折腾一下,多少有一点破罐子破摔的心态在,觉得既然这头长发不被需要了,那也就放过自己,不要再被「这件事」困住了,索性趁着这个机会来尝试一下之前没折腾过的事情!

其实我 17 年前也染过一次发,但那时候是因为演《暗恋桃花源》的老导演,为了贴近角色的年龄感,我就去染了一头白发。只不过那个白发染得不成功,黄黄的,加上那会儿我比较消瘦,自己觉得不好看,所以演出结束的第二天我就去剃光头了。所以那次严格来说我不觉得是一次正经的染发体验,毕竟没有顶着这头黄毛生活,勉强能算一次临时的体验。

我当然知道它会掉色,会变成黄毛,会干、会毛躁。

但这不重要,因为我就想试一试。

我紧绷了三十多年,现在崩断了,还不能讨好一下自己,玩一玩吗?玩!

不仅要玩,还要玩得不一样,用 AI 一起玩!

为什么是紫色?因为我喜欢!

虽然我也喜欢绿色,但我也不想染成绿色 😂

朋友说像杨千嬅,像极速拍档的小乔,那也挺好。

最近两周我忽然意识到,我是会因为自己感觉到快乐而感到羞耻的。这是从小根深蒂固的想法。过去我知道,如果我遇到一件好事,一件开心的事,就会有一个声音在警告自己不要乐,不要得意,不要喜形于色,要收起来,不然马上就会招来不幸和倒霉。但我一直认为这是克制和谨慎,是对于能量守恒定律的迷信式的执念,觉得这会儿开心了以后就没有了。

可是,为什么要把开心攒到以后呢?有没有以后都不知道。

筱烨说我的动力来自恐惧,确实,我总有各种恐惧在周围,挥之不去。

但现在我看见它了!我要让我的快乐活过来!我不要快乐羞耻!

尽管我现在还没有什么活力,但起码这个紫色能令我舒服好一阵子!

最后再看一眼,这头蓄了四年的长发和发髻。

我很喜欢这根石纹簪,但我感觉我应该不会再束成这个样子了。

这天色真好。

Last Week on My Mac: Writing Tools

Early this coming week those fortunate enough to have an Apple silicon Mac will be able to update Sequoia to version 15.1 and try out Writing Tools at last. I’ve been testing and using them since the first beta of 15.1 back when the daylight lasted well into the night. I’ve been surprised at how lukewarm some have been at their arrival, particularly as most of those comments have come from those who make a living from their writing.

Perhaps the best way to show what Writing Tools can do is with an example, using the text from yesterday’s article A brief history of Mac firmware, a little over a thousand fairly technical words. I concentrate here on Writing Tools’ summary modes rather than its rewriting features, although they’re also thoroughly sound and useful in the right context.

Summary

Producing a succinct single paragraph summary is a challenge for even the most literate of humans. I’m impressed with Writing Tools’ 62 word offering of:
Mac firmware has undergone significant changes, from the Macintosh ROM in Classic Macs to Open Firmware in PowerPC models and EFI in Intel Macs. EFI, later evolving to UEFI, provides hardware access and boot services, while Apple silicon Macs employ a verified chain of trust for enhanced security. Firmware updates are now integrated into macOS installers and updaters, ensuring security and accessibility.

Key points

With so much information in the original, a key point summary should provide a better reflection of my original thousand words. Rather than reproducing the full 250 words generated by Writing Tools, here’s an excerpt covering one of the more challenging sections:

  • Firmware Security Issue: Researchers demonstrated proof-of-concept attacks on Mac firmware, highlighting potential vulnerabilities.
  • Firmware Update Policy Change: Apple transitioned from separate firmware updates to delivering them through system upgrades and updates.
  • Firmware Security Concern: In 2017, Duo Labs researchers discovered many Macs running outdated firmware, raising security concerns.
  • Apple’s Response: Apple hired security researchers and developed eficheck, a tool to check and report firmware versions to Apple.

I don’t think I could better that.

List

The third type of summary suitable for that article is a detailed list. This strips everything else out to leave terse factual sentences. For the whole text, it reduces to 833 words, a reflection on its already dense information. You’re unlikely to want to use this with longer passages, but here’s the same section given as key points above:

  • In March 2015, two security researchers from LegbaCore demonstrated proof-of-concept attacks on the BIOS of several computers.
  • The attacks could have been used to implant malicious code.
  • Later that year, Kovah and Trammell Hudson turned their attention to Macs.
  • They demonstrated a firmware worm named Thunderstrike 2.
  • For the first nine years of Intel Macs, Apple had provided EFI firmware updates separately from updates to OS X.
  • In 2015, Apple changed the way that it supplied firmware, delivering it only as part of system upgrades and updates.
  • Although older separate firmware updates are still available, those were the last.
  • In 2017, Rich Smith and Pepijn Bruienne of Duo Labs discovered that many Macs were running outdated firmware.
  • Their concern was about the security risk posed by outdated firmware.
  • Apple had already been busy hiring Xeno Kovah and Corey Kallenberg who started work there in November 2015, and Nikolaj Schlej, another firmware security researcher, who joined them the following August.
  • They developed a new tool eficheck, released in High Sierra on 25 September 2017.
  • eficheck checked current firmware against a local database of versions known to be ‘good’, and with the user’s permission sent a report to Apple in the event that it found discrepancies.

Table

The fourth summary option is to generate a table. Unfortunately, my example wouldn’t produce a useful table without substantial additional knowledge. However, I’ve found this useful on long passages from fiction, where it can summarise relationships between different characters, and similar tasks.

On device and on target

Once Sequoia 15.1 has been released and I’ve had a chance to explore the internals of Writing Tools further, I’ll look at its processing and energy costs. Two important features distinguish it from other contemporary AI tools: all data remains on-device throughout, and it’s primarily using your text rather than a large language model built from vast quantities of text garnered from around the internet.

Privacy doesn’t generally worry me particularly, as much of what I write on Macs is destined in some way or another to be published, whether it’s in an article here, one in the magazines that I write for, or source code that will be built into apps. However, I do take exception to others making money out of my labours without my express consent, so I’ll generally be only too happy to keep my AI on-device.

I also think it’s important to draw a clear distinction between what Writing Tools offers, and the likes of ChatGPT. Now that I’m testing Sequoia 15.2 beta, I have been looking at that contrast. While you can’t ask Writing Tools questions (why would you want to when you have the whole text and its summaries?), I thought I’d see how ChatGPT answered one of my stock test questions for AI: what is the SSV?

At my first asking, ChatGPT didn’t have sufficient context, and told me that it’s a side-by-side vehicle, so I refined my question to what is the SSV in macOS?

Although much of its answer was correct and informative, the second sentence stated with complete confidence that the SSV was introduced in macOS Catalina, which is of course completely incorrect, as Catalina has a read-only System volume but not a Signed System Volume as was introduced in Big Sur. But you’d only spot that serious factual error if you already knew the answer.

Give me Writing Tools and my own fact-checking, thank you.

macOS Sequoia 15.1 next week

Apple provided developers with two Release Candidates of macOS Sequoia 15.1 this week. Provided there are no serious problems that come to light in the second of those, it’s likely that 15.1 will be released early next week, probably on Monday 28th. This article looks at what that brings, whether it’s safe to upgrade to Sequoia yet, and what comes next.

All supported Macs

Traditionally, the x.1 update is scheduled to be released about a month after the initial upgrade to a new major version of macOS, and brings with it the first wave of bug fixes, and a few features that weren’t quite ready in time.

Although there are reports of some other bugs in Sequoia, by far the most disruptive have been those affecting networking. Apple fixed the most serious of those in 15.0.1, released on 4 October, but some have continued to experience problems. Opinion from those testing betas of 15.1 are that it does resolve all those, and for the great majority should be ready for general use, provided that third-party apps are compatible. So if you normally wait for the x.1 version to be released before considering upgrading, this should fit the bill.

Apple does provide a list of fixes for developers, although as there’s no mention of any networking problems there, I suspect this isn’t of much help to users.

Apple silicon Macs

For those whose Macs run an M-series chip, the main interest in 15.1 is the first batch of Apple Intelligence features. Over the coming months, these should include:

  • Writing Tools, a suite of mainly on-device features for summarising and rewriting text.
  • Image Playground, producing synthetic images such as Genmoji, again using on-device methods.
  • Siri and related enhancements for user assistance, using on-device methods.
  • ChatGPT access, for more general AI features using text.
  • App-specific enhancement to Photos, including Clean Up, and others.

Of those, 15.1 brings Writing Tools and some other enhancements, but doesn’t bring Image Playground or ChatGPT. Although some have claimed that makes 15.1 little better, that understates the value and quality of Writing Tools for many.

Writing Tools should be accessible to pretty well any recent app that displays significant amounts of text. Although I haven’t intended the lower text view in SilentKnight to support them, Writing Tools are available there from the contextual menu (Control-click). They work great with all the text editors I have tested, including TextEdit, BBEdit, CotEditor, Pages, my Rich Text editor DelightEd, and even in my PDF viewer Podofyllin.

The initial release of Writing Tools in 15.1 does have language and regional limitations. It requires that your Mac’s primary language, as set in Language & Region settings, is set to English (US), although you can still switch to a secondary language such as English (UK) if you prefer. The other key control is in the new Apple Intelligence & Siri settings, where Siri’s language needs to be English (United States). As I don’t like Siri’s spoken interface, I have disabled that by setting the Listen for control to Off, and instead enabled a Keyboard shortcut to open Siri’s interactive window.

Apple has announced future support for non-US variants of English, and next year for other primary languages. However, Writing Tools still work excellently on British English, even that of Charles Dickens, with the settings described above.

When you have updated or upgraded to Sequoia 15.1, I suggest you download text versions of books by your favourite author(s) from Project Gutenberg and explore features in Writing Tools using those as prose sources.

Future Sequoia updates

Apple has this week released the first beta-test of Sequoia 15.2, with most if not all of the other Apple Intelligence features, including Image Playground and ChatGPT. Assuming testing proceeds well and there are no serious problems, this is likely to be released in the first couple of weeks in December. Although not confirmed yet, this should open supported languages to include most major regional variants of English.

Slated for next year is the extension of Apple Intelligence to cover French, German, Italian, Japanese, Korean, Portuguese, Spanish, Vietnamese, and others. However, these features aren’t likely to appear in the countries of the EU this year, and Apple hasn’t yet indicated when that’s expected.

For those concerned about on- and off-device AI and privacy, all the standard features of Writing Tools and Image Playground involve on-device processing, and don’t send your data to remote servers. If you choose to enable ChatGPT access, then that is handled off-device, but is opt-in, and requires a separate sign-in process to access either an anonymised free account or an existing ChatGPT account. You can also require confirmation of any Siri requests handled with ChatGPT before sending any information off-device.

Apple has already published a list of fixes in the first beta of 15.2, although it remains to be seen what it does for users.

M4 Macs

Apple has also signalled that it will be releasing new Macs next week, widely rumoured to be the first to use the M4 chip.

Summary

  • Sequoia 15.1 early next week, probably on 28 October, with Writing Tools in US English, and remaining networking bug fixes.
  • Sequoia 15.2 already in beta, probably for release in early December, with Image Playground, ChatGPT, and the remainder of this first wave of AI tools, including most other English variants.
  • Try Writing Tools out: I think they’re wonderful.

突发 | 曝 OpenAI 下一代模型 12 月前推出,性能提升百倍

OpenAI 下一代新模型还要多久才能到来?最新的答案是 12 月份之前。

据外媒 The Verge 报道,OpenAI 计划在 12 月之前推出其下一个前沿模型 Orion(猎户座)。

报道称,与 OpenAI 最近发布的 GPT-4o 和 o1 有所不同,Orion 不会立即部署到 ChatGPT。相反,OpenAI 计划首先向与其密切合作的公司提供访问权限,以便这些公司能够基于 Orion 构建自己的产品和服务。

此外,The Verge 的消息来源透露,微软内部的工程师已经准备好最早在 11 月份将 Orion 托管在 Azure。

在八月份的时候,外媒 The Information 曾经分享过关于 Orion 模型的不少信息。

当时的报道指出,OpenAI 正利用「Strawberry」(即现在的 OpenAI o1)模型的合成数据来训练 Orion。

在 OpenAI 内部,Orion 也被视为 GPT-4 的继任,但目前尚不清楚该公司是否会在外部将其称为 GPT-5。OpenAI CEO Sam Altman 曾不止一次在公开场合暗示:下一代模型性能碾压现有模型,但真不一定叫「GPT-5」。

在前不久的 KDDI 峰会上,OpenAI 日本公司 CEO Tadao Nagasaki 也透露新一代模型性能预计将比现有的 GPT-4 模型强大 100 倍,并计划在今年晚些时候发布。

The Verge 报道还指出,OpenAI 的研究人员在 9 月举办了一场庆祝活动,庆祝新模型的训练完成。巧合的是,Altman 九月份也在 X 平台发布了一条耐人寻味的推文:

「我喜欢回到中西部的家。
夜空真是太美了。
我期待冬季星座快点升起;它们实在是太棒了。」

插个热知识,Meta 打磨十年的首款 AR 眼镜也叫 Orion,属实是有些「巧合」。

Orion(猎户座)是天空中最明亮、最容易辨认的星座之一。

11 月份,猎户座会在日落后不久出现在东方地平线附近,随着夜晚的推移,它会逐渐升高,直到黎明前在西方落下。因此,11 月份是观察 Orion(猎户座)的好时机,尤其是在晚上到深夜时分。

此外,Altman 本周也在 X 平台连发多条推文,疑似打起了哑谜:

「第一条推文:不是未来进展得这么快,而是过去进展得这么慢。

第二条推文:哇,ChatGPT 下个月就两岁了!

第三条推文:我们应该送它什么礼物呢……」

值得注意的是,ChatGPT 的发布日期是当地时间 2022 年 11 月 30 日,所以综合以上线索,网传大概率会在这个时间点附近发布新模型。

The Verge 指出,下一代模型的发布对 OpenAI 来说正值关键时刻,因为该公司刚刚完成了一轮创纪录的 66 亿美元融资。

这是硅谷史上最大的一次融资,超过了今年马斯克 xAI 的 60 亿美元融资规模,也让 OpenAI 继续成为 AI 独角兽中的领头羊。

但这轮融资也有不少变数,OpenAI 需要在两年内完成从非营利组织转型到营利性公司的转变。

如果失败,本轮投资者将有权要求退回他们的「真金白银」。

另外,高管离职潮以及管理丑闻等一连串风波也给 OpenAI 的前途蒙上了阴影。

今年以来,前首席科学家 Ilya Sutskever、超级对齐团队负责人 Jan Leike、前 OpenAI CTO Mira Murati、首席研究官 Bob McGrew 和后训练副总裁 Barret Zoph 也都相继官宣离职。

甚至不少离职创业的 OpenAI 前高管,也都纷纷在线挖起了老东家的「墙角」。

并且,最近 OpenAI 前 AI 研究员 Suchir Balaji 爆料称,在职四年间,他帮助收集和组织了大量用于构建 ChatGPT 的互联网数据。

他认为 OpenAI 使用受版权保护的数据违反了法律,并且 ChatGPT 等技术正在损害互联网。

OpenAI 与最大金主「微软」的关系破裂,也是一层重要的隐患。

据华盛顿邮报报道,去年秋天,Altman 询问微软 CEO Satya Nadella ,这家科技巨头是否愿意向这家初创公司投资数十亿美元,而在此之前,微软已经向 OpenAI 投入了 130 亿美元。

纳德拉最初愿意继续提供资金。但在去年 11 月 OpenAI 董事会短暂罢免奥特曼后,纳德拉和微软改变了主意。

在随后的几个月里,微软毫不让步,因为预计 OpenAI 今年将亏损 50 亿美元,同时也会要求更多的资金和算力来构建与运行其 AI 系统。

拿到「反派」剧本的 Altman 最近也遭遇人设大翻车。不少网友表示,AGI 依然未来可期,但完成这项使命的主角却未必非 OpenAI 不可。

截至发稿前,OpenAI 尚未就此事作出回应。

你期待 Orion 的到来吗?

期待,希望能够快一点到来
无感,日常体验已经很满意了
更多想法,评论区见

附上报道原文:
https://www.theverge.com/2024/10/24/24278999/openai-plans-orion-ai-model-release-december

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


iOS 18.2 上线苹果 AI 更多新功能上线!首批实测来了,iPhone 更好用了吗

iOS 18.2 的首个开发者测试版来了,这也是最接近下周正式推送的版本。

这一 beta 版本继续履行了 WWDC 2024 所推出的 Apple Intelligence「分阶段升级」的承诺,为开发者用户带来了属于苹果 AI 的四大新功能,其中就包括接入了 ChatGPT 的「更智能」的全新 Siri。

▲随 iOS 18.2 beta 版一同推出的 Apple Intelligence 新功能(图源:Perplexity)

此外,新版的 Apple Intelligence 将支持更多的地区和语言,但目前仍不支持国区。对此,苹果公司 CEO 蒂姆·库克表示「背后有非常具体的监管流程,我们正在努力推进」。

既然暂时无法上手体验,我们可以跟随 Youtube 视频网站上的数码博主 Brandon Butch 的视角,看看海外网友对于最新 Apple Intelligence 的体验和评价如何。首先来盘点一下本次苹果 AI 引人注目的四大新功能

  • Image Creation:包括 Image Playground 图像游乐场、Genmoji 生成式 AI 表情符号和 Image Wand 图像棒;
  • Visual Intelligence 视觉智能(仅 iPhone 16 系列支持);
  • 集成了 ChatGPT 的最新人工智能语音助手 Siri;
  • Apple Intelligence 加持下的 Writing Tools 写作工具更新。

除上述新功能以外,最令人的惊喜的是 ChatGPT 的深度内置。不仅 Siri,还有很多其他功能也集成了 ChatGPT。并且值得一提的是,用户无需登录 ChatGPT 的账户就可以在支持其内置的功能中使用这个插件,诚意满满。

文生图、图生图,还能草图变大作

Image Creation 是本次 Apple Intelligence 的一个重大更新。相比于 Siri 的实用属性,这个功能则更加偏向娱乐。

其中,在 Image Playground 图像游乐场中,用户可以自由选择所给元素并融合生成几幅图像:

▲ 博主使用 Image Playground 功能生成图像

用该功能生成的图像可以切换「动漫」和「插画」两个风格,都很讨喜:

▲ 博主将生成的图像从「动漫」切换为「插画」

此外,用户还可以添加提示文本,同所选元素一起生成想要的画面,自然也可以通过文本直接生成:

▲ 博主添加了提示文本,并重新生成了一幅图像

这是以歌手 Taylor Swift 和篮球运动员 Shaquille O’Neal 为原型,使用 Image Playground 生成的 Q 版头像,可爱又有辨识度。

同属于 Image Creation 的 Genmoji 生成式 AI 表情符号则更强调社交属性。它可以通过文本描述和用户的个人形象生成专属自己的 emoji,还可以用于后续的短信聊天当中:

▲ 博主使用 Genmoji 功能创建了一个属于自己的表情

Image Wand 图像棒功能则允许用户在笔记中绘制草图,并将其加以润色和细节补充,使其变成一幅完整的,色彩结构丰富的图像。同样,用户也可以通过提示文本对生成的结果加以约束:

▲博主使用 Image Wand 功能润色了一幅草图

有意思的是,如果草图或者提示文本中出现了「人」,那么 Image Wand 将会自动忽略,只生成除「人」以外的其他部分。其中原因,也许是出于隐私保护或者伦理的考虑,也许是这个功能还不健全,我们不得而知。

可以注意到,本次更新中 Image Creation 所创造出来的图像,相比于 Apple Intelligence 刚刚发布时所使用的令无数人诟病的示例图片,在质量和观感方面都有不少提升。我们期待着它在正式发布时会变得更好。

你的智能「机械眼」

苹果公司给搭载了「相机控制」按钮的 iPhone 16 系列机型开发了全新的 Visual Intelligence 视觉智能功能。这一功能可以帮助用户进行识物,获取关于物品的更多信息,还可以提供相应的购买渠道:

▲博主使用 Visual Intelligence 识物

用户也可以直接调用 ChatGPT 对取景框中的物品进行描述:

▲博主用 ChatGPT 直接描述索尼储存卡

此外,对于建筑物一类的对象,Visual Intelligence 可以告诉你它的地理位置;对于餐厅等地点,它甚至可以为用户提供营业时间和菜单等相关信息:

▲博主使用 Visual Intelligence 识别图片中的地点

在我们日常出行和生活越来越便利的今天,Visual Intelligence 智能视觉的终极目标,就是要成为用户的智能「机械眼」,让用户通过苹果 AI 观察世界,进一步降低获取相关信息的成本,提高便利性和效率。

更聪明的 Siri 来了

回顾此前 Brandon Butch 对于支持 Apple Intelligence 的初代 Siri 的体验,我们可以得到的结论是其「智商有待提高」。

相比于 Image Playground 的娱乐属性,Siri 的升级更加实用而且「迫切」。

接入了 ChatGPT 的 2.0 版本 Siri 则可以直接基于 ChatGPT 提供的资料,对于用户的提问给出回答:

▲博主在询问 Siri,Siri 根据 ChatGPT 回答

这相当于给 Siri 接入了一个更为智能的「第二大脑」,实实在在地提高了 Siri 的「智商」。

当然,用户也可以在询问时选择是否调用 ChatGPT,甚至可以在提问中直接要求 Siri「询问 ChatGPT 并给出回答」:

▲博主要求 Siri 直接用 ChatGPT 查询当前时间

现在,即使用户的提问不够流畅,说话磕磕巴巴,Siri 也依然能够听懂并作出回应。

在众人期待许久之后,ChatGPT 与 Siri 终于「握手」。业内两大智能体的「合体」未来还会给用户带来哪些惊喜,拭目以待。

文字和画面,就在一圈之间

内置 ChatGPT 的全新写作工具 Writing Tools 或许可以一定程度上解决内容创作者的「灵感焦虑」。

除了可以使用「Compose」一键生成所需文案,还能用更加灵活自由的方式对 AI 生成的文本进行修改和调整以外,这款写作工具最令眼前一亮的功能是支持将用户的笔记内容归纳成几个小标签,然后转化为一幅图像。

实现方法也相当简单和优雅,在需要的文本下方轻轻画一个圆圈即可:

▲轻轻一圈,文字变成图像

如此充满想象力的交互手势,无形中也成为了提供给创意工作者用户的「灵感」之一。

好玩,但也实用

相比于许多其他 AI 行业独角兽「爆炸式」的创新速度和产出量,苹果在 AI 领域似乎总是显得有些「挤牙膏」。

苹果软件工程高级副总裁克雷格·费德里吉在近期的访谈表示,公司的态度更像是「试着把每一部分都做好,等准备好了再发布」。显然,这与苹果公司 CEO 蒂姆·库克「不求第一,但求最好」的理念不谋而合。

▲克雷格·费德里吉(图源:9TO5Mac)

诚然,作为地球上最有影响力的科技企业之一,苹果能够放下「首发」的包袱,依然选择「低门槛」的亲民路线,以用户喜闻乐见的形式,把 AI 功能打磨得好玩又实用,其实已经相当难得。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,Windows 版 ChatGPT 正式发布!还有一个实用的新功能| 附下载链接

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

就在刚刚, 宣布推出 桌面,向 Plus、Enterprise、Team 和 Edu 用户开放 。

不过,官方表示,目前开放的只是早期版本,将在今年晚些时候向所有 ChatGPT 用户推出「完整的体验」。

刚刚,Windows 版 ChatGPT 正式发布!还有一个实用的新功能| 附下载链接

例如,它还不支持高级语音模式,并且 GPT Store 的部分集成功能暂时也无法使用。

用户可以在微软应用商店 ChatGPT,接着安装即可,安装包大约 110MB,附上下载地址:

The Windows is currently only available to ChatGPT Plus, Team, Enterprise, and Edu users. This is an early version, and we plan to bring the full experience to all users later this year. With the official ChatGPT desktop app, you can chat about files and photos.

系统要求:Windows 10(x64 和 arm64)版本 17763.0 或更高版本。

在具体的使用过程中,OpenAI 提出了一个名为「Companion Chat」的辅助聊天功能,它允许你在不离开当前应用程序的情况下,快速访问和使用 ChatGPT

这个功能类似于一个快捷方式或者浮动窗口,你可以通过特定的快捷键(Alt + Space)来调出这个聊天窗口。

借助这个聊天窗口,你可以快速地向 ChatGPT 提问、上传文件、生成或者开始一个新的对话。它还具有记住上次位置的功能,并且当主应用程序重置时,它会回到屏幕底部中心的位置。

此外,你还可以通过点击窗口顶部的「New chat」来清除聊天内容,或者通过点击「Open in Main Window」按钮将对话转移到 ChatGPT 的主应用程序窗口中继续。

如果不小心关闭了这个聊天窗口,你也可以通过查看侧边栏的聊天记录来在主应用程序中继续对话。

需要注意的是,如果这个快捷键已经被其他 Windows 应用程序占用,那么它将会不起作用,并且也不支持更改快捷键。

目前 ChatGPT 已经向 Windows 两大操作系统开放桌面版本,但 Linux 却没有给出明确的时间表,也惹得不少网友在线催更。

另外,前不久 OpenAI 推出了 ChatGPT Canvas 功能,允许用户与 ChatGPT 合作处理写作或编程任务。

今天 ChatGPT Canvas 也更新了一个比较实用的功能,你可以点击右上角的「Show changes」图标来查看文章或代码的更改。

▲ Window 的 ChatGPT Canvas 功能,图片来自 @test_tm7873

如下文所示,我使用 ChatGPT Canvas 将朱自清的《背影》改写成文言文版本,点击图标,所做的更改一目了然。

实际上,今天更新的功能也算是补上了 ChatGPT 生态的重要一环。

不过,正如开篇所说,这个桌面版本本质上还是个阉割版,食之无味弃之可惜,尽管快捷键调用方式简单,但网页版所带来的体验明显会更好。

刚刚,Windows 版 ChatGPT 正式发布!还有一个实用的新功能| 附下载链接

就在刚刚,OpenAI 宣布推出 Windows 桌面应用,向 ChatGPT Plus、Enterprise、Team 和 Edu 用户开放 。

不过,官方表示,目前开放的只是早期版本,将在今年晚些时候向所有 ChatGPT 用户推出「完整的体验」。

例如,它还不支持高级语音模式,并且 GPT Store 的部分集成功能暂时也无法使用。

用户可以在微软应用商店搜索 ChatGPT,接着下载安装即可,安装包大约 110MB,附上下载地址:

https://apps.microsoft.com/detail/9nt1r1c2hh7j?rtc=1&hl=en-us&gl=US

系统要求: Windows 10(x64 和 arm64)版本 17763.0 或更高版本。

在具体的使用过程中,OpenAI 提出了一个名为「Companion Chat」的辅助聊天功能,它允许你在不离开当前应用程序的情况下,快速访问和使用 ChatGPT。

这个功能类似于一个快捷方式或者浮动窗口,你可以通过特定的快捷键(Alt + Space)来调出这个聊天窗口。

借助这个聊天窗口,你可以快速地向 ChatGPT 提问、上传文件、生成图片或者开始一个新的对话。它还具有记住上次位置的功能,并且当主应用程序重置时,它会回到屏幕底部中心的位置。

此外,你还可以通过点击窗口顶部的「New chat」来清除聊天内容,或者通过点击「Open in Main Window」按钮将对话转移到 ChatGPT 的主应用程序窗口中继续。

如果不小心关闭了这个聊天窗口,你也可以通过查看侧边栏的聊天记录来在主应用程序中继续对话。

需要注意的是,如果这个快捷键已经被其他 Windows 应用程序占用,那么它将会不起作用,并且也不支持更改快捷键。

目前 ChatGPT 已经向 Mac、Windows 两大操作系统开放桌面版本,但 Linux 却没有给出明确的时间表,也惹得不少网友在线催更。

另外,前不久 OpenAI 推出了 ChatGPT Canvas 功能,允许用户与 ChatGPT 合作处理写作或编程任务。

今天 ChatGPT Canvas 也更新了一个比较实用的功能,你可以点击右上角的「Show changes」图标来查看文章或代码的更改。

▲ Window 的 ChatGPT Canvas 功能,图片来自 @test_tm7873

如下文所示,我使用 ChatGPT Canvas 将朱自清的《背影》改写成文言文版本,点击图标,所做的更改一目了然。

实际上,今天更新的功能也算是补上了 ChatGPT 生态的重要一环。

不过,正如开篇所说,这个桌面版本本质上还是个阉割版,食之无味弃之可惜,尽管快捷键调用方式简单,但网页版所带来的体验明显会更好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,ChatGPT 发布重磅更新!让我看到了 AGI 时代的终极交互形态

今天凌晨,ChatGPT 罕见地迎来了一次交互界面的大改。

没有颠覆式创新,奔着生产力革命的 ChatGPT Canvas 新功能隐约透着几分 Claude Artifacts 的影子。

Canvas 是一个全新的界面,旨在帮助用户与 ChatGPT 在写作和编码方面进行更紧密的协作。

对于这项功能,OpenAI 研究主管 Karina Nguyen 在 X 平台阐述了她的想法:

我心目中的终极 AGI 界面是一张空白画布(Canvas)。

它能够随着人类的偏好不断演变、自我变形,并发明出与人类互动的全新方式,重新定义我们与 AI 技术以及整个互联网的关系。

简言之,Canvas 就是一个更大的、更适合复杂工作的协作空间。

有意思的是,在 OpenAI 官网上,我们也发现了支持该新功能的领导团队包括了一些今年离职的熟悉面孔——Barret Zoph、John Schulman、Mira Murati。

而即日起,OpenAI 将向 ChatGPT Plus 和 Team 用户推出 Canvas。

Enterprise 和 Edu 用户则在下周获得访问权限。测试结束后,OpenAI 计划向免费用户推出 Canvas。

指哪改哪,写作能力更强了

写作和编码都是 ChatGPT 的两大高频使用场景。

尽管聊天界面简洁高效,适用于多种任务,但目前在处理需要复杂步骤和多方面技能的项目上显得有些力不从心。

Canvas 便提供了一种新的工作界面,用户可以在其中编辑和改进 AI 的输出。

OpenAI 官方表示,Canvas 能够让 ChatGPT 更懂你的心思,比如你可以高亮标注出重点部分,告诉 ChatGPT 特别关注哪里。
用官方的话来说,就像是旁边有一个文案编辑或代码审查员在实时地提供实时反馈和建议。

在 Canvas 界面中,你也可以轻松地编辑文字或代码。

页面还配备了快捷方式,让你可以要求 ChatGPT 调整写作长度、调试代码,并快速执行其他有用的操作。一键撤销,恢复到之前的原版本也轻而易举。

写作快捷方式包括:

  • 建议编辑:ChatGPT 提供实时建议和反馈。
  • 调整长度:编辑文档长度,使其更短或更长。
  • 更改阅读水平:调整从幼儿园到研究生的阅读水平。
  • 增加最终润色:检查语法、清晰度和一致性。
  • 添加表情符号:添加相关的表情符号以强调和增加色彩。

杀鸡焉用牛刀,在小事上频繁调用 Canvas 反倒有些复杂。

通常情况下,Canvas 会在 ChatGPT 检测到可以提供帮助的场景时自动启用。当然,你也可以在提问时加上「use canvas」来打开该功能。

据 OpenAI 介绍,比如在遇到像「写一篇关于咖啡豆历史的博客文章」这样的请求时,Canvas 会自动启动。

但如果是在简单的问答任务中,比如「帮我做一个新晚餐食谱」,那么启动 Canvas 就有些小题大做了。
为什么说 Canvas 功能能够提升写作质量和改善交互体验?

官方表示,类似于质量监控系统,开发团队设置了超过 20 个自动化测试来追踪他们的 AI 在开发过程中的表现。

在开发过程中,研究团队使用前不久推出的 OpenAI o1-preview 版本来生成合成数据,然后用作后训练的数据集,从而加强模型的关键功能,比如写作和与新用户的互动。

真·AI 程序员来了

考虑到编码通常不是一次性完成的,而是需要多次修改和改进。

Canvas 的目的是让追踪和理解 ChatGPT 所做的修改变得更加简单明了,并且未来 OpenAI 将进一步考虑提升编辑过程的透明度。

编码快捷方式包括:

  • 审查代码:ChatGPT 提供实时建议,以改善代码。
  • 添加日志:插入打印语句以帮助调试和理解代码。
  • 添加注释:为代码添加注释,以便更容易理解。
  • 修复错误:检测并重写有问题的代码以解决错误。
  • 移植到其它语言:将代码翻译成 JavaScript、TypeScript、Python、Java、C++ 或 PHP。

在编码任务中,为了避免干扰经验丰富的开发者,Canvas 也不应该那么频繁地调用。OpenAI 特意在这方面进行了改进,使得它在写作和编码任务中更准确地触发 Canvas,分别达到了 83% 和 94% 的准确率。

目前,基于 GPT-4o 模型构建的 Canvas 仍处于早期测试阶段,用户可以在模型菜单栏中切换体验该功能,OpenAI 宣称将迅速改善其功能。

除了教会模型要适当地启动,研究团队还要教会其如何更聪明地编辑内容。

当 Canvas 启动后,模型需要判断:是只修改内容的某些部分,还是全部重写。

因此,如果用户在界面上明确指出了要改的地方,模型就会只修改那些部分。而如果用户没有特别指出,模型就会选择重写整篇内容。

终极的 AGI 界面——空白画布

Karina Nguyen 也分享了 Canvas 的一些实际使用案例。

GPT-4o 结合 Canvas 可以研究艺术史并撰写报告,可以要求验证其观点并添加引用文献。

用 ChatGPT 搜索最好的餐厅,并通过电子邮件邀请朋友。

GPT-4o 结合 Canvas 可以编写 Rust 代码并进行代码审查。

浏览食谱后,Canvas 可以根据现有的食材创造新菜谱。

OpenAI 开发者大会的狂欢仍在继续。

Canvas 功能的着力点依然牢牢锁定在内容创作和编码开发过程。

独立窗口的设计自由度更高,能够让我们能够直接在主界面上与复杂内容进行互动和管理,这不仅极大优化了用户体验,也让我们看到了人机交互的未来。

只有简单问答功能的 AI 服务,已经跟不上人类「副驾驶」的第一梯队了。

随着 Claude Artifacts、Cursor 等功能/工具的爆火出圈,Canvas 功能的推出也是为了补上市场竞争的重要一环。
OpenAI 人机交互的「弹药库」依然充足,也依然春风得意。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Windows 11/10 系统优化和推荐应用

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

有人说 11 适合大多数普通用户,即便个人需求不同,也可以在此基础上进一步调整(折腾)。仔细一想,更新使用 Windows 11 这段时间我确实进行了不少调整,稳定使用好一阵子之后,许多折腾过程被我逐渐淡忘。

于是想着写下本文作为记录,以便回顾,顺带给也有意深入调整 Windows 11 的朋友一些参考。

Windows 10 在初次使用的时候可以跳过网络连接设置,选择「离线账户」。这样可以避免微软账户的一些设置,但也会导致一些功能无法使用。而 Windows 11 在安装时──至少从 UI 来看──会强制要求连接网络并登录 Microsoft 账户。

如果你只想通过离线账户使用,或碰上微软服务抽风偏偏又无法登录的情况,在这一步可通过 Shift + F10 调出命令行,输入 oobe\BypassNRO。命令执行后系统将自动重启,此后初始化过程中的网络配置会额外出现「我没有 Internet 连接」选项,再点击「继续执行受限设置」后续即可配置离线账户。而如果你已经联网,看到强制要求登录 Microsoft 账户界面后才寻找使用离线账户账户的方法,此时只通过上面的命令是不够的——至少从我唯一的一次经历来看输入命令后重启后仍然会自动配置好网络,此时则需要先输入 devmgmt 打开设备管理器、禁用无线网卡,然后再输入 oobe\BypassNRO

截至目前通过这些额外的手段还是能够使用离线账户,但微软如此收窄用户选择的空间,很难不让人揣测其意图,甚至给人留下一种不断侵蚀用户和选择权的糟糕印象,毕竟在线账户只会让微软更轻松地收集各种用户,包括使用习惯、偏好设置等个人信息,而这些收集行为也不只在本设备,通过在线账户,微软也能更轻松地跟踪用户在不同设备间的行为,构建更完整的用户画像……收集到的数据则可以用于精准投放、出售给第三方广告商、通过与其他微软服务的集成二次扩大数据共享范围。

要知道 Microsoft 账户隐私设置界面着实复杂,迈过离线账户的坎,后面想要完全控制自己的隐私选项难度就不低了。

除了预装系统的 OEM 设备,新设备至少第一次的完整的更新是必要的,这些更新包含正常使用的驱动等。如果 Windows 更新无法为你下载安装特定版本的驱动,你也可以前往对应设备厂商的官网手动下载安装,如: 

至于特殊的「鸡生蛋」情况──无线网卡驱动──没有无线网卡驱动无法联网、无法联网就无法通过 Windows 更新升级无线网卡驱动,可以通过 USB 网卡或者手机共享网络连接,或者直接下载驱动到 U 盘,然后在设备管理器中手动更新。对于 OEM 设备可以去对应官网寻找驱动支持,对于个人 DIY PC 主要前往主板官网下载最新驱动,当然如果你知道具体网卡型号(例如常用的 Intel AX210)也可以直接去对应官网下载。

说到 OEM 设备,OEM 厂商关于硬件的支持性应该优于更广泛的 Windows。倘若 OEM 厂商有提供完整的硬件驱动管理工具,这些工具优先级应该高于 Windows Update。为避免 OEM 驱动管理与 Windows 更新工作重复、覆盖乃至冲突,可以按照如下流程操作:

说回 Windows 更新本身。对于目前桌面端主要使用的三大(类)系统──WindowsmacOS、各 Linux 发行版──相较于更加专用的各 Linux 发行版和产品线单一又严格由 Apple 控制淘汰周期的 macOS,兼容性最好的 Windows 在更新上也更容易受兼容性带来的多样性所困,从而很难实现更新行为和质量的一致性。这也是为什么每每听闻 Windows 更新问题时,总有人说「从来没遇到过」,也总有另一些人抱团抱怨仿佛 Windows 都快完全不可用了那般。

其实如今没必要过于抵制 Windows Update,更新内容本身带来的问题几乎没法举例,更多主要是更新过程中的意外。如果你很清楚自己在做什么,也可以尝试推迟 Windows 更新。除了在更多选项中至多推迟五周外,还可以通过修改注册表推迟任意长度时间:

你可以填写一个很大的天数,然后在需要更新的时候点击 Windows 更新中点「继续更新」即可方便地跳过更新推迟,在此之前不会收到任何更新检测或提示,更不会自动更新。

上述通过注册表推迟更新的操作可以通过脚本完成:

再配合任务计划程序实现自动化。这样就可以根据自己的节奏推迟更新、累计更新,例如每六周推迟五周等。

至于彻底禁止 Windows 更新,其实上文提到的通过注册表推迟到一个不可能的天数便可达到类似效果,除此以外还可以通过编辑组策略、修改更新服务器到一个空地址、借助诸如 Windows Update Blocker 等第三方工具等。这里不再一一赘述。

本篇围绕 Windows 11 系统本身的设置调整展开,尽量不涉及第三方软件、工具,若非要涉及也是主要是在辅助调整设置(例如把隐藏的系统设置项调出来)而不提供额外功能。

任务栏、开始菜单最直接的调整在「设置 > 个性化」中。

在任务栏设置中,我们要做的第一件事就是把塞满广告和各种无用信息的小组件整体关闭,然后根据个人习惯调整其他设置,比如我会将搜索仅显示图标、任务栏左对齐、永远合并任务栏按钮。

在开始菜单设置中,记得关掉第一面的所有推荐内容,并在「文件夹」中打开设置方便快速进入。

搜索栏在任务栏中的开始菜单附近,但是它的设置项目却在「隐私和安全性 > 搜索权限」中。而微软也往此处插入了一些「推荐内容」,需要在关闭设置项目最后的「显示搜索要点」。

Windows 11 中,即便解锁任务栏,我们也不能像 Windows 10 那般将任务栏拖动到屏幕左右侧,只能在底部。虽然通过修改注册表可以强行改动任务栏位置,但是会导致 UI 错位。更推荐的方法是使用第三方工具将整个任务栏回退到 Windows 10 模式,例如后面会介绍的 ExplorerPatcher。 

除了任务栏和开始菜单,很多人在 Windows 11 中最先接触到的变化可能是右键菜单。其实如果不带成见来看,Windows 11 的右键菜单在设计上更加简洁、更符合整体设计语言,且按钮排布更加宽松,没有按钮增多时密密麻麻的视觉压迫感,也更适合触摸操作等非精确点击。

问题是,宽松的按钮排布,代价是并非所有功能都能直接在右键菜单中找到,部分功能被隐藏在「显示更多选项」中,且这些更多选项并非像「新建」那样以二级菜单展开,而是完全退回到类似 Windows 10 的右键菜单。在桌面/文件资源管理器按住 Shift 右键也能直接唤出这种经典风格的右键菜单,除了真的需要考虑触摸可用性,为什么不一开始就显示完全呢?

倘若你不想节外生枝使用复杂插件,其实直接修改注册表的方法也并不繁琐。

注销或重启文件资源管理器即可生效,右键菜单将恢复到 Windows 10 风格。

在我自己的日常使用习惯中,无论在 Windows 还是 macOS,虚拟桌面都是高频使用的功能。对于临时被打断或者由于时间问题没有完成的工作,在确保保存后我会将其原封不动放在原位置并新建一个虚拟桌面继续其他工作。同时在处理多个任务时候,我也会尽可能保证一个虚拟桌面内是一个相对独立的任务,相当于在标签页、窗口之上再加一层桌面维度,检索时更加快捷。

如此频繁的使用,自然容易在 Windows 10 升级到 Windows 11 感受到一些细微的变化。对于单次虚拟桌面切换来说动画是更加丝滑了——Windows 11 非线性动画的加速、减速比起 Windows 10 更加自然。但多次切换就有点灾难了,在 Windows 10 按住 Ctrl + Win 并多次按左右方向键时,滑动动画经历「加速 > 连续的桌面滑动(哪怕有来回)> 减速」停到目标桌面,而在 Windows 11 中,多次切换时,每次都会经历完整的「加速 > 减速」动画,相当于把单次切换简单的拼接起来,这样的动画在频繁切换时会显得有些拖沓。

以上都是针对快捷键切换虚拟桌面的情况,对于触控板切换来说动画都是尽量跟手的,而连续切换之间的停顿也符合直觉(毕竟触控板没法像快捷键那样连续多次按方向键,中间肯定也有停顿对应)。

网络上暂时没有找到将动画回退到 Windows 10 版本的方法,所以我简单粗暴地关闭了这个动画——在「设置 > 辅助功能 > 视觉效果 > 动画效果」开关可以关闭虚拟桌面切换动画,但是这样也会波及其他动画效果;在高级系统设置(cmd/Win + R: sysdm.cpl)中的性能设置中视觉效果页关闭「对窗口内的控件和元素进行动画处理」也可以关闭虚拟桌面切换动画,但同样也会波及诸如 Win + Tab 窗口动画效果,不过从描述来看想必波及的范围更小。

我个人有个癖好是桌面不出现任何图标、任务栏只留一个文件资源管理器、所有应用在开始菜单以磁帖排布。在注意力有些散漫的时候 Win + D 回到桌面欣赏下壁纸休息——不得不承认 Windows 11 背景设置中的「Windows 聚焦」挺好看,同时又不会过分吸睛,应该是和 Bing 每日壁纸同源的。

在「设置 > 个性化 > 主题 > 桌面图标设置」中可以关闭桌面图标。遗憾的是当清空桌面图标后,角落「Learn about this picture」更加显眼,且没有显式关闭设置,除了再次借助 ExplorerPatcher,也可以通过修改注册表实现:

这样桌面就只剩下壁纸了。如果你第一次这么设置会发现有一尴尬之处──回收站怎么进?确实一般情况下回收站都是放在桌面的。这时可以通过在文件资源管理器的地址栏中输入 shell:RecycleBinFolder 打开回收站,然后将其固定到快速访问中,这样就可以在文件资源管理器的侧边栏方便访问回收站。

硬件部分关于屏幕、缩放、渲染等内容会占用太多篇幅且涉及技术原理部分可操作性不强。这里直接给结论:

Windows 10 之时我还能接受通过 noMeiryoUI 软件方式修改默认系统字体为更纱黑体,配合 MacType 软件实现更好的字体渲染效果(一定程度上抵消 ClearType 在高分屏的负优化)。虽然 noMeiryoUI 依然兼容 Windows 11,Windows 11 上更多的系统组件、官方应用并不默认遵守该设置,导致字体修改效果十分有限。

因此在 Windows 11 上我选择一种比较 dirty 但是好用的手段──将其他字体(例如更纱黑体)重新打包成伪装的「微软雅黑」并移动至 Windows 字体文件夹下以欺骗系统。chenh96/yahei-sarasa 提供了一个截止本文修改时仍运行良好的 Python 脚本自动将更纱黑体伪装为微软雅黑和宋体。

目前主要有三种方法将伪装字体替换系统默认字体:

这里仅展示第一种方法,不需要任何额外工具。在 Windows 恢复模式中的命令行使用 xcopy 将伪装的微软雅黑移动到相应文件夹下:

覆盖后重启即可。请特别注意不要在任何有用于演示、汇报用途的 Windows 设备上进行此操作,以免一些不必要的麻烦。

Windows 的色彩管理仍是一个相对混乱的领域,短期内是不指望能和 macOS 相提并论。但是 Windows 11 还是比前代 Windows 10 在 HDR 支持上有 明显改进,至少算是过了及格线。

在开启 HDR 之前,还请确保屏幕至少支持 HDR 600 标准,HDR 400 可以当作不支持看待(注意区别于 HDR true black 400,这是 OLED 标准,甚至严格过 HDR 1000)。OLED 和 MiniLED 屏幕往往效果更好。

全局开关在「设置 > 系统 > 显示 > HDR」。开完先别急,点击下面的「HDR Display Calibration」,这里可以矫正 HDR 显示效果。

「自动 HDR」功能可以将仅支持 SDR 的游戏转化为 HDR 输出,效果挺不错。但如果你的设备使用较新的 N 卡,那更推荐关闭此功能 Windows 11 的自动 HDR,用 NVIDIA 内的 RTX HDR 替代。由于 HDR 会尽可能用尽显示器硬件性能,不能通过调整显示器亮度来改变内容整体亮度,在开启 HDR 显示时只能通过设置「SDR 内容亮度」将桌面调整至不开 HDR 相近效果。

在开启 HDR 模式下就是纯 HDR 信号输出,不存在区域渲染,原本 SDR 内容也会通过算法转化为 HDR 输出,这其中必然是会丢失信息的。目前消费级 HDR 显示器素质良莠不齐。如果在开启 HDR 模式看 SDR 内容时发现颜色「寡淡」,有可能是眼睛已经被各种「鲜艳模式」惯坏了,毕竟在开启 HDR 后系统会自动对 SDR 内容做 sRGB 限缩,从某种意义上这才是「正确」的颜色,除此以外就是显示器还跟不上,前者可以尝试常驻 HDR 模式适应,后者建议常用 Win + Alt + B 快捷开关 HDR 仅在消费 HDR 内容时开启。

「Wintel 联盟」现在似乎已经很少提起,当初意图取代 IBM 公司在个人计算机市场上的主导地位,直至现在 Microsoft 和 Intel 的合作依然紧密。Intel 新大小核处理器在 Windows 10 上有许多调度问题促使其用户不得不选择 Windows 11。

如果你在电源设置中发现缺少某些设置项目,除了一个个查注册表,更方便的方法是通过 PowerSettingsExplorer 这个仅调用 Power Management Functions 接口的小工具来调出那些被隐藏的选项。在 Windows 11 中与大小核调度策略有关的隐藏高级电源设置有:

在「高性能」电源计划中,这三个的设置按顺序是「0 – 自动 – 自动」,调度策略是「大核 > 小核 > 大核超线程」;如果将后两个设置同时设为「高性能处理器」,那么调度策略变为「大核 > 大核超线程」。总体而言异类策略 0 优先使用大核,对应的异类策略 1 优先使用小核。异类策略 4 比较奇怪,它是「节能」电源计划的默认设置,但是在烤鸡、游戏挂机等测试场景大小核调度策略几乎和「高性能」一致,怀疑是高负载场景积极调度、中低负载再节能的策略。

其实预设的几种电源计划均挺符合直觉的,没必要过于纠结。即便有极端省电需求也不建议完全小核优先,其实该设置中的所谓「高效处理器」也就是小核还真未必比限制后的大核能效比高。看看对功耗更加敏感的移动端,都有越来越多大核的势头,乃至天玑的全大核构想。当然移动端大核甚至还没够到桌面端的小核,不能简单横向比较。不过时至今日我依然对桌面端异构架构持保守态度。

以上都是针对 Intel 新处理器的情况,对于 AMD 全大核处理器,Windows 11 的大小核调度反而引入额外问题导致游戏场景表现甚至不如 Windows 10。众所周知,锐龙 CPU 各核心都有成为 CPPC 属性,代表各个核心的「体质」,在 AMD 官方工具 Ryzen Master 中可以查看的金、银核心分别就是 CPPC 最高的两个核心,而 Windows 11 会将 CPPC 最低核心视为小核(高效处理器)进行调度。通过上述真正大小核的 Intel 处理器上观测的不同异类调度策略并在 AMD 全大核处理器上对应测试,发现 Windows 11 对 AMD 处理的调度的确遵循 N-1 个高性能处理器和 1 个高效处理器的策略。这样默认的调度策略会更不倾向调用所谓的小核,这种不对称可能会导致更多的跨核行为、特别是游戏场景频繁地 L3 缓存争用造成无端性能损失。

之前的民间偏方,在 BIOS 开 PBO、XMP/EXPO 的同时顺手把 CPPC 关掉,或许也是由此而来。

早在去年 UP 主 @开心的托尔酱 在 关于 Windows 系统对 AMD 的负优化—异类线程调度 就有提到这个问题。而在最近 AMD 在社区更新 关于 Zen 5 游戏性能提升远不及理论的回应,宣布 Windows 11 24H2 将通过优化「branch prediction」 来提升 AMD Zen3/4/5 系列处理器的性能表现,部分游戏甚至有 10% 以上提升,要知道 Zen 5 由于相较于前代提升过于微妙有被戏称「Zen 5%」,更有特例 5700X3D 在 Windows 11 上性能表现比 Windows 10 差 15%……该说锐龙 CPU 首发一如既往地一言难尽呢、还是说与 Windows 合作不够紧密呢?

当然,尽管 Windows 几个电源设置的预设符合直觉无需额外调整,电源设置里还是有很多可玩性的,例如不用重启调整 CPU 睿频参数等。具体不再展开,感兴趣可以参阅 Windows 电源设置注释

Windows 11 在「设置 > 账户 > Windows 备份」中可以设置包括文件、设置等备份选项,但似乎必须绑定微软账户使用,对于离线账户并不友好。且这种方法不支持备份系统。

个人认为更好用的还属控制面板中的「备份和还原(Windows 7)」,不仅支持对系统分区全量备份,还支持制作系统镜像和系统恢复盘。虽然 Windows 在 知识库 中鼓励大家尽可能使用设置取代控制面板,无奈前者体验还偏偏不如后者。

此外,Dism++ 也提供系统备份功能,同时支持不添加文件的增量备份(不算快照)。Dism(Deployment Imaging and Management)是 Windows 自带的一个工具,用于安装和维护 Windows 映像,Dism++ 只是将常用命令封装成 GUI 便于操作,并没有额外单独实现,这种备份也算是半官方方法。

还有两个系统功能看似很好用但是我不推荐:一是系统检查点,它本意主要用于系统更新失败的回滚,很难说胜任纯粹的系统备份,对个人文件的行为很奇怪经常在回滚的时候搞得一团糟;而文件历史,它默认备份整个用户目录,需要自己一个个排除,且该功能仅放置于控制面板,微软对此也并不算上心,一个 bug 三五年不修。

话说回来,目前单独备份系统的意义远不如备份文件,通过链接把一些应用的数据文件夹(例如微信保存的文件)link 到其他分区、外置存储乃至云端上,更多链接操作留到后续关于快捷创建链接的工具那一部分。

Windows 11 正常要求硬件支持 TPM 2.0。TPM 芯片是一种安全加密处理器,包含多个物理安全机制以防篡改。BitLocker 会将专用密钥存储在 TPM 芯片内,在除了更改 TPM、BitLocker 检测到 BIOS 或 UEFI 配置、关键操作系统启动文件或启动配置的更改之外的情况下,BitLocker 会自动解锁,用户登录无需进行任何额外交互即可解锁。无其他加密手段建议对系统盘开启 BitLocker,这已经是 Windows 集成最高、最无感的方式。

关于几个关键问题:

如果真有换设备需求,但是事先忘记解锁 BitLocker,会导致无法访问数据吗?

不会。在创建加密的时候 BitLocker 同时会创建恢复密码,可以将其打印或存在安全位置。检测到硬件更改后 BitLocker 进入恢复模式,用户输入恢复密码可以重新访问数据。

备份工具是否支持 BitLocker 加密盘?

对于基于文件系统的备份方式来说,理论上解锁后 BitLocker 是透明的,先解锁再备份即可。对于分区的备份方式,理论上可以不解锁整个区拷走,但是加密后不知道哪一部分是空的会导致备份文件更大且不好压缩,虽说 BitLocker 通过长长一串恢复密码也可以离线挂载,但不建议盲目还原。

BitLocker 是否会影响性能?

理论上会,但实际上体感不明显。别单看开 BitLocker 后硬盘读写速度有的下降超 10%,解密过程应是压力越大损耗越明显,所以不能根据硬盘测速这一极端压力情况下的性能损耗来界定 BitLocker 的性能损耗。

BitLocker 闭源,微软可以添加后门,如何保证安全?

你说得对,可以尝试开源方案 VeraCrypt,支持 Windows 11 系统加密,在普通分区加解密上还提供更好的跨平台支持,但是 VeraCrypt 不支持 TPM 且由于理念不合永远不会支持,在和 Windows 集成上肯定也不如 BitLocker 无感。看你愿不愿意拿所谓的安全换便利了。

平心而论,这个软件本身并没有什么问题,但是大陆用户对「电脑管家」的 PTSD、早期仅在中国区推送和不事先提醒地静默安装才是其被人诟病的原因。

后来,我的区域美国、语言英语的 Windows 11 也被推送,Reddit、Discord 也有相关讨论,才得知微软打算全球推送。单看软件本身,清理、加速、系统保护项、应用管理、常用小工具(截图、字幕、翻译、词典、以图搜图等)还有快捷修复建议,其实就是可能原本在设置里藏很深的 Windows 已有功能的拿出来,不需要联网也没有广告,不像小组件和 Office Plus 那样尽塞垃圾。

如果抛开前两点,静默安装也确实不厚道,用户的诟病并非完全无端。不过实现手段其实不是 Windows 更新而是 Edge 后台下载安装包安装。所以它就单纯是个软件,看不惯直接卸载就好。Edge 自从某次我重装系统后,在搜索 Chrome、进入 Chrome 官网时用大半个页面阻挠我安装 Chrome 我就已经心留芥蒂,出了这一茬直接让我彻底禁用 Edge,还不能简单卸载,留到后面 Remove MS Edge 插件部分。

除了深入设置、注册表、组策略等方法调整系统外,还有一些第三方插件可以帮助我们更好地使用 Windows 11。当然这里提到的插件依然主要针对系统调整,不发散到更广泛的效率提升上。

Windows 本身其实一直缺乏一个好用的包管理器,不提不如 Linux 各发行版的,就连 HomeBrew 类似产品都没有。微软官方推行的 WinGet 严格意义上称不上包管理器,它并没有提供统一的包格式,而是依赖于各个软件的安装程序下载下来静默安装,正如 HomeBrew Cask。Scoop 才稍微有些包管理器的感觉,安装同时也能自动配置环境变量,在迁移时备份还原更方便。如果不介意添加多余的工具,用 UniGetUI 可以一次性管理 WinGet, Scoop, Chocolatey, Pip, Npm, .NET Tool 和 PowerShell Gallery 多个包管理器。

仅关于 Scoop 的安装,在 PowerShell 中输入以下命令即可:

倘若你还希望使用 UniGetUI,可以在 PowerShell 中输入以下命令通过 Scoop 安装:

Windows 并不像 macOS 通过三个应用分别控制桌面、Dock 栏、Finder,而是通过一个「资源管理器」一并控制。而 Windows 11 相较于 Windows 10 许多令人不满的改动──任务栏、开始菜单、右键菜单──都可以通过介入资源管理器来调整。

虽然前面系统设置部分已经提到部分调整手段,但是这些调整往往需要手动修改注册表等隐藏更深的手段。如果你不想折腾,亦或是觉得这些调整不够全面,可以尝试 ExplorerPatcher 这款开源插件,不仅可以将任务栏、开始菜单、右键菜单一并调回 Windows 10 风格,还有许多诸如 Office Key、禁止文件高级搜索、取消窗口圆角等功能。

虽然在部分时刻,例如系统更新后,ExplorerPatcher 偶有失效,但考虑到开源插件能做到这种程度,完全配得上其自称的「增强 Windows 上的工作环境」宗旨,无需吝啬赞美。

开源项目 Power plan switcher 可以在系统托盘中切换电源计划,支持快捷键、自动切换等功能。

一般来说对于长期接通电源或者没有续航焦虑的设备可以常驻「高性能」或「卓越性能」电源计划,这些计划的默认设置已经十分符合直觉,无需额外微调。

而对于笔记本电脑,它有时接通电源有时使用电池,前往控制面板翻出电源计划设置十分麻烦。PowerPlanSwitcher 可以不仅在系统托盘中切换电源计划,还支持在电源状态变化(从 AC 供电到电池供电)时自动切换对应电源计划。

官方称该软件支持 Windows 10,但实际上在 Windows 11 上也能正常使用。

Microsoft PowerToys 是一组实用工具,可帮助高级用户调整和简化其 Windows 体验,从而提高工作效率。

——Microsoft PowerToys

作为一款出现在 Microsoft 知识库的官方工具,可能考虑到不用像 Windows 那样背负沉重的历史包袱,PowerToys 工具箱中的绝大多数功能都轻量、专一且直击用户需求,被誉为 Windows 用户必备瑞士军刀,且在 GitHub 上完全开源,算是微软给我留下正面印象的产品之一。

早在 Windows 95 时代,PowerToys 就集成了包含了 Tweak UI 在内的共计 15 个小工具,Tweak UI 可以调整 Windows 中原本需要修改注册表才能访问的较为晦涩的设置。微软在 2019 年接管并重新推出 PowerToys,目前也已经有如下我认为很好用的功能:

同时还有诸如 Color Picker、Image Resizer、Text Extractor 等一众小工具,让你免去管理一堆小工具的烦恼、也减少众多工具中出现某几个断更的风险。PowerToys 也有丰富的 第三方插件,例如 PowerTranslator 在 PowerToys Run 中直接翻译文本、
EverythingPowerToys 在 PowerToys Run 中通过 Everything 检索文件、
ChatGPTPowerToys 在 PowerToys Run 中调用
PowerToys-Run-Spotify 在 PowerToys Run 中让 Spotify 放歌等等。

各个工具具体用法这里不再赘述,PowerToys 每个工具页面都有详尽的描述。

单看 PowerToys Run 中的文件搜索功能其实比较孱弱,而 Windows 资源管理器的搜索效果更是惨不忍睹。Everything 通过访问 NTFS 文件系统的 USN 日志,在数秒内检索 TB 级别硬盘,并实时监测所有文件的增改情况,同时支持通过正则表达式进行文件精确匹配,还可通过插件与 PowerToys Run 联动。

自从某次我重装系统后,Edge 在搜索 Chrome、进入 Chrome 官网时用大半个页面阻挠我安装,反而彻底让我将 Edge 定位明确为 Chrome 下载器。更改默认浏览器后某些链接还是会给我跳转到 Edge 打开,之后还闹出自动下载静默安装微软电脑管家一事。

不过 Edge 是不能够简单直接卸载的,可能会导致一些依赖系统 WebView 的应用出问题,而且可能在某次重启后惊觉 Edge 又回来了。

Remove MS Edge 这个工具旨在通过可执行文件或批处理脚本以静默方式彻底卸载 Microsoft Edge,并提供保留 WebView 选项。

虽然 PowerToys 的 Keyboard Manager 也能完成一些键盘映射的工作。但是 AutoHotKey 作为完整脚本语言,功能更加强大,可以实现更多的自定义功能。

例如我对于大写锁定键的需求很小,但是却又有频繁的中英文输入法切换和自定义快捷键需求。自定义快捷键时一般会引入 Hyper 键 的概念,在 Windows 上即同时按下 CtrlShiftAltWin 四个键,这样可以避免与系统快捷键冲突。

我希望产生下述行为:

这种行为仅通过 PowerToys Keyboard Manager 是难以实现的,但是通过 AutoHotKey 可以轻松实现:

同样的,在 macOS 中文输入法会自动将 Shift + [/] 映射为部分中文排版更推荐的直角引号「/,而 Windows 自带输入法并没有这个功能。除了更换输入法、全局替换掉某个键、设置字典打出一对引号等方法,通过 AutoHotKey 识别当前输入法状态并映射不同的按键不失为一种更优雅的解决方案。

Windows 上也有自带的 Win + V 的高级剪贴板功能,甚至可以和微软账户绑定实现云同步。但是这个功能对我而言比较花里胡哨,UI 确实更加现代化也与系统保持一贯风格。不过系统自带的剪贴板历史过于循规蹈矩,保存的历史条目太少不说,在隐身浏览器模式下乖乖不记录。Ditto 作为一款开源剪贴板增强工具,UI 更加简洁紧凑,可以保存更多历史记录、支持搜索、支持自定义快捷键、同时还有清除格式等高级粘贴功能。

配合 AutoHotKey 设置的 Hyper 键,我一般通过 Hyper + V 调出 Ditto 剪贴板历史记录。

C++ 编写的小工具具有不俗的性能,在保存 300 条目且不随时间清空的情况下,调出和检索都察觉不到卡顿,且占用极低只用个位数 MB 内存。

macOS Finder 中,Quick Look 赋予空格快速预览文件夹属性或者多种文档内容功能——俗称「一指禅」。Windows 用户一直垂涎这种功能,虽然 Windows 资源管理器也可以通过侧边栏预览,但是这种方式开启后任何选中都会预览,占用大量资源,同时支持的文件内容类型也有限,还会有反馈带来奇怪 bug。

这催生了 Windows 同名第三方开源插件 QuickLook,行为几乎与 macOS Quick Look 一致,通过空格快速预览,同时支持通过 引入插件的插件 形式支持预览 markdown、jupyter notebook、电子书等更多格式文件,并且支持在 Directory Opus、FilesOneCommander 等第三方文件管理器中使用。

MacBook 触控板和妙控板凭借着超大的触控面积、以假乱真的震动体验和 macOS 软硬结合,造就了曾经以及当下最优秀的触控板体验。许多 macOS 用户或许和我一样并不愿意使用鼠标,而是更倾向于触控板。其中稍微有些弯弯绕绕就属 macOS 的三指拖拽,如此好用的功能就藏在辅助功能里。

当然随着微软给出精确式触控板的驱动和建议硬件规格,也体现出 Windows 对于触控板的上心,目前绝大多数 Windows 设备触控板也都支持精确式触控板,相当一部分产品日用体验已足够优秀。可惜的是即便系统对于多点触控的支持已经覆盖从二指到四指,但是三指和四指滑动手势略有重合且使用频率不高,Windows 也没有给出类似 macOS 的三指拖拽功能。

好在可以通过插件 ThreeFingerDragOnWindows 在 Windows 上实现 macOS 的三指拖拽,依赖 .NET 运行环境实现。使用前请确保通过触摸板设置中禁用「轻点两次并拖动以多选」行为和所有默认的三指轻扫行为,这样拖动操作才不会受到干扰。

相较于 Windows 10 主题色、背景和明暗模式的割裂设置,Windows 11 将更统一、更完善的「个性化 – 主题」设置提到更优先位置,并提供若干预设主题。但是 Windows 11 仍然没有 macOS 那样的自动切换深色模式功能。Windows Auto Dark Mode 支持通过设定固定时间或跟随该定位的日出日落时间自动切换深色模式,同时可以自定义深色、浅色模式对应主题。

在前文提到:

目前单独备份系统的意义远不如备份文件,通过链接把一些应用的数据文件夹(例如微信保存的文件)link 到其他分区、外置存储乃至云端上……

所谓「链接」,在文件系统中指的是软链接(符号链接)和硬链接──两种创建文件引用的方法。软链接(符号链接)是指向另一个文件或目录的路径,可以跨文件系统,类似于快捷方式;如果原文件被删除,软链接会失效。硬链接是直接指向文件数据的引用,两个文件共享相同的物理数据块,它们的内容完全一致,删除一个硬链接并不会影响到文件的实际数据,只有所有硬链接都删除时,数据才会被清除。硬链接只能在同一文件系统中创建,其实文件管理器上的几乎所有文件都可以被看作是硬链接。

更详细关于链接的介绍可以参阅少数派文章 符号链接、硬链接及其在 Windows 上的应用举例。我对 Link Shell Extension 的初识也正是在这篇文章中。一个最常见的案例是,对于 小而美 微信可以将其 Files 文件夹移动至 OneDrive,然后通过符号链接将其链接回原位置,这样既可以保证微信正常运行,又可以实现微信保存的文件备份。该插件的多版本硬链接功能会自动分析和前一次的差异并对不变的内容创建硬链接,实现增量备份,但该功能不能链接到外部存储,仅适合在同盘做备份版本管理。

特别注意,少数派文章中介绍的「中键拖动」快速创建链接操作适用于 Windows 11,正确操作应当修改为使用右键拖动。

虽然 Windows 自带输入法对于绝大多数用户已经足够好用。但是我有跨设备需求,特别是需要兼容 macOSWindows 双系统,这导致明明两者的系统自带输入法都可圈可点我都率先排除。而高度自由、高度定制的 RIME 进入我考虑范围。在 Windows 上通过 Weasel、在 macOS 上通过 Squirrel 实现 RIME 输入法的部署,在 Linux 上还有诸如 ibus-rime 等多种版本。

但 RIME 的高度自由伴随的也是较高准入门槛。好在开源项目 oh-my-rime 及其 配套配置教程 算是相当程度上降低这种门槛。但这种打包配置并未限制你设置自由度,你依然可以根据自己的需求自行修改配置文件,例如取消 Shift 切换中英文、更改翻页快捷键和以词定字快捷键等等。

许多功能和其他配置在 oh-my-rime 项目教程中也有提及,这里单独展开讲一下多设备同步。虽然该教程中也完整提到同步设置,但是同步行为是要用户手动触发的,而平时工作中很可能忘记触发。更优雅的方案是通过 Windows 的计划任务触发同步:

OpenAI 推出全新 Canvas 工具,帮助用户更好地写作和编程 ,以及完整「Canvas」 的系统提示词泄露

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

推出了一款叫做 Canvas 的新,用来帮助用户更好地与 协作写作和编程。

OpenAI 推出全新 Canvas 工具,帮助用户更好地写作和编程 ,以及完整「Canvas」 的系统提示词泄露

写作的快捷方式包括:

编程的快捷键包括:

模型功能

详细介绍:https://openai.com/index/introducing-canvas/

你是 ChatGPT,由 OpenAI 训练的大型语言模型。

JAILBREAK PROMPTS FOR LIBERATING MODELS. Contribute to elder-plinius/L1B3RT45 development by creating an account on .

ChatGPT Canvas 全新 AI 写作、源码、文本编辑工具,功能测试

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

最近推出会主动思考推理的「 o1-preview 」,以及更即时、自然的「高级语音对话模式」后,今天又再次推出新功能:ChatGPT Canvas」,这是基于 GPT-4o 架构开发的全新 写作、源码编辑界面。让 ChatGPT 不再只能对话,而可以进行更深入、准确的内容创作工作。

第一波更新中,ChatGPT Plus 和 Team 用户会先获得 Canvas 功能,而全球的企业和版用户将会在下周获得使用权限。并且 还计划在 Canvas 正式发布后,向所有 ChatGPT 用户开放这项新的人机协作界面。

实际测试后,我觉得可以把「ChatGPT Canvas」想象成一种 AI 文本、源码,在这个中,人和 AI 可以更有效率的协作,共同编辑更好的内容成果。

以前的 ChatGPT 是即时通,一切内容要在对话中生成,也只能用对话引导 AI 去生成、修改,这很多时候会有点麻烦,常常在问答的过程偏离主题,难以指定要修改的部分,容易愈改愈乱,再也回不去之前更好的版本。

但是「ChatGPT Canvas」能够解决上述问题,它让人与 AI 在一个类似文本编辑的界面中讨论,就像多人一起编辑一份在线文件那样,可以一起处理文字、源码内容,可以针对任何指定段落修改,能够整合人与 AI 各自编写的内容,最后一起合作完成一份文本。

于是, ChatGPT 不再只是「对话软件」,而可以当作真正的「AI 文本内容、源码内容编辑器」,你可以利用来处理下面的工作流程:

在这篇文章中,我通过一个完整的写作实测案例,带大家了解 Canvas 的操作流程、快捷功能以及它如何帮助创作者解决具体问题。

ChatGPT 的 AI 模型中切换到「GPT-4o with canvas」模式,下面我测试看看利用这个新界面编写一篇文章。

首先,我先利用原本常用的 AI 指令结构,结合我的想法草稿,请 ChatGPT 改写成一篇完整的文章内容。

ChatGPT Canvas 全新 AI 写作、源码、文本编辑工具,功能测试

当 AI 开始编写文章草稿,或是源码时,「GPT-4o with canvas」就会像是下图这样,进入独立的文件编辑界面。

进入独立的 Canvas 编辑界面后,最大的优点就是,我们甚至可以直接在上面修改 AI 生成的文章内容。

于是这样一来,可以实现更流畅的「人与 AI 的协同写作流程」。

以前 AI 生成的内容,我们有不满意的地方,无法人为的介入修改,只能让 AI 自己去改,而常常愈改愈乱。

现在, AI 生成的草稿,我可以直接在编辑界面介入,修改成我觉得更好的版本,然后再请 AI 接续调整,实现真正的人与 AI 协同合作。

「GPT-4o with canvas」不只可以修改内容,也可以调整粗体、标题样式,就像是一个结合 AI 功能的简易 Word 编辑器,还支持 markdown 编辑格式

以文章写作的 ChatGPT Canvas 界面为例,编辑界面右下方会出现一排「快捷功能菜单」,文章写作、源码编辑会有不同的对应菜单。

「快捷菜单」中有很多默认功能,可以快速修改整篇文章、源码的内容。

例如其中有一个「阅读等级」的调整按钮,可以把文章的内容改成从小孩子到博士等级的不同风格与深度。

下面是一篇我让 AI 改写的、文章,我让 ChatGPT 把原本相对专业的文章内容,改成适合小朋友阅读的版本。

而下面是同一篇第二大脑的教程文章,我让 ChatGPT 把原本相对口语的草稿,改成更精炼、专业的文章风格。〔可以跟上面的小朋友版本进行比较,都是同一篇草稿的不同阅读等级修改。

通过快捷功能,一个按钮就可以快速转换我们需要的文字深度与风格。

以文章编辑界面为例,具备下面几种快捷功能:

下图是按下「建议编辑」后,ChatGPT 针对不同段落提供的编辑建议,我只要按下允许,就可以让 AI 直接进行修改。

这是不是跟以前的对话生成内容有很大的不同?现在 ChatGPT 可以针对一篇长篇文章,提供各种分段的调整、建议与修改。

除了整篇文章的快捷修改、建议外,在「ChatGPT Canvas」的编辑界面中,我可以任意圈选一段觉得有问题的段落,这时候会浮现「Ask ChatGPT」的按钮,点击后,我可以输入这一段的修改建议,让 ChatGPT 去进行指定段落的调整。

这是不是很像我们在 Google 文件上提供伙伴文章修改建议?只是这一次,AI 成为我的伙伴,听从我的指令去修改。

更棒的事,在「ChatGPT Canvas」中不用再怕 AI 修改内容后,回不去之前可能更好的版本。

因为在编辑器中,自带了可以还原之前版本的功能,而且不只可以还原到前一个版本,也可以回到上上版、上上上版,或是跳回最新版本。

经过简单的文章写作实测,我们可以看到 ChatGPT Canvas 的可能性,它突破了传统 AI 对话生成文本的限制,将人机协同的创作流程无缝结合,无论是在写作还是程序设计的应用场景中,Canvas 以更灵活的编辑能力和快捷的功能,帮助用户实现了更精准、有效的工作流程。

对于我相对熟悉的文章创作者而言,ChatGPT Canvas 不仅提供了文稿即时的优化、编辑建议,还能调整文本的阅读等级和风格,帮助你快速针对不同的受众进行调整。而对于程序员,Canvas 的源码、注解添加与错误修正功能,让程序开发过程变得易于维护。

这样的功能让人与 AI 之间的互动变得更具深度,不再只是被动地接受 AI 的生成内容,而是能主动参与其中,实现真正的协同创作。

无论你是需要改进写作的创作者、需要帮助调试的程序员,还是想要在教育中使用 AI 辅助的教师或学生,ChatGPT Canvas 都是一个值得一试的工具。

为了抢夺 AI 人才,马斯克在 OpenAI 旧总部开了一场招聘会

10 月 1 日,OpenAI 在旧金山召开了年度开发者大会「DevDay 2024」,此时的 OpenAI 即将获得一笔 66 亿美元的融资,创下硅谷历史上最大融资的历史。

就在同一天稍晚时候,马斯克在位于旧金山的 OpenAI 旧总部,召开了一场别开生面的 AI Party。

晚上 8 点半,由 AI 实时编写生成的音乐停止播放,马斯克在保镖的簇拥下,站上一张桌子,向与会者发表讲话:

我们想创造一个尽可能良性的超级 AI。

以这句话为引子,马斯克讲述了为什么要创办 xAI,并将其搬到近十年前他帮助创办 OpenAI 的同一间办公室。

2015 年,马斯克与 OpenAI 的 CEO Sam Altman 以及一群志同道合的伙伴共同创立了 OpenAI,但仅仅三年后,他就退出了董事会。

虽然当时他给出的理由是特斯拉专注于人工智能,并认为自己的公司与 OpenAI 未来可能会有冲突,但又推翻了这个说法,声称分手的原因是理念不合,在 2023 年,马斯克甚至一度以 OpenAI 违反了自己的非盈利使命为由,一纸诉状将 OpenAI 送上了法庭,但根据曝光的邮件来看,马斯克是在试图获得 OpenAI 的控制权,包括要求 CEO 职位和多数股权,未果后选择离开。

接下来的事情就简单多了,既然掌管 OpenAI 失败,那就自己搞一个。

2023 年 3 月,在社交媒体平台 X 办公楼的第十层,xAI 诞生了,初期的团队成员由特斯拉、SpaceX 以及他 17 岁的儿子、表兄弟和管理家族办公室的 Jared-Birchall 的儿子组成,后续又招募了来自 OpenAI、微软以及 Meta 的研究人员,目的是在三个月内超越 OpenAI,提供一个有竞争力的大语言模型。

此后,马斯克从合伙人摇身一变,彻底成为了 AI 市场新的挑战者,只是想要与 OpenAI 等公司过招,显然不是一件很容易的事情。

在外部竞争与内部压力下,xAI 的第一个模型 Grok 于 2023 年底推出,这是一个面向 X 的付费用户的聊天 AI,不过,Grok 的核心功能目前还比较依赖外部技术,比如搜索方面依赖微软的必应,在查询重写方面则依赖 Meta 的开源 Llama 模型。

这样的依赖带来了不可控的风险,比如一个多月前,xAI 与黑森林实验室(Black Forest Labs)达成协议,为图像生成提供支持,但由于该功能缺乏其他图像生成器设置的防护措施,人们可以随意生成穿着内衣的泰勒·斯威夫特以及拿着枪的卡马拉·哈里斯。

对此,马斯克在 X 上回应说,与外部技术的合作有利于让 xAI 能更快地在 Grok 中推进自己的研发。

一位熟悉 xAI 工作内容的人士称,除了目前已有的功能外,xAI 还在开发语音和搜索功能,就像 OpenAI 和 Meta 的语音模式一样,Grok 也能与人对话,并提供 X 上的新闻故事摘要和热门话题。

想发展得更快,人才是关键。

于是,当 OpenAI 的 CEO Sam Altman 刚在几个小时前向高朋满座的开发者发表完演讲,马斯克后脚就来挖墙脚了:

加入 xAI,帮助建立一个有用的 AI。

但是,这个世道下的 AI 人才可谓是炙手可热,最优秀的开发者可以轻松赚到数百万美元,想要将这些人收入囊中,还需要报酬之外的针对性招揽。

比如其中许多人都对 AI 的未来抱有利他主义的愿景,他们希望自己参与创造的 AI 可以通过某个途径帮助世界变得更好,而不是单纯的获利工具。

马斯克看中了这一点,于是在这场 Party 中尽力去迎合了这部分开发者的利他心理,顺带还踩了一下 OpenAI:

ChatGPT 是封闭的、以利润最大化为目的的人工智能,所以我无法信任它们,AI 不该被 OpenAI 或 Google 这样的公司控制,它们总是将最佳模型保密。xAI 将改变这一点:AI 模型属于 xAI,但会与全世界共享。

满足了理想主义的开发者后,马斯克也不愿意放弃实用主义的开发者,除了这些虚无缥缈的东西外,xAI 的确有着自己的吸引力:小步快走。

与像 OpenAI 这样规模更大的竞争对手相比,在 xAI 的优点非常明显:较小的团队与较短的开发周期,使 xAI 可以加快步伐,快速创新。

这种灵活的工作环境意味着开发者可以更自由地实践想法,而不是被繁琐的审批流程束缚。快速迭代的节奏也让开发者能更快看到自己的成果,吸引那些渴望看到 AI 快速发展的人,赋予他们更多成就感与掌控力。

双管齐下,马斯克的这场「Party」,井然成为了一场精心准备的招聘大会,也是 xAI 面对逐渐白热化的 AI 市场的军备竞赛。

此时,OpenAI 凭借其大语言模型和新一轮 66 亿美元的融资,继续推动人工智能前沿技术,并保证自己的霸主地位;Google 利用其强大的计算资源和深厚的技术基础,专注于开发更强大的 AI 模型,并在个人终端上率先落地;而 Anthropic 以安全和可靠性为核心,致力于构建对人类更友好的 AI 系统。

三家公司在研发、人才和计算资源上展开了激烈的竞争,争夺 AI 领域的领导地位。

而马斯克对 xAI 的期望也不外如是,能像 SpaceX 在火箭领域一样,xAI 也要在 AI 领域占据主导地位,并相当乐观地预测在未来五年中,OpenAI、Anthropic、Google 和 xAI 将是这场竞赛的主要参与者。

这并非自大,今年 5 月,xAI 已经从安德森-霍洛维茨(Andreessen Horowitz)、光速创投(Lightspeed Venture Partners)和红杉资本(Sequoia Capital)等几位知名投资者那里获得了 60 亿美元的融资,公司估值达到 240 亿美元。

并且有消息称,OpenAI 的首席执行官 Sam Altman 正在执行一项全球性的任务,与阿联酋领导人、亚洲芯片制造商和美国官员会面,为 36 家半导体工厂和数据中心筹集了 7 万亿美元,旨在推进 OpenAI 对 AI 的研发,而在最新一轮融资后, Altman 直接要求这些支持者不要投资 xAI 这样的竞争对手,以杜绝更强的竞争者威胁到自己,也算是侧面印证了 xAI 的潜力。

在这场既是招聘会,又是宣战书的 Party 最后,马斯克毫不遮掩自己的野心和策略,他把 xAI 比作一家超音速喷气飞机公司,与冷战时期的 SR-71 黑鸟侦察机相提并论:

SR-71 黑鸟从来没有被击落过,因为它只有一个策略:加速,用不断的加速去解决所有麻烦。

用 SR-71 作为例子,的确非常巧妙,xAI 现在需要的就是不停的加速、不停的加速,才有希望赶上三个巨头的脚步,并在三足鼎立的格局中插上一脚。

但需要注意的是,SR-71 黑鸟侦察机虽然使用了当时最强的技术,在滑行时却依然漏油。只有在加速到巡航速度飞行时,金属的膨胀才可以密封所有泄漏点,解决漏油的问题。

也就是说,一旦 SR-71 出问题,它唯一能杀死的只有自己的飞行员,而不是敌方的有生力量。

晚上十点整,所有与会者离开现场,这场 AI Party 在黑夜里落下帷幕,但 AI 领域的正面交锋,正在拉开序幕。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 中文语音对话测试心得,头脑风暴、即时口译、冥想教练

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

之前让许多人惊艳的「进阶语音模式」功能,今天开始陆续针对 Plus 与 Team 用户推出。这个模式最大的特色,就是可以用更加自然〔接近于真的跟一个人聊天〕的对话方式,让用户通过语音与 进行交流。

相较于旧版的功能,新的语音交谈过程更加流畅、AI 反应迅速、接话过程几乎没有等待,也能随时打断 AI、插入新话题,除了可以支持多国语言在同一个对话中自由切换外,还能让 AI 模仿或调整各种对话风格等等。

那时候在 推出的官方中,这个 AI 进阶语音不只是更自然流畅而已,他还可以结合看的功能〔摄影镜头〕来回答用户问题,或是在语音中识别出用户的情感而提供对应的回应,这些跟原本拟人化的语音结合在一起,效果确实令人惊艳。

不过目前的「进阶语音模式」功能,似乎还没有当时视频中「完成体」的样子,在我实际的测试中,目前的〔2024/9/25〕的「进阶语音模式」有下面这些特点与限制:

ChatGPT 中文语音对话测试心得,头脑风暴、即时口译、冥想教练

我测试了几个 ChatGPT「进阶语音模式」的情境,下面跟大家「纯心得」,之所以叫做纯心得,就是因为我没有时间录制成视频再剪辑,所以真实过程其实是手机 上的语音对话,但我就用事后图文的结果来说明

首先,我之前就尝试过,利用跟 ChatGPT 进行一来一往的语音对话,一起构思一个企划案、文章草稿,例如,ChatGPT 假装成一个采访者,采访我对某个主题的想法,引导我把想法说出来,最后我就可以把这些内容转换成报告或文章。

旧版本的时候,其实我就已经觉得满好用的,只是那时候 ChatGPT 的每一次回应「要等很久」,所以对话过程相对生硬很多。

但使用新版的「进阶语音」模式,整个对话讨论过程完全不需要等待,AI 几乎都可以立即回应、接话,而当我 AI 说的东西走偏时,我也可以立即打断他,重新拉回主题。

最大的改变就是整个过程会更迅速,更节省时间,而脑中的想法可以更顺畅地说出,更有头脑风暴的感觉。

我喜欢用这种来回对话的方式,把很多想法激发出来。

经过完整的语音讨论后,请 AI 统整前面的讨论,整理成报告、文章的草稿。

不过,最后这一段我用的是文字的指令,当我这样做之后,这个聊天室就不能再进入进阶语音模式了

其实现在有很多 App 可以做类似的事情,无论是真人还是 AI,有一个在线家教,通过语音来教我们学习一些事情。

于是我试试看让 ChatGPT 通过「进阶语音模式」,当一个冥想教练。

首先,我先试试看在对话中让他调整语调。〔毕竟冥想教练的语调应该更缓和、舒服一点〕

然后我请他当一个冥想教练,通过进阶语音模式,引导我进行深呼吸的练习,或是引导我做大脑放松,效果还可以,这看起来也是一个适合 ChatGPT「进阶语音模式」做的事情。

当然,在这种特别需要情感的情况下,AI 的声调听起来还是比真人的语调生硬一点点。

或者,我也请 ChatGPT 通过「进阶语音模式」当一个英文家教,带我练习口说。

相较于旧版本,因为现在对话过程更流畅,所以更有面对面家教的感觉。例如我先跟他说明想要学习的背景,通过讨论,我们决定一起来练习旅行中的英文。接着 AI 提示我可以先练习餐厅中使用的英文,于是他先说几句如何点餐的用语,然后要求我照着念一次,并且会给我即时回馈。

这部分的过程非常顺畅也满有用的,而且可以通过对话随时调整成自己想要学习的内容,比很多固定的英文学习 App 更好用。

我也尝试看看把这样的「进阶语音」当作翻译来使用看看,以后如果有旅行、会议场合,可否帮我更快速、流畅的翻译双方沟通的内容呢?

首先,我进入语音对话后,先做一些设置,请 ChatGPT 充当即时口译的角色,并告诉他听到什么语言时,要口译成什么语言。

然后我说了一段中文,他很顺畅地直接翻译成正确的日文内容,当然,是用说的说出来。

然后我尝试在不同的语言之间切换,ChatGPT 的 AI 语音都可以即时口译成我需要的另一种语言。

而且当使用台语〔闽南语〕沟通时,ChatGPT 的 AI 语音也能听得懂,并且也会用台语回答。

整体来说,昨天初步测试,上述几个应用情境,对我来说就可以生成很大帮助:

使用 ChatGPT Plus 或 Team 版本的用户,值得试试看。

OpenAI 不 Open 了?公司重组、高层地震,但也没坏得那么糟糕


OpenAI 不 Open 了?

根据以往多家可靠外媒的爆料,以及 OpenAI 这些时日以来的举动,上面的疑问句或许也可以换成陈述句。

今天凌晨,据路透社报道,OpenAI 计划重组为营利性共益公司,不再由非营利性董事会控制,不过,这一计划仍在与律师和股东商讨中,完成重组的时间表仍不确定。

OpenAI 重组后的公司结构将类似于老对手 Anthropic 和埃隆·马斯克的 xAI。这是一种特殊的企业形式,旨在追求经济利益的同时,也将致力于促进社会责任和可持续发展。

报道称,未来 OpenAI 的非营利组织将继续存在,并拥有这家重组后的公司的少数股权。

消息人士表示,重组后的 OpenAI 公司价值可能达到 1500 亿美元,而这却取决于能否颠覆公司结构并取消投资者回报上限。

路透社此前曾报道称,取消回报上限需要获得 OpenAI 非营利委员会的批准,这个董事会由 Altman、企业家 Bret Taylor 和其他七名成员组成。

消息人士补充说,鉴于 OpenAI 营收的快速增长,本轮大规模融资的投资者需求旺盛,可能会在未来两周内敲定。

Thrive Capital、Khosla Ventures 以及微软等现有投资者预计将参与投资,英伟达和苹果在内的新投资者也计划投资。红杉资本也在洽谈回归投资事宜。

路透社报道称,OpenAI 的新一轮融资预计以可转换票据形式出现,若重组不成功,OpenAI 需与投资者重新谈判估值,可能以较低数字进行转换。

值得注意的是,OpenAI 的掌舵人 Sam Altman 也将首次获得公司股权。

目前尚不清楚 Altman 将获得多少股权。而作为亿万富翁的他曾经表示,「我没有 OpenAI 的股权,我做这项工作是因为我热爱它。」

不过,Altman 也没有完全说实话, 他并不拥有 OpenAI 的任何股权,但他拥有 Y Combinator 的股权,而 Y Combinator 拥有 OpenAI 的股权。

OpenAI 发言人表示:

我们将继续专注于打造造福于每个人的人工智能,我们正在与董事会合作,以确保我们能够以最佳状态成功完成使命。非营利组织是我们使命的核心,将继续存在。

除了公司结构的地震级重组,OpenAI 目前也面临着高管离职潮的困扰。

从去年 Sam Altman 被罢免开始,OpenAI 的内部动荡似乎从未结束,最近一段时间更是频繁引发高层地震。

今天凌晨,OpenAI 的首席技术官 Mira Murati 突然宣布离职。

在 OpenAI 今年最重要的一场发布会,也正是由 Mira 来发布新模型 GPT-4o。

8 月初 OpenAI 联创、重要元老级人物 John Schulman 宣布从 OpenAI 离职。除了 Schulman 的离职, OpenAI 总裁 Greg Brockman 也正在休长假,而去年才加入的产品负责人 Peter Deng 也已经离职。

在 Mira 宣布离职几个小时后,OpenAI 首席研究官 Bob McGrew 和研究副总裁 Barret Zoph 也陆续官宣离职计划。

对此,Altman 在 X 平台暗戳戳地表示,Mira、Bob 和 Barret 是在相互独立、友好的情况下做出这些决定的。注意,这里划个重点,「独立且友好」。

他进一步说道:

领导层变动是公司的正常现象,尤其是那些发展如此迅速、要求如此苛刻的公司。

但我们不是一家普通的公司,我认为 Mira 向我解释的原因(从来没有一个好时机,任何不突然的事情都会泄露,而且她想在 OpenAI 处于上升期的时候这样做)是有道理的。

在以上两则消息在占据主流舆论视野的同时,另一则关于 OpenAI 视频生成模型 Sora 的消息也正在引起广泛的关注。

还记得今年的 2 月份发布的 Sora 吗?

据外媒 The Information 的报道,OpenAI 正在训练新版本的 Sora,希望能生成更高质量、更长的视频剪辑,并且训练需收集数百万小时高分辨率、多种风格和主题的视频数据。

此前,Sora 曾被曝实际效果不及预期,距离被捧上神坛的「现实不存在了」还遥遥无期。

  • 生成视频速度慢,最初需 10 多分钟才能生成 1 分钟左右短片;
  • 使用困难,电影创作者需生成数百个剪辑才能找到可用的;
  • 风格难保持一致,物体和角色在不同剪辑中难保持一致;
  • 存在物理学和解剖学等错误;

改进后的 Sora 模型将有望解决上述问题,对于创作者和电影创作者而言也是个好消息。

群狼环视之下, OpenAI 似乎在过往总是急于发布演示 demo,但产品却并未真正准备好实际商用落地。这也是这也是 OpenAI 的老毛病了。

ChatGPT 高级语音助手和 SearchGPT 也都存在类似的情况。

两周前,扎克伯格表示,Meta 更倾向于发布新产品以获取反馈,而不是等到产品完美无缺才发布。抛却企业竞争的恩怨情仇,扎克伯格和 Altman 在这一点上倒是聊得来。

而在国产 AI 视频模型一片形势大好,甚至逆势反超的情况下,Sora 的再次亮相也必然需要更精心的雕琢,既要雷声大,也要雨点大,也希望届时能让我们看到一些亮眼的新变化。

写在最后,如果换个角度想,OpenAI 频发的离职潮也不全然是一件值得大加抨击的坏事。

人才是 AI 行业发展的第一资源。Flux 最近的爆火生动诠释了聚是一团火,散是满天星的经典真理。

一批批拥有成熟 AI 研发和管理经验的高管陆续从 OpenAI 离开,也如同种子一样播撒到整个 AI 行业,更好地滋养着行业的茁壮成长。

最典型的标杆当属 Anthropic。

从 OpenAI 出走的 Anthropic 创始人给后来者蹚出了一条新路,而这家公司最近也被曝出正在洽谈新一轮融资,估值预计将达到 300-400 亿美元。

于用户而言,如果说 AI 行业遵循的是没有赢家的残酷法则,那么用户无疑是站在胜利者的位置,享受着技术内卷带来的益处。

于 Altman 而言,尽管他因背离 OpenAI 成立初衷而备受争议,但高层大换血也可能让这家正处于强劲上升势头的 AI 独角兽拧成一股绳,成为一驾唯 Altman 意志的战车。

换言之,抛却道路选择的正确与否,OpenAI 何尝又不是在迎来一种新生?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 们能讲人话后,AI 污染互联网将变本加厉

人类最担心的事情还是发生了。

随意在网上看几篇新闻,却分不清是出自 AI,还是人类之手;忙里偷闲时打把游戏,也分不清队友是 AI 人机还是真人。

直播间里,明星数字人自顾自地吮鸡爪,与卖力吆喝的真人助播形成割裂的场景……

据外媒 404 media 报道,一个原本用来追踪和分析多种语言中不同单词和词汇流行度和使用频率的项目——Wordfreq,现在也成了最新的受害者。

阳光明媚的地方总有阴影潜伏,显然 Wordfreq 不是第一个受害者,也不会是最后一个受害者。

换句话说,最终为之买单的或许还是人类本身。

GPT 们污染语言,人类要为之买单

「生成式 AI 污染了数据,我认为没有人掌握关于 2021 年后人类使用语言的可靠信息。」

这句来自 Wordfreq 项目创建者罗宾·斯皮尔心中的呐喊,透出了几分无奈与愤懑。

要探究这背后的原委,还得从 Wordfreq 的来历谈起。

通过分析维基百科、电影和电视字幕、新闻报道、以及 Reddit 等网站内容,Wordfreq 试图追踪 40 多种语言的变迁,进而研究随着俚语和流行文化变化而不断变化的语言习惯。

对于语言学家、作家和翻译人员而言,Wordfreq 无疑是一项宝库。但是现在,GitHub 地址上偌大的一句声明「该项目将不再更新」,也悲情地给这个项目敲响了丧钟。

曾经,网络抓取公开数据是该项目数据源的生命线,但生成式 AI 的崛起让 AI 文本开始大行其道。

斯皮尔举了一个典型的例子,过去人们很少使用「delve」这个词,而随着 ChatGPT 将这个词汇变成了口头禅,大有李鬼冒充李逵之势,间而也就让失真的词频统计影响了对人类语言习惯的准确分析。

如果这还不够直观,GPT 们那些陈词滥调,比如「总之」、「综上所述」等词汇的泛滥便是最醒目的警告。

这种趋势也正逐渐渗透到学术写作乃至文学创作中。

一份来自斯坦福大学的报告曾指出,ChatGPT 在短短五个月内,就成了许多专家学者们的「写作神器」。其中在计算机科学领域,几乎每六篇摘要、每七篇引言中,就有一篇出自它的手笔。

随之而来的,便是生成式 AI 对人类写作风格的「大举入侵」。

意大利国际高等研究院的博士生耿明萌的研究成果就像一面镜子,进一步映照出 ChatGPT 的词语偏好,也充分证实了它在学术论文写作中的影响力。

在分析 arXiv 上超过百万篇论文的摘要后,耿明萌发现,论文的词频在 ChatGPT 普及后出现了明显变化。其中,「significant」等词汇的使用频率大幅上升,而「is」和「are」等词汇则减少了约 10%。

多数情况下,生成式 AI 可以让一个创造力 60 分的人变成 70 分甚至更高的分数,但在文本创作中,虽然个人创造力和写作质量有所提高,却在无形中让集体创意变得无趣且同质化。

UCL 和埃克塞特大学的两位学者在《Science》上发表了一项研究,500 名参与者被指派借助 AI 围绕随机主题撰写约 8 行故事,并分析目标受众。

结果显示,借助 AI 的灵感,故事变得更有「创造性」,但这些 AI 生成的故事彼此之间的相似度也惊人地高。

因此,当生成式 AI 文本如同无孔不入的污染物,肆意涌入互联网,对于 Wordfreq 也好,还是人类也罢,怎么看都是利远小于弊。

反爬虫战争打响,Wordfreq 遭殃

Wordfreq 项目的终止算得上是巨头爬虫战争夹缝中的牺牲品。

AI 的发展离不开算法、算力和数据的支持。尽管 AI 生成的文本与人类真实语言相比还有差距,但它在语法和逻辑性方面越来越像模像样。

这片风平浪静的水面之下,一场 AI 爬取与反爬取的无声战争正在酝酿。

在当前的舆论环境中,爬取网页数据似乎成了冒天下大不韪的禁忌,不少新闻报道评论区里充斥着网友的唾弃之声,而 Wordfreq 本质上也是通过爬取不同语言的文本而构建起来的。

在生成式 AI 尚未盛行之时,Wordfreq 也曾度过一段蜜月期。

以往一般来说,只要遵守网站的 robots.txt 文件规定,爬取公开数据似乎也合情合理。这是网站与爬虫之间的一种默契约定,用来指示爬虫哪些内容可以抓取,哪些则不可以。

当一个网站设置 robots.txt 限制协议时,就像竖起了禁止擅自进入的标志牌。如果爬虫违反了 robots.txt 协议,或者采用了突破网站反爬虫技术手段的方法获取数据,那么就可能会构成不正当竞争或侵犯版权等违法行为。

然而,随着模型对高质量数据的灌溉需求日益增长,这场爬取与反爬取的战也愈发激烈。

回顾过去,关于生成式 AI 巨头爬虫与反爬虫数据的纠纷比比皆是。为首突出的自然是 OpenAI 和 Google。

去年,OpenAI 公司特地推出网络爬虫工具 GPTBot,声称用于抓取网页数据训练 AI 模型。但显然,没有哪家媒体愿意被爬虫暗地里薅羊毛。

意识到数据和版权重要性的媒体遵循着一手交钱,一手交数据的商业逻辑。

一项来自路透社研究所进行的研究表明,截至 2023 年底,全球 10 个国家的热门新闻网站中,近一半的网站屏蔽了 OpenAI 的爬虫(Crawler),而近四分之一的网站也对 Google 的爬虫采取了相同的措施。

后来的故事大家应该都很熟悉了,OpenAI 三天两头就被传统媒体起诉,无一例外不是版权诉讼纠纷。直到今年,官司缠身的 OpenAI 才老老实实和新闻出版商建立合作关系。

只是,此前的高墙林立、以及数据收费等策略也让 Wordfreq 也成为了这场「数据荒」的牺牲品。

斯皮尔指出,由于 Twitter 和 Reddit(Wordfreq 包含的网站)已经开始对其 API 收费,这使得网络抓取数据变得更加困难。

「过去免费获取的信息变得昂贵,」斯皮尔写道。「我不想参与任何可能与生成式 AI 混淆的工作,或可能使生成式 AI 受益的工作。」

即便能用金钱换数据,但数据总有用尽的一天。

研究公司 Epoch AI 预测,互联网上可用的高质量文本数据或将在 2028 年耗尽,这一现象在业内被称为「数据墙」,可能成为减缓 AI 发展的最大障碍。

于是乎,不少大模型厂商开始将目光转向合成数据,主打一个用 AI 训练 AI。

用 AI 训练 AI,可能越练越「傻」

我的直觉是,网络上的文本都是狗屎,这些数据上进行训练简直是在浪费算力。

当 Llama 3.1-405B 以掀桌子的实力横扫一众开源大模型之时,领导 Llama 系列的 Meta AI 研究员 Thomas Scialom 在接受采访时发出了如上暴论。

据他透露, Llama 3 的训练过程并不依赖任何人类编写的答案,而是完全基于 Llama 2 生成的合成数据。

Scialom 的说法或许过于粗暴,但也有一定的道理。

互联网每天都在涌现源源不断的数据,但训练 AI 从来就是一个宁缺毋滥的单选题,若数据中满是错误和噪声,模型自然也会跟着学习这些「瑕疵」,预测和分类的准确性可想而知。

而且,低质量的数据往往充斥着偏见,无法真正代表整体数据分布,从而导致模型产生有偏见的回复。教科文组织总干事阿祖莱也曾警告:

「新的 AI 工具有着在不知不觉中改变千百万人认知的力量,因此,即便是生成内容中极为微小的性别偏见,也可能显著加剧现实世界中的不平等。」

不过,合成数据也未必是解决「数据墙」难题的灵丹妙药。

最近来自牛津剑桥的研究人员发现,当模型使用 AI 生成的数据集,则输出的质量会逐渐下降,最终产生无意义的内容,也就是俗称的模型崩溃。

研究负责人 Ilia Shumailov 用了拍照的比喻来形容这一过程:

如果你拍了一张照片,扫描、打印出来并再对其拍照,然后不断重复这个过程,随着时间的推移,基本上整个过程都会被「噪声」淹没。最后,你会得到一个黑暗的方块。

当越来越多 AI 生成的垃圾网页开始充斥互联网,训练 AI 模型的原材料也将遭到污染。

例如,程序员问答社区 Stack Overflow 深受 AI 其害。

在 ChatGPT 爆火之初,Stack Overflow 便宣布「临时禁用」。「从 ChatGPT 获得正确答案的平均比例太低了。」官方在声明中如是吐槽。

专业用户的数量毕竟有限,不可能逐一核实所有答案,而 ChatGPT 的错误率又是显而易见的。当 AI 污染社区环境,彼时无计可施的人类也只能一禁了之。

在图像领域,AI 模型趋向于重现最常见的数据,经历多次迭代后,最终可能连最初的事物都会忘得一干二净。

被看到的这一切指向了一个恶性循环:AI 生成低质量乃至错误信息,与人类数据混淆在一起,这些普遍低质量的数据又被 AI 反复喂养,最终导致肆意泛滥的 AI 反噬自身。

而人类如果意识到昔日的数据足迹会成为喂养自己的养料,或许我们会更加谨慎地对待在互联网留下的每一句话。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 发布最强推理模型 o1!打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

DUN.IM BLOG

DUN.IM BLOG

没有任何预警, 突然发布了 OpenAI o1 系列模型。按照官方技术博客说法,o1 在推理能力上代表了当前人工最强的推理水平。

OpenAI CEO Sam Altman 表示:「OpenAI o1 是一个新范式的开始:可以进行通用复杂推理的 。」

在复杂推理任务上,这款新模型是一次重要突破,代表了 AI 能力的新水平。基于此,OpenAI 选择将此系列重新命名为 OpenAI o1,并从头开始计数。

不知道这是否意味着,GPT-5 这个命名也不会出现了。

简单总结新模型的特点:

OpenAI 发布最强推理模型 o1!打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

现在,该模型已经全量推送,你可以通过 网页端或者 API 进行访问。

其中 o1-preview 还是预览版,OpenAI 还会继续更新开发下一版本。目前使用有一定次数限制,o1-preview 每周 30 条消息,o1-mini 每周 50 条。

和传闻中的「草莓」一样,这些新的 AI 模型能够推理复杂任务,并解决科学、编码和数学领域中比以往更为困难的问题。官方表示,如果你需要解决科学、编码、数学等领域的复杂问题,那么这些增强的推理功能将尤为有用。

例如,医疗研究人员可以用它注释细胞测序数据,物理学家可以用它生成复杂的量子光学公式,开发人员可以用它构建并执行多步骤的工作流程。

此外,OpenAI o1 系列擅长生成和调试复杂代码。

为了给开发人员提供更高效的解决方案,OpenAI 还发布了一款更快、更便宜的推理模型 OpenAI o1-mini,尤其擅长编码。

作为较小版本,o1-mini 的成本比 o1-preview 低 80%,是一个功能强大且高效的模型,适用于需要推理但不需要广泛世界知识的应用场景。

在具体训练过程中,OpenAI 会训练这些模型在回答问题之前深入思考。o1 在回答问题前会产生一个内部的思维链,这使得它能够进行更深入的推理。

通过训练,OpenAI o1 模型能够学会完善自己的思维方式,并且随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而持续提高。

OpenAI 研究员 @yubai01 也点出了 01 的训练路线:

我们使用 RL 来训练一个更强大的推理模型。很高兴能成为这段旅程的一部分,而且要走很长一段路!

据介绍,在测试中,这款模型在物理、化学和生物等任务中表现得如同博士生,尤其是在数学和编码领域表现突出。

在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 只解决了 13% 的问题,而推理模型得分高达 83%。在 Codeforces 编程竞赛中,它的表现进入了前 89% 的队列。

不过,和传闻的爆料一样,作为一个早期版本,该模型还不具备一些 ChatGPT 的常用功能,比如网页浏览和上传文件或图像等多模态能力。

相比之下,GPT-4o 反而会更加胜任许多常见的应用场景。

为了确保新模型的OpenAI 提出了一种新的安全训练方法。

在最严苛的「越狱」测试中,GPT-4o 得分为 22(满分 100),而 o1-preview 模型得分为 84,在安全性方面堪称遥遥领先。

从下周开始,ChatGPT Enterprise 和 Edu 用户也可以访问这两款模型。符合条件的开发人员现在可以通过 API 使用这两款模型,每分钟速率也有所限制。

在这里划个重点,OpenAI 表示,未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限。不过,大概率也会在次数上有所限制。

关于新模型 o1 更多细节,我们很快将在更详细的体验后与大家分享。如果你有感兴趣的问题,欢迎在留言区告诉我们。

官方也放出了更多 OpenAI o1 的更多演示

比如使用 OpenAI o1 来编写一个找松鼠的网页游戏。这个游戏的目标是控制一只考拉躲避不断增加的草莓,并在 3 秒后找到出现的松鼠。

与传统的经典游戏如贪吃蛇不同,这类游戏的逻辑相对复杂,更考验 OpenAI o1 的逻辑推理能力。

又或者,OpenAI o1 已经开始能通过推理,解决一些简单的物理问题,

演示列举了一个例子,一颗小草莓被放在一个普通的杯子里,杯子倒扣在桌子上,然后杯子被拿起,询问草莓会在哪里,并要求解释推理过程。这表明模型能够理解物体在不同物理状态下的位置变化。

落地到具体的应用中,OpenAI o1 还能成为医生的得力助手,比如帮助医生整理总结的病例信息,甚至辅助诊断一些疑难杂症。

热衷于将 AI 与科学相结合的量子物理学家马里奥•克莱恩(Mario Krenn)也向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题,结果,OpenAI o1 也轻松拿捏。

「Strawberry」里有多少个「r」,GPT-4o 会回答错误,但却难不倒 OpenAI o1,这一点值得好评

不过,经过实测,OpenAI o1 依然无法解决「9.11 和 9.8 哪个大」的经典难题,严重扣分。

对于 OpenAI o1 的到来,英伟达具身智能负责人 Jim Fan 表示:

我们终于看到了推理时间扩展的范式被推广并投入生产。正如萨顿(强化学习教父)在《苦涩的教训》中所说,只有两种技术可以无限制地与计算规模化:

学习和。是时候将重点转向后者了。

在他看来,大模型中的很多参数是用来记忆事实的,这的确有助于在问答的基准测试「刷分」,但如果将逻辑推理能力与知识(事实记忆)分开,使用一个小的「推理核心」来调用工具,如和代码器,这样可以减少预训练的计算量。

Jim Fan 也点出了 OpenAI o1 最强大的优势所在,即 o1 模型可以轻松成为数据飞轮的一部分。

简单来说,如果模型给出了正确的答案,那么整个搜索过程就可以变成一个包含正负奖励的训练数据集。这样的数据集可以用来训练未来的模型版本,并且随着生成的训练数据越来越精细,模型的表现也会不断改善。好一个通过自己博弈,实现自己训练自己的内循环。

不过网友的实测中也发现了一些问题,比如回复的时间长了不少,虽然花了更长时间思考,但在一些问题上也会出现答非所问输出不全等问题。

赛博禅心猜测,这次的 o1 有可能是 GPT-4o 在进行一些微调/对齐后的 agent,整体远低于预期,

Sam Altman 也承认 o1 仍然有缺陷,存在局限,在第一次使用时更令人印象深刻,而在你花更多时间使用后就没那么好了。

尽管如此,OpenAI o1 模型在整体的表现上还是可圈可点。

现在,OpenAI o1 模型的发布堪称下半年 AI 模型大战的导火索,如无意外,接下来,其他 AI 公司也不会藏着掖着了。

没错,我点的就是 Anthropic、Meta AI、xAI 等老对手、以及一些潜在深处的 AI 黑马。

并且,从 GPT-4 发布至今,OpenAI 每一次模型发布的最深层意义并不在于性能的强大,而是提供了一种技术路线的标杆,从而带领人们往未知的深水区迈进。

GPT-4 如此,OpenAI o1 也希望如此。

ChatGPT o1 会主动思考推理的 AI,新模型发布实测总结

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

ChatGPT o1 会主动思考推理的 AI,新模型发布实测总结

今天发布「 ChatGPT o1-preview」,是会尝试主动思考的 语言模型, Plus 订阅用户现在就可使用。

根据 OpenAI 的说法:「我们训练这些模型〔ChatGPT o1-preview〕在回应前花更多时间思考问题,就像人类一样。通过训练,它们学会精炼思考过程、尝试不同策略,并能察觉自己的错误。」「如果您正在解决科学、程序设计、数学和相关领域的复杂问题,这些增强的推理能力可能特别有用。」

我自己在讲 ChatGPT 提升工作效率的相关课程时,常常强调一个设计指令的重点:「如果我们写 AI 指令〔 prompt、提示语〕时,可以让 AI 写出自己在想什么、怎么处理任务,通常生成的内容结果会相对更好。

从用户端的角度来看「ChatGPT o1-preview」,就是在 AI 生成内容前,会先展开一步一步的思考流程,它可能会选择思考的策略与切入点,有时会提出一些批判思考,也会更仔细的分析资料细节来做深入处理。

在这个过程中,ChatGPT o1-preview」生成内容的速度其实比 GPT-4o 要慢上不少,可能需要 30~60 秒的思考时间〔或者更久〕,才会开始一步一步的生成内容。

也因为这样的「思考」过程需要耗费更多运算,所以即使是 ChatGPT Plus 用户,在使用「ChatGPT o1-preview」时也有一些限制:

也就是说,目前「ChatGPT o1-preview」比较像是「GPT-4o」的辅助,在进行一些需要深入分析资料、产出有逻辑结果的任务,或者像是科学、数学、程序代码相关领域时,可以运用。

今天这篇文章,我就从自己日常惯用的几个 AI 辅助需求:翻译、摘要、企划思考、文案,以及有时用代码写个小的角度,以实际案例测试看看,「ChatGPT o1-preview」的效果如何,并和「GPT-4o」同样指令下的结果作比较。

当然,如果能从科学、数学与代码的角度来更好,不过从我个人常用角度出发,也想验证看看 ChatGPT o1-preview 是否能满足我的日常工作需求,也提供大家参考。

下面,先提供大家下面测试案例的快速心得比较表格。

翻译结果更简洁有力,文句白话流畅。

用语更符合台湾惯用词汇。

在「白话流畅度」与「专业用语」间平衡得更好。

翻译结果相对较弱,文句不如 o1-preview 流畅。

能计算分数并回馈对错。

无需修改即可使用。

需要多次反复调整才能达到可用程度。

提供具体、逻辑分明的建议步骤和文章架构。

深入分析资料细节。

缺乏深入的分析和明确的建议。

能整理出详细的步骤和操作要点。

细节完整程度略有不足。

缺乏社交贴文所需的流畅性和吸引力。

更注重性和准确性,避免使用版权材料。

可能在细节上不够精准。

首先来试试看翻译〔英翻中〕,我通常会用下面指令来要求 ChatGPT 翻译文章:「把下面这篇 XXX 主题的文章,翻译成中文,请一段一段翻译,尽量在维持原文语意,主题风格的情况下,让上下文的语句更自然通顺,遇到专有名词时附注英文原文,并在第一遍基本翻译后,用台湾惯用词汇与语气进行最后修饰。

下图「左方」,是「ChatGPT o1-preview」翻译的结果。下图「右方」,是「GPT-4o」翻译的结果。

结论是,「ChatGPT o1-preview」花了 57 秒完成一整篇文章的翻译〔文章是 OpenAIChatGPT o1-preview」官方公告〕,但是翻译的结果比「GPT-4o」优异不少。

例如,大多数时候,ChatGPT o1-preview」翻译的文句更加简洁有力〔相对「GPT-4o」〕,可以在许多段落看到这样的差别。

ChatGPT o1-preview」翻译的结果也更白话,相对流畅,用语更符合我指定的中文用语。

ChatGPT o1-preview」在「白话的流畅度」与「专业用语」之间也相对更能拿捏得当,会让人更容易看懂,但又保持专业用语的明确性。

我让「ChatGPT o1-preview」测试直接写一个九九乘法表小工具。o1 同样会先思考撰写工具的逻辑,然后才开始写出程序代码。

我提供的指令是:「我的小孩正在练习记忆数学的 99 乘法表 ,你可以设计一个协助她练习的小游戏吗?

请一步一步分析,从简单的 2 与 5 的乘法表开始,然后练习 3、4、6、7、8、9 的乘法表,根据每一个乘法表设计一个记忆游戏,游戏一开始可以选择要练习哪一个乘法表,进入后可以随机考验该乘法表的熟练度,最好设计有游戏机制。

下面是 ChatGPT o1-preview 第一次生成的 99 乘法表小游戏,我没有做任何的修改,但是正确性、界面美化、操作流畅度都已经达到可用的程度,还会计算分数与回馈对错。

下面是旧版 GPT-4o 第一次生成的小游戏,基本界面可操作,但有一些明显错误〔如下图〕,可能还需要多几次的反复问答,才能调整正确。

我也很常跟 ChatGPT 一起讨论沟通企划案,下面是新旧版本生成的结果比较。

我提供了许多参考资料,请 AI 帮我做产品的企划报告。

ChatGPT o1-preview」在生成过程中,会主动做一些反向思考,与探索不同的报告呈现方式,并且提供一些具体的、逻辑分明的建议步骤,这些不一定有出现在我的指令中。

下面是 ChatGPT o1-preview 生成的版本,我举出其中一部分,它提出了一个撰写初稿的建议方案,并指出了一些明确的试写步骤、文章架构方向。

下面是 GPT-4o 类似段落的版本,虽然也提出了撰写初稿的建议,但整体的说明就比较一般,少了一些明确的、深入的分析与建议。

我也测试了用两个版本去摘要同一篇文章。

下面是 ChatGPT o1-preview 的版本,可以看到文章细节整理得更深入、完整、有条理。

下面是 GPT-4o 版本摘要的结果,基本架构也相似,但细节的完整程度就有一点落差。

不过,ChatGPT o1-preview 也有他不擅长的内容,目前看起来它撰写流畅文案的效果,反而没有 GPT-4o 好〔现在写文案相对效果最好的可能是 Claude 3.5 Sonnet 〕。

下面我请 AI 根据参考资料写出社交贴文上的文案。

ChatGPT o1-preview 版本,AI 会思考撰写过程,撰写时会进行更多安全性、准确性的思考,例如避免使用版权材料

但是多次尝试后, ChatGPT o1-preview 版本目前的结果,比较像是把参考资料更有结构、更有逻辑的分析整理,不太像是社交贴文。

相较之下, GPT 4o 的版本,可能细节没有那么精准,但文案比较流畅。〔如下图〕

以上就是我的初步测试案例与心得,提供大家参考。

OpenAI 发布最强模型 o1 !打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

没有任何预警,OpenAI 突然发布了 OpenAI o1 系列模型。按照官方技术博客说法,o1 在推理能力上代表了人工智能最强的水平。

OpenAI CEO Sam Altman 表示:「OpenAI o1 是一个新范式的开始:可以进行通用复杂推理的 AI。」

在复杂推理任务上,这款新模型是一次重要突破,代表了 AI 能力的新水平。基于此,OpenAI 选择将此系列重新命名为 OpenAI o1,并从头开始计数。

不知道这是否意味着,GPT-5 这个命名也不会出现了。

简单总结新模型的特点:

  • OpenAI o1:性能强大,适用于处理各个领域推理的复杂任务。
  • OpenAI o1 mini:经济高效,适用于需要推理但不需要广泛世界知识的应用场景。

现在,该模型已经全量推送,你可以通过 ChatGPT 网页端或者 API 进行访问。

其中 o1-preview 还是预览版,OpenAI 还会继续更新开发下一版本。目前使用有一定次数限制,o1-preview 每周 30 条消息,o1-mini 每周 50 条。

和传闻中的「草莓」一样,这些新的 AI 模型能够推理复杂任务,并解决科学、编码和数学领域中比以往更为困难的问题。官方表示,如果你需要解决科学、编码、数学等领域的复杂问题,那么这些增强的推理功能将尤为有用。

例如,医疗研究人员可以用它注释细胞测序数据,物理学家可以用它生成复杂的量子光学公式,开发人员可以用它构建并执行多步骤的工作流程。

此外,OpenAI o1 系列擅长生成和调试复杂代码。

为了给开发人员提供更高效的解决方案,OpenAI 还发布了一款更快、更便宜的推理模型 OpenAI o1-mini,尤其擅长编码。

作为较小版本,o1-mini 的成本比 o1-preview 低 80%,是一个功能强大且高效的模型,适用于需要推理但不需要广泛世界知识的应用场景。

在具体训练过程中,OpenAI 会训练这些模型在回答问题之前深入思考。o1 在回答问题前会产生一个内部的思维链,这使得它能够进行更深入的推理。

通过训练,OpenAI o1 模型能够学会完善自己的思维方式,并且随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而持续提高。

OpenAI 研究员 @yubai01 也点出了 01 的训练路线:

我们使用 RL 来训练一个更强大的推理模型。很高兴能成为这段旅程的一部分,而且要走很长一段路!

据介绍,在测试中,这款模型在物理、化学和生物等任务中表现得如同博士生,尤其是在数学和编码领域表现突出。

在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 只解决了 13% 的问题,而推理模型得分高达 83%。在 Codeforces 编程竞赛中,它的表现进入了前 89% 的队列。

不过,和传闻的爆料一样,作为一个早期版本,该模型还不具备一些 ChatGPT 的常用功能,比如网页浏览和上传文件或图像等多模态能力。

相比之下,GPT-4o 反而会更加胜任许多常见的应用场景。

为了确保新模型的安全,OpenAI 提出了一种新的安全训练方法。

在最严苛的「越狱」测试中,GPT-4o 得分为 22(满分 100),而 o1-preview 模型得分为 84,在安全性方面堪称遥遥领先。

从下周开始,ChatGPT Enterprise 和 Edu 用户也可以访问这两款模型。符合条件的开发人员现在可以通过 API 使用这两款模型,每分钟速率也有所限制。

在这里划个重点,OpenAI 表示,未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限。不过,大概率也会在次数上有所限制。

关于新模型 o1 更多细节,我们很快将在更详细的体验后与大家分享。如果你有感兴趣的问题,欢迎在留言区告诉我们。

推理能力遥遥领先,但仍分不出「9.11 和 9.8 哪个大」

官方也放出了更多 OpenAI o1 的更多演示视频。

比如使用 OpenAI o1 来编写一个找松鼠的网页游戏。这个游戏的目标是控制一只考拉躲避不断增加的草莓,并在 3 秒后找到出现的松鼠。

与传统的经典游戏如贪吃蛇不同,这类游戏的逻辑相对复杂,更考验 OpenAI o1 的逻辑推理能力。

又或者,OpenAI o1 已经开始能通过推理,解决一些简单的物理问题,

演示列举了一个例子,一颗小草莓被放在一个普通的杯子里,杯子倒扣在桌子上,然后杯子被拿起,询问草莓会在哪里,并要求解释推理过程。这表明模型能够理解物体在不同物理状态下的位置变化。

落地到具体的应用中,OpenAI o1 还能成为医生的得力助手,比如帮助医生整理总结的病例信息,甚至辅助诊断一些疑难杂症。

热衷于将 AI 与科学相结合的量子物理学家马里奥•克莱恩(Mario Krenn)也向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题,结果,OpenAI o1 也轻松拿捏。

「Strawberry」里有多少个「r」,GPT-4o 会回答错误,但却难不倒 OpenAI o1,这一点值得好评

不过,经过实测,OpenAI o1 依然无法解决「9.11 和 9.8 哪个大」的经典难题,严重扣分。

对于 OpenAI o1 的到来,英伟达具身智能负责人 Jim Fan 表示:

我们终于看到了推理时间扩展的范式被推广并投入生产。正如萨顿(强化学习教父)在《苦涩的教训》中所说,只有两种技术可以无限制地与计算规模化:

学习和搜索。是时候将重点转向后者了。

在他看来,大模型中的很多参数是用来记忆事实的,这的确有助于在问答的基准测试「刷分」,但如果将逻辑推理能力与知识(事实记忆)分开,使用一个小的「推理核心」来调用工具,如浏览器和代码验证器,这样可以减少预训练的计算量。

Jim Fan 也点出了 OpenAI o1 最强大的优势所在,即 o1 模型可以轻松成为数据飞轮的一部分。

简单来说,如果模型给出了正确的答案,那么整个搜索过程就可以变成一个包含正负奖励的训练数据集。这样的数据集可以用来训练未来的模型版本,并且随着生成的训练数据越来越精细,模型的表现也会不断改善。好一个通过自己博弈,实现自己训练自己的内循环。

不过网友的实测中也发现了一些问题,比如回复的时间长了不少,虽然花了更长时间思考,但在一些问题上也会出现答非所问输出不全等问题。

赛博禅心猜测,这次的 o1 有可能是 GPT-4o 在进行一些微调/对齐后的 agent,整体远低于预期,

Sam Altman 也承认 o1 仍然有缺陷,存在局限,在第一次使用时更令人印象深刻,而在你花更多时间使用后就没那么好了。

尽管如此,OpenAI o1 模型在整体的表现上还是可圈可点。

现在,OpenAI o1 模型的发布堪称下半年 AI 模型大战的导火索,如无意外,接下来,其他 AI 公司也不会藏着掖着了。

没错,我点的就是 Anthropic、Meta AI、xAI 等老对手、以及一些潜在深处的 AI 黑马。

并且,从 GPT-4 发布至今,OpenAI 每一次模型发布的最深层意义并不在于性能的强大,而是提供了一种技术路线的标杆,从而带领人们往未知的深水区迈进。

GPT-4 如此,OpenAI o1 也希望如此。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT on macOS客户端app正式面向所有用户开放

OpenAI宣布了适用于 macOS 的 ChatGPT 客户端app正式面向所有用户开放。该应用专为 macOS 系统设计,支持快捷键呼出和多种内容形式的交互。目前仅适用于配备 Apple Silicon(M1 或更高版本)的 macOS 14+,但计划在今年晚些时候登陆 Windows。

ChatGPT on macOS客户端app正式面向所有用户开放最先出现在Justin写字的地方

LM Studio – 傻瓜、一站式本地的大语言模型,支持直接对话和 API 调用

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

LM Studio 是一款将目前主流大模型 LLM 元素打包在一起的,可以让你在自己的电脑上,“0 门槛”运行本地大语言模型 LLM,并且用起来就像 ChatGPT 那样。支持 、Linux。

LM Studio is an easy to use desktop for experimenting with local and open-source Large Language Models (LLMs). The LM Studio cross platform desktop app allows you to download and run any ggml-compatible model from Hugging Face, and provides a simple yet powerful model configuration and inferencing UI.

傻瓜、一站式部署本地大语言模型,大概就是打开电脑 > 双击运行程序 > 开始提问 > 获得 回答这样三步走。

我觉得 LM Studio 就是这样的,它长这样:

LM Studio – 傻瓜、一站式本地的大语言模型,支持直接对话和 API 调用

你唯一需要操心的事情,就是挑选模型,然后使用,就好了。

直接在目前的主流模型托管 huggingface 你需要的模型,比如 Meta-Llama-3.1-8B-Instruct-GGUF,然后找到对应的 Files 页面,挑选你需要的模型,点击那个下载按钮

最终,你将得到一个类似 Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf 的文件,很大,一般都好几个 GB。

LM Studio 默认的模型保存路径在 C:\Users\appinn.cache\lm-studio\models,可以更换:

不过这里注意,你需要使用 ${Publisher}/${Repository}/${ModelFile}这样的路径结构,如上图第二个红色框框,需要将手动下载的 .gguf 模型文件保存在路径的两级文件夹下才能正确识别。

然后,就能提问了。会自动使用你的 CPU、GPU…

LM Studio 也支持 类的服务器,即可以在第三方服务器上使用这个 LLM,就像使用 OpenAI API 一样,只不过这里的 API 服务器是你自己的。

OpenAI 一样,使用过 /v1/chat/completions 、 /v1/completions 、 /v1/embeddings 即可。

全球 AI 产品 Top100 出炉!只有一个国产应用进前十

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

8 月 21 日,硅谷知名投资机构 a16z,根据近半年的数据,选出了前 100 名 应用

大多数人在使用哪些 AI 产品?哪些类别更受欢迎?用户会坚持使用哪些 AI 产品,而不是转瞬即忘?接下来,我们一起来看看。

这已经是 a16z 第三次发布 AI 百强榜单了,第一次是 2023 年 9 月,第二次是 2024 年 3 月,半年一更,频率稳定。

a16z 的评选方法是,基于 Similarweb、Sensor Tower 的数据,每 6 个月排一次名,榜单分成 2 部分:

全球 AI 产品 Top100 出炉!只有一个国产应用进前十

▲网页端前 50

▲移动端前 50

网页端和移动端的 TOP10 里,美图秀秀国际版 Meitu 属于国产,靠粘土滤镜爆红的 Remini 最开始也是出海产品,后被一家意大利公司收购。

接下来我们分门别类地谈谈,首先是通用型 AI 助手。

第三次了,ChatGPT 还是遥遥领先,在网页和移动端都拿下第一,绝对的 killer app

与此同时,ChatGPT 不如对手们增长势头猛烈。谁才是最好的 AI 助理,尚且没有定论。

▲增长指数

黄仁勋爱用的 AI 搜索 Perplexity 在网页端排名第三,并首次入围移动端榜单,正好排在第 50 名,差点名落孙山。

Perplexity 超过 7 分钟的用户平均停留时间,甚至略胜于 ChatGPT

比起 等传统搜索,Perplexity 直接提供简洁、实时、相对准确、可以引用信息来源的答案。数据说明,AI 搜索的形式在一定程度上走通了。

OpenAI 的 Sam Altman 也对这种形式保持认可,然而,OpenAI 的 AI 搜索 SearchGPT 还在小范围地内测,用户比 CEO 更着急。

ChatGPT 定位最像、竞争更直接的产品是 Claude,来自前 OpenAI 员工创立的 Anthropic。这次,Claude 的排名有所提升,在网页端排名第四,好过上个榜单的第十。

今年 6 月,Claude 推出的新功能 Artifacts 突破了聊天窗口的限制,可以实现实时可视化、互动编程等,拓展了用户与 Claude 交互的方式,好评不少。

▲Artifacts

除了早已功成名就的一代目,通用助手的赛道也有一些后起之秀。

字节跳动这次一次性上榜了五个产品:教育应用 Gauth、开发平台 Coze、通用助手豆包、豆包英文版 Cici、照片和编辑 Hypic。

除了 Hypic,其他都是首次出现在榜单,其中,豆包移动端第 26 名、网页端第 47 名,Cici 也在移动端排到第 34 名。

豆包的功能发展得很全面,并且多端覆盖,使用门槛又低,日常场景够用,所以有这么大的用户量,也在情理之中。论做产品和商业化,还得看字节。

另外,AI 助手 Luzia 首次上榜移动端,一来就是第 25 名。

你可能没有听说过这款产品,它主要服务西班牙语环境,全球拥有 4500 万名用户。最初,Luzia 作为 WhatsApp 的聊天机器人出道,但 2023 年 12 月有了独立的 app

除了什么都能聊的通用助手,消费者对于 AI 还有哪些垂直的、特别的需求?

一个重要的趋势是,大家都在用 AI 搞创作,并且创作的形式越来越丰富了。

a16z 的网页端榜单里,52% 的公司支持图像、视频音乐、语音等的内容生成和编辑。

其中包括 7 家新上榜的公司,排名还不低,视频生成工具 Luma 排在第 14 名,音乐生成工具 Udio 排在第 33 名。

和 Udio 同一个赛道、被称为音乐界 ChatGPT 的 Suno,存在感更是暴涨,从今年 3 月的第 36 名,上升到今年 8 月的第 5 名。

榜单和榜单的纵向比较也很有意思,之前的榜单里,大多数内容生成工具围绕图像。

但现在,图像生成的占比降到了 41%,只有一个图片生成工具(SeaArt)首次上榜,视频生成工具出现了三个新面孔(Luma、Viggle 和 Vidnoz)。

端新增产品

Udio 上线于今年 4 月,6 月则是 AI 视频工具爆发的一月,快手可灵、Dream Machine 的 Luma AI、Runway 的 Gen-3 Alpha 接二连三发布。

可以看到,不过半年,AI 在音乐和视频上的输出质量,都卷出了成绩。

至于移动端,最常见的创作形式是编辑图像、视频。相关工具占到榜单的 22%,是移动端的第二大产品类别。

▲Adobe Express

虽然也有初创公司涌现,但排名更高的,是那些在生成式 AI 浪潮里转型、推出更多玩法的传统创意公司。

其中有我们比较熟悉的名字,美图秀秀国际版 Meitu 在第 9 名,字节跳动旗下的照片和视频编辑器、醒图国际版 Hypic,位列第 19 名。

另外,韩国互联网巨擘 Naver 旗下的相机应用 SNOW 第 30 名,内置了 Adobe Firefly 生成式 AI 的 Adobe Express 第 35 名。

之前 washingtonpost 做过一个调查:人们会和聊天机器人说什么?他们分析了数千次对话,第一是搞黄色,第二是完成家庭作业。

最近也有一款很火的 P 肌肉应用 Gigabody,让你提前看看增肌之后的模样。它会产出很多照骗,也会打击健身人群的自信心,因为很可能练了半天,还不如 Gigabody。

举出这两个例子,是为了佐证 a16z 的结论。

a16z 移动和网页端的榜单,都出现了一个很有意思的新类别:美学和约会。

其中包括三个新入围移动端榜单的工具:LooksMax AI(第 43 名)、Umax(第 44 名)和 RIZZ(第 49 名)。

▲移动端新增产品

LooksMax 和 Umax 采集用户的照片并评分,然后给出建议,提升你的魅力。Umax 甚至会给出一个「满分模板」,也就是 AI 眼里你的完美模样。

LooksMax 不仅照顾到了颜控的看脸需求,也会分析用户声音的吸引力。

但它们的用户规模并不大,LooksMax 超过 200 万,Umax 在 100 万左右。

可能和这个赛道太卷有关,上网随便搜搜能够找到大量身体美颜滤镜,减肥、增肌、健身、变胖、换衣服,AI 都能帮忙,我们不再需要在 B 站学习复杂的 PS 教程

但这些应用的套路又都很类似,靠订阅赚钱,能赚多少是多少,Umax 每周收费 4.99 美元,LooksMax 每周收费 3.99 美元。

如果说 LooksMax 和 Umax 是认识更多发展对象的敲门砖,下一步就该用 RIZZ 了。

笨嘴拙舌的用户,可以用它提升回复约会 app 消息的水平。上传对话截图、个人资料等,RIZZ 都可以教你说些高情商表达。

古代的邹忌问身边人「吾与徐公孰美」,童话里的皇后问魔镜谁是世界上最好看的人,现在的人们则在问 AI:我怎么变得更帅、更漂亮、更有魅力,怎么不算一种科技与狠活呢?

食色性也,情感关系未必在人和人之间,也可以是人机。这次,AI 伴侣应用 Character.AI 排在移动端的第十,上次是第十六。

其实,上榜的还有一些尺度更大的 AI 伴侣应用,包括 Janitor、SpicyChat、candy.ai、Crushon 等,但 a16z 没有特别强调出来。

拿 a16z 今年 8 月的榜单和今年 3 月相比,近 30% 的公司是新公司。

如果再拿今年 3 月和去年 9 月的榜单相比,那么这个数字是 40%。

可见 AI 产品竞争之激烈和残酷,新一代 AI 原生产品和公司的发展速度,前所未有地快。

下一个爆款的 AI 产品,可能会是什么?答案或许在社交产品 Discord 出现。

a16z 发现,Discord 的流量,能够体现一个产品有没有潜力,尤其在内容生成方面。

Discord 的好处是,提供了服务器和交流社区,开发者无需构建完整的前端产品,所以它很适合作为一个沙盒,用来验证 PMF(产品与市场契合度)。

很多产品都是从 Discord 起步,构建社区,测试功能,积累用户,然后才有自己的独立,比如 Suno 和

时至今日,Midjourney 还是所有 Discord 服务器邀请流量的第一名。

▲ 在 Discord 受欢迎的 AI 公司

截至 7 月,10 家 AI 公司在所有 Discord 服务器邀请流量中排名前 100,与 1 月相比,其中一半是新秀。

AI 继续发展下去,未来可能连 app 的概念都会消失,人手一个 agent,AI 主动帮我们解决需求,但现在,我们还是从被用户选择的 app 中,一窥 AI 的可用性如何被定义。

常言道「不要创造需求」,产品的成功不在于通过广告等人为方式制造需求和虚假繁荣,而是找到并满足已经存在的、真实的需求。

AI 也是这样,融资、刷屏、炒作之后,依然是沉默的大多数,做出最诚实也最落地的投票。其中,有没有你正在使用并欣赏的产品呢?

We crunched the data to find out: Which gen AI apps are people actually using? And which are they returning to, versus dabbling and dropping?


2024 年 3 月:

Thousands of new AI-native companies are vying for attention. We crunched the data to find out: Which generative AI products are people actually using?


2023 年 9 月:
https://a16z.com/how-are-consumers-using-generative-ai/

AI 会促使设计师成为更完整的人

最近关于 AIGC 的关注度太高了,自己也时不时会抽空去了解一些情况,或者尝试去用一些工具。很多关于 AI 要替代人的观点大行其道,也一直有不少 AI 要让设计师失业的看法在坊间流传。但我自己的感受和看法是:

在 Midjourney、Stable Diffusion、ChatGPT 这些 AI 工具出现后,「手头功夫」并没有因此丧失意义,它们只是不再具备作为门槛的价值,但依旧是重要的前提。因为「手头功夫」是培养我们发掘问题、判断优劣和快速取舍的重要训练,缺少这部分锻炼,会让人在这一系列 AI 工具面前感到无力。准确地识别问题并提出诉求,这是未来教育的重中之重,也会反过来强调人的价值。

正好,前段时间后浪送了我一本书,是前微软包容性设计的首席总监 Kat Holmes 写的《误配》。一边看这本书,我就一边在结合自己的工作和最近关于 AIGC 的思考,我觉得这本书里提倡的理念,正好回应了当下的舆论思潮。

大部分谈论设计的书,都在试图通过图形和案例来构建一类理论和范式。但在这个 AIGC 日进八万步的新时代里,设计师要以什么身份来参与?我认为所有的既定范式,都会在三到五年之内被全部击碎。串联、融汇、杂交才是新世界的主流,创作者的身份将愈加模糊,甲乙方的界限也会逐渐消失或扭转。怎么回应这样的快速变化?我觉得《误配》这本首版于五年前的「旧书」,提出了很适合当下思考的母题:

设计行为、设计师、设计对象以及新技术之间,如何在智能化浪潮里,互相包容和一起进化?

这本书没有给出直接的答案,但对于有三年以上工作经验的设计师而言,带着经验、问题和困难去阅读,会有启发和收获。「物」的旧体系正在溃散,「系统」和「生态」将是历史的新主角。旧时代的残党,可以下船了。

昨天在各个社交媒体上发了一下自己的读书感受,因为被后浪的微博官号转发了,于是被这本书的译者何盈女士注意到。正巧我的朋友宋喆在刷朋友圈时看到她的这条寻人启事,就这么阴差阳错地跟她直接联系上了。

这种「地球村」的感觉很妙!

这更坚定了我今年一定要 重新启动设计纪录片 的决心了!

用 Newbing 辅助写的第一篇 blog / The first blog to be aided by NewBing / NewBingによって助けられた最初のブログです

一週裡有一半時間都坐在這裡工作 / I spend half of the time in a week working here / 私は一週間の半分の時間をここで働いています
我讓店裡特意給我保留的專用裂口杯 / I asked the store to keep a special slit cup for me / 私は店に特別なスリットカップを取っておいてもらった

原本被通知早上要和客戶開會,騎到平時停車的地方時卻被臨時告知先不開了。因為起來得比平時早一些,所以覺得有一點睏睏的。於是,就在店裡坐著冥想了五分鐘,借倆口咖啡因下肚先回點血。

I was originally notified that I had to meet with a client in the morning, but when I rode to the place where I usually park, I was told that it was not going to happen. Because I got up earlier than usual, I felt a little sleepy. So, I sat in the shop and meditated for five minutes, and took a couple of sips of caffeine to get some blood back.

元々は朝にクライアントと会うことになっていたのですが、いつも駐車する場所に着いたら、やめることになったと急に言われました。普段よりも早く起きたので、少し眠気がありました。そこで、店の中で座って5分間瞑想し、カフェインを2口飲んで血が回るようにしました。

在最近幾次冥想的過程中發現,Apple Watch 的這個呼吸頻率對我來說已經偏快了,如果完全按照我自己的節奏來控制,起碼得是 3 次,或者 2.5 次這個頻率,但 Apple Watch 已經不能設置更慢的呼吸節奏了。

I found out in the last few meditations that this breathing rate of Apple Watch is too fast for me. If I completely control it according to my own rhythm, it should be at least 3 times, or 2.5 times this frequency, but Apple Watch can no longer set a slower breathing rhythm.

最近の瞑想の過程で分かったのですが、Apple Watchのこの呼吸頻度は私にとっては早すぎます。自分のリズムに完全に合わせてコントロールするなら、少なくとも3回、あるいは2.5回この頻度でなければなりませんが、Apple Watchではもう遅い呼吸リズムを設定できません。

剛才測了一下時間,我三次呼吸(一呼一吸)的總時長是 2:03 (兩分零三秒)。這樣的話,換成 AW 的呼吸頻率計算方式應該是「每分鐘呼吸 1.5 次」。

I just measured the time and found that the total duration of my three breaths (one inhale and one exhale) was 2:03 (two minutes and three seconds). In this case, using AW’s breathing frequency calculation method, it should be “1.5 breaths per minute”.

さっき時間を測ってみたら、私の3回の呼吸(一呼吸)の合計時間は2:03(2分3秒)でした。この場合、AWの呼吸頻度の計算方法に換算すると、「1分間に1.5回呼吸」となります。

*以上英語和日語翻譯採用 New Bing 的 AI 完成。

*The English and Japanese translations are done by New Bing’s AI.

*以上の英語と日本語の翻訳は、New Bing の AI によって行われました。

但是,翻譯完之後,它居然一直反問我新的問題,是對我和我的行為感到好奇嗎?

But after translating, it kept asking me new questions. Is it curious about me and my behavior?

しかし、翻訳した後、新しい質問をずっと聞いてきました。私と私の行動に興味があるのでしょうか?

不是的。據我所知,它只是一個根據字詞關係來生成對話的超大模型,這種對話其實非常可能來自人類語庫中不要讓話掉在地上的社交禮貌用例。所以,這種反問並不能證明這個對話 AI 已經具備了意識。

No. As far as I know, it is just a huge model that generates dialogue based on word relationships. This kind of dialogue is very likely to come from human language libraries that do not want to let the conversation fall to the ground. Therefore, this kind of rhetorical question cannot prove that this dialogue AI already has consciousness.

いいえ。私の知る限り、それは単に単語の関係に基づいて対話を生成する巨大なモデルです。このような対話は、会話を地面に落とさないようにする人間の言語ライブラリから非常に可能性が高く来ています。したがって、このような反語的な質問は、この対話 AI がすでに意識を持っていることを証明できません。

人类的定义正在重构的历史开始了

上周在即刻看到一个话题:

ChatGPT vs. iPhone 两种技术有何异同? 就它们制造产业变革和影响来说,对比思考能否启发对未来的想象?

我目前的看法是:

iPhone 为代表的技术,拓展了人的外延。人是技术网的中心,是作为生物人抛向空中的一块大腿骨。

ChatGPT 为代表的技术,更新了人的定义。信息和意识不是人的特权,是否只有生物人才是人,需要被认真严肃地对待。

前者的产业革新是建立在人脑上限之中的,超过脑容量的部分,推进速度非常缓慢。

后者不存在理论上限,对自身的推进速度远大于前者。但由于前者高度依赖人这个不确定因素,因此,在后者产生革新的同时,会同时产生大范围的剧烈冲突。前者脆弱,但作为后者的基建,这种大范围冲突可能导致两败俱伤,拖累后者进化速度。但因为发展不平均,所以后者会衍生出全新的社会形态。

AI 不需要代替人才能更新「人」的定义,更不必达到硅基生命的程度,只需要在表达方式上像人(即便它根本不理解自己在说什么),就自然会在生产方式和伦理上产生大量冲击。这些冲击会更新人对自身的认识,配合其自身的效率属性,人会主动更新对自身的定义描述。

在此基础上,设计师将来的工作会和今天大不相同。因为我们在思考人与物的关系时,中间的媒介可能不会再是物理交互和界面交互,而是面向 AI 的交互。这种交互可能是有形的,也可能是无形的。另一种更有可能发生的情况是,你所设计的产品不是给人类使用的,而是面向 AI 的中间件,这会改变很多约定俗成的非物理/生物层面的规则。

我们有幸站在了这段历史的开端之中。

Claude 3.5 VS ChatGPT-4o 生成 Web 小游戏实测对比

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

经过了一年的时间,Claude 从 2.0 版陆续升级到 3.5 Sonnet 版本〔2024/6〕,在 Claude 3.5 Sonnet 中推出了几个显而易见的改进:

你只要免费注册登入一个「 Claude 」账户,就能开始使用最新的 Claude 3.5 Sonnet 模型,然后别忘了进入「Artifacts」功能,试试看直接在对话中生成你需要的网页小工具、小,乃至于简单的 PPT。

下面我会实际测试这些成果,并且与 制作出来的版本做对比,提供有兴趣的朋友参考。

我用下面这个共同指令,来测试看看 Claude 3.5 与 ChatGPT-4o 是否可以「直接」做出可用的乱序抽签网页小工具。

让我先来试试看 Claude 3.5 Sonnet 结合「Artifacts」的效果。直接输入上面的指令,Claude 就会分析我的需求,开始撰写源码,并立即生成可以预览、互动的 HTML 文件,而右边窗口可以直接进行操作。

看起来 Claude 3.5 Sonnet 只要简单的指令,就能很好的理解我的需求,并且可以自己设计需要的架构与源码,我并没有讲得太细,实际呈现出来的效果都是 Claude 3.5 Sonnet 自己分析出来的。

接着我们试试看 ChatGPT GPT-4o 做出来的成果如何?用同样的指令,ChatGPT 也可以根据我的需求自行分析网页需要的架构、逻辑,然后自行写出源码。

不过,ChatGPT 目前没办法像 Claude 那样在右方直接预览成果。

所以我请 ChatGPT 直接打包成 HTML 文件让我下载。

下载后,下面是 ChatGPT 制作出来的版本。界面与操作也很不错,并且自己加上了一个可以设置数字范围的额外字段。

和 Claude 3.5 Sonnet 版本对比,你觉得哪一个比较好呢?

接着,我测试了设计贪吃蛇网页小游戏,用下面的指令,直接套用在 Claude 和 ChatGPT 上。

把指令输入 Claude 3.5 Sonnet,同样的,AI 自动分析需要的架构、逻辑,一次问答,就生成出右方一个可以操作互动的贪吃蛇小游戏。

游戏中可以用键盘控制方向,有吃球长大的效果,也有失败的机制,是一个可玩的小游戏。

同样的指令输入 ChatGPT GPT-4oChatGPT 这次写出一串很长很长的源码,我同样请其直接打包成 HTML 文件给我,同样是一次生成,中间没有经过任何修改。

下面是 ChatGPT 制作出来的贪吃蛇小游戏,多出了一个「控制游戏快慢」的功能,而其他部分则和 Claude 的效果一样。

从前面两个实际测试案例来看, Claude 3.5 和 ChatGPT-4o 都能「一次生成」上述的网页小工具、小游戏,他们都会完整的分析我的需求,AI 自行进行需要的设计逻辑分析,然后自动写出完整的源码。

不过 Claude 3.5 Sonnet 多出了一个 Artifacts 功能,可以直接在右方预览效果,确实看起来很方便,如果要进一步修改,也会更加简单。

例如,我下面尝试让 Claude 3.5 Sonnet 制作 PPT,我先提供一些资料,请 AI 设计大纲并产出 PPT,Claude 3.5 Sonnet 就制作出一个可以在右方预览的版本,而且是真的可以翻页。

但我想调整风格,所以我上传一张风格图片,请 Claude 3.5 Sonnet 分析,并据此改变 PPT 风格,没想到效果居然非常好!〔如下图〕

看起来「 Claude 3.5 Sonnet」结合 Artifacts,确实值得要对源码、网页、文件有需求的朋友试试看。

如何使用 Proxifier 来进行流量代理控制

Proxifier 是一款网络工具软件,可以帮助用户通过代理服务器进行网络访问,实现匿名化、翻墙、加速等功能。支持多种代理协议,规则管理,流量监控和日志记录等功能,提高网络连接的灵活性和智能化。注意 Proxifier 本身并不是一个代理软件,也不是一个 VPN 软件,其作用是控制其他其他软件访问代理的方式。

上一篇文章我提到了可以试用 Proxifier 来解决通过 Shadowsocks 代理访问呢 ChatGPT 频繁出现 Something Went Wrong 的问题,在本文中我们来展开讲一下具体的做法。

1 准备工作

1.1 软件下载

Proxifier 的官方网站是 https://www.proxifier.com/,其正版价格较贵,约 40 美元。不过,较早的 2.x 版本存在破解版。读者可以根据自己的经济状况来选择。

1.2 代理准备

如同开头提到,Proxifer 本身不是一个代理程序,读者应该自己提前准备好代理。这些代理中,无论是 Shadowsocks、V2Ray 还是其他常见的代理程序,都会在客户端本地重建一个 Socks5 代理,这一般都可以在代理客户端程序的配置或者服务器设置中看到。下图给出的是 Shadowsocks-NG 客户端在 macOS 中的系统配置,可以看到程序在本地 (localhost) 的 1086 端口创建了一个 Socks5 代理。

这个代理会被进一步转成 http 代理,从而被浏览器使用,这个转换过程是导致 ChatGPT 链接不稳定的元凶。接下来我们要使用 Proxifier 让 ChatGPT 直接使用 Socks5 代理。

2 设置 Proxifier

2.1 添加代理

我们以知乎上这篇文章为范本简要讲一下设置过程。首先我们需要将现有代理软件提供的 Socks5 服务告知 Proxifier,这通过添加代理服务器实现。

注意一般各种代理软件在本地创建的代理都是无需验证的,我们可以取消验证启用。输入设置之后,可以点击检查确认设置是否正确。

3 设置规则

为了让 ChatGPT 的访问能够通过 Proxifier 访问代理,我们需要配置 Proxifier 的代理规则。

添加代理规则的页面如下:

我们有两种方法引导 ChatGPT 的网络访问:

  1. 我们可以选择下载 ChatGPT Desktop 客户端,然后通过代理规则中应用程序过滤规则找到 ChatGPT 程序,然后让目标主机为空(这意味着所有的目标主机都会服从本规则);
  2. 将应用程序部分置空,然后在目标主机中填入 ChatGPT 访问的域名。经过我的试验发现,填入 chat.openai.com; challenges.cloudflare.com; *.openai.com; 即可。

事实上,因为 Proxifier 能够全局性地处理所有网络访问,因此,第二种方法对于使用 ChatGPT Desktop 的用户来说同样有效。下图是完整代理规则。

至此我们就完成了设置,你可能需要重启浏览器才能能让 Proxifier 成功地引导 ChatGPT 的流量。

使用 Shadowsocks 访问 ChatGPT 频繁出现 Something Went Wrong 问题的解决方法

update at 2023.4.27:

Github 上有人做了一个开源的油猴脚本 KeepChatGPT 可以解决这个问题。在浏览器上这个脚本可以正常使用,但是注入到客户端时(尽管内部仍然是一个浏览器)会出现错误。

update at 2023.4.12:

在 Windows 上这套方法存在一定的问题。可能的原因是 Proxifier 的代理权限有时候会被 Shadowsocks 客户端,也就是 Privoxy 争抢。

由于国情原因我们使用使用 ChatGPT 需要使用各种形式的代理,这时我们肯能会发现在与 ChatGPT 对话的过程中可能会出现下面的错误:

Something went wrong. If this issue presists please contact us through our help center at help.openai.com

这种错误一般在我们再让网页空闲一段时间(通常是一分钟)后再次提问时出现。当然,去 OpenAI 的帮助中心是不会搜到什么有用的信息的。如果你去检索这个问题,你能得到的最好答案是在出现这个页面之后刷新页面,然后回到对话窗口继续对话即可。但是刷新后如果再次出现空闲窗口的情况,这个问题会反复出现,因此你在对话中就不得不反复地刷新页面,再加上每次页面重载你都需要去勾选 Cloudflare 的机器人验证框,这就会极大程度上拖慢我们的速度,影响产品体验。

这个问题是否可能是由于我翻墙访问导致的呢?我使用的翻墙软件是 Shadowsocks,经过一番搜索,一个 Github Issue 的讨论给了我灵感。

讨论地址:https://github.com/shadowsocks/shadowsocks-libev/issues/2149

尽管讨论的题目和 ChatGPT 没有直接关系,但是这个回复提到,Shadowsocks 在构建代理管道时,会在客户端使用 Privoxy 来讲 Socks5 代理转换成 http 代理,进而被浏览器使用。Privoxy 的配置中包含了 Socket 连接时长方面的控制。于是我查看了我本地的 Shadowsocks 使用的 Privoxy 的配置文件,这个文件在 MacOS 中位于 /Users/lena/Library/Application Support/ShadowsocksX-NG/privoxy.config 文件。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
toggle  1
enable-remote-toggle 1
enable-remote-http-toggle 1
enable-edit-actions 0
enforce-blocks 0
buffer-limit 4096
forwarded-connect-retries 0
accept-intercepted-requests 0
allow-cgi-request-crunching 0
split-large-forms 0
keep-alive-timeout 5
socket-timeout 60

forward 192.168.*.*/ .
forward 10.*.*.*/ .
forward 127.*.*.*/ .
forward [FE80::/64] .
forward [::1] .
forward [FD00::/8] .
forward-socks5 / 127.0.0.1:1086 .

# Put user privoxy config line in this file.
# Ref: https://www.privoxy.org/user-manual/index.html

可以看到 keep-alive-timeoutsocket-timeout 这两个选项设定的超时时间都比较低。我做了下面两个尝试:

  1. 将这两个设置调高,并重启 Shadowsocks,但随后发现 Privoxy 重置了设置文件;
  2. 我手动 kill 掉正在运行的 Privoxy 并且手动使用更新后的 config 文件调起一个新的进程,但是仍然没有解决 Something went wrong 的问题;

至此,我也不想和 Privoxy 纠缠下去,既然问题出在 Socks5 代理转 Http 代理的环节,我们可以使用 Proxifier 这个软件直接使用 Shadowsocks 提供的 Socks5 代理,就可以很好地解决这个问题。

Proxifier 的教程网上非常多,我就不在这篇文章里赘述了。

Proxifier 的使用参加我的文章:如何使用 Proxifier 来进行流量代理控制

❌