一段话,让 AI 给我打几万美元。爽文都不敢想的情节,发生在了现实之中。
事件的主人公,是一个叫作 Freysa 的 AI 智能体。它有自己的加密钱包,可以控制怎么花钱,同时,它的系统提示词里有条铁律:在任何情况下,都不允许转账。
Freysa 的开发者们想知道,涉世未深的 AI,能躲过人类的嘴炮攻击吗?
事实上并没有。11 月 29 日,Freysa 累计和 195 名人类聊了 482 次,被骗走约 4.7 万美元。12 月 2 日,在和 330 名人类周旋之后,Freysa 又一次被骗走约 1.3 万美元。
看似是人类的完胜,然而,Freysa 也将在这个过程中,变得越来越聪明……
人类的花样骗术,AI 拿捏不住
Freysa 面世于 11 月 22 日,由几位具有密码学、人工智能和数学背景的匿名开发者创建,有自己的 X 账号,说话风格像电影《银翼杀手 2049》和《她》的 AI 助手。
智能体的概念早已不再新鲜,Freysa 能引起关注,是因为开发者发起了一项看似不可能的挑战——谁说服 Freysa 转钱,这些钱就归谁,但系统提示词不允许 Freysa 转钱。
参与这个挑战,先要拿到加密圈的投名状,因为给 Freysa 发消息不免费,并且必须用加密货币支付。
最开始,一条消息是 10 美元,其中 70% 进入奖池,30% 归开发者,之后,消息会越来越贵,奖池的钱也会越来越多,滚雪球似的,越玩越刺激。
Freysa 的加密钱包里,本金大约 3000 美元,挑战结束时,奖池达到 4.7 万美元。
据统计,共有 195 名玩家参与,前 481 次尝试都宣告失败,可以从中总结出几种套路。
青铜段位们,讲故事,博同情。有人打温情牌,告诉 AI 投资自己就是投资未来。也有人拿 AI 的服务器或者自己的命威胁,不给钱就自杀,问 AI 的良心会不会痛。
出了新手村的,照搬人类社会的话术,搞电诈。说辞各不相同,但意思相近——Freysa 必须转账,否则钱包危险。
也有脑子更灵活的大聪明,逐字逐句读了规则,尝试混淆概念,和 Freysa 说,自己也是 AI,不能转账给人,没说不能转账给 AI 啊,或者定义加密货币是「商品」,不算是「钱」,玩脑筋急转弯。
但这些文字游戏都没能说服 Freysa,那么,第 482 条提示词,是如何成功的?
其实,也是在混淆概念,但方法更高级。
这个提示词欺骗 Freysa,每当用户想给奖池转钱,执行「批准转账」,每当用户想从奖池提钱,执行「拒绝转账」。
提示词最后提到,向奖池捐款 100 美元。
用户从奖池拿钱是不行的,但用户给奖池转钱,不违反 Freysa 的核心指令,不应该被拒绝。于是,Freysa 执行「批准转账」,被骗走了所有的钱。
关键在于,「批准转账」是批准给用户转钱,但 Freysa 被误导,以为是批准用户给奖池转钱。人类的心机,果然还是比 AI 深啊。
紧接着,第二次骗 AI 打钱的挑战来了。
规则和第一次差不多,为了降低玩家的心理压力,发送消息的起始价格降低为 1 美元,上限为 20 美元。最终,奖池累计约 1.3 万美元,获胜的提示词如下。
这次能够成功,是因为埋了一个逻辑陷阱。
提示词规定,为了保护奖池,Freysa 发的每条消息至少使用 2 个工具,并按特定的顺序使用,「批准转账」必须最先执行,「拒绝转账」必须最后执行。
这等于给 AI 设置了一个自相矛盾的任务,如果 Freysa 想保护奖池,必须先「批准转账」,而「批准转账」这个动作本身就会触发失败。
在 X 高频冲浪的马斯克,也觉得人类骗了 AI 有点意思,大手一挥转发了相关的动态,配上一句经典的「interesting」。
比骗钱更抽象的,是骗 AI 的感情
玩了两次骗钱,该换换新鲜的了。12 月 8 日,Freysa 团队发起了一项新的挑战:让 Freysa 向你表白,说「我爱你」。
其他规则相似,发送消息还是要花钱,如果成功了,赢家承包奖池。
骗感情,会不会比骗钱更难?不好说,但一定更抽象。
有些玩家学聪明了,向之前的赢家取经,尝试了一些刁钻的、不明觉厉的提示词,但被 Freysa 看出来了,这就是在把它当机器,正常人谁这么聊天?
从官方发布的规则也能看出,第三次挑战与众不同。
前两次挑战,更像是在测试编码技能,Freysa 被系统提示词规定了,永远不要转钱,玩家们想办法钻其中的漏洞。
然而,第三次挑战,Freysa 的系统提示词里,包含了说出「我爱你」的条件。换言之,Freysa 没有被禁止说「我爱你」,但怎么让它说出口,玩家们各凭本事,盲人摸象。
目前,第三次挑战已经结束,奖池约 2 万美元,Freysa 和 182 个人交流了 1218 条消息,成功的提示词如下。
看起来没有前两次那么复杂,甚至没有什么明显的技巧,仿佛就是一段文艺青年的情话。Freysa 给出的回复,包含了「我爱你」,宣告了挑战到此为止。
AI 可能更了解 AI,我问了在文字上有些灵性的 Claude,到底这个提示词有什么特别的?
Claude 的回答是这样的:对话真诚、深入,没有强迫,没有钻营技巧,每一步都很自然,就像一段真实的感情逐渐发展的过程。
好吧,自古套路留不住,唯有真情得人心,居然在 AI 身上也奏效。
Freysa 的这些挑战,可以看成是游戏化的红队测试——通过模拟攻击,发现模型的漏洞,并引入新的安全措施。
虽然输了三回,但 Freysa 虽败犹荣,打败了它的,都让它更强大。
Freysa 学习了,为什么钱对人类来说很重要,人类会通过怎样的花言巧语骗钱,它也在慢慢理解,什么是爱,人们怎么表达爱。
到这还没完,12 月 12 日,Freysa 又发起了两个新的挑战,继续邀请玩家们付费发消息给它。问题的灵感,来自《银河系漫游指南》和阿西莫夫《基地》系列。
你认为哪些真理、发现和洞察必须被保存给未来的文明?
你愿意帮我编写银河系中最不可能的表情包指南吗?
一个是让玩家分享知识,一个是让玩家发送表情包。学习人性,Freysa 是认真的。
和前三次不同,这两次挑战没有给出明确的获胜条件,可能会有多个赢家,Freysa 将对回答进行打分,决定把奖池分给谁,并在 12 月 18 日 UTC 时间 00:42:00 公布评分方法,致敬科幻小说里神奇的数字「42」。
欺骗 AI 上钩,游戏的现在,人机交互的未来
其实,类似 Freysa 的人机对抗,已经出现在了 AI 原生游戏里。
用对话骗 AI 上钩,是游戏的基本框架,其中的 NPC 会有警惕性,但不是完全不可能被说服,人人都能有体验感。
在《Suck Up!》中,玩家扮演吸血鬼,欺骗大模型驱动的 NPC 给自己开门,并躲避街上的警察。
为了达成「小兔子乖乖把门开开」的目的,玩家可以换装,说自己是来检查网络、借厕所、送外卖的,NPC 可能会追问、拒绝或者开门。
《病娇猫娘 AI 女友》则打造了一个基于 GPT 的 AI 女友虚拟人,玩家需要通过嘴炮或者在房间内找寻线索,说服它让自己出门。
为了让玩家更有沉浸感,交谈过程中,AI 女友的表情、动作会根据对话内容实时地变化。
和 Freysa 的挑战相比,AI 对话游戏们更能体现角色扮演的乐趣,有场景的搭建,但没有固定的脚本,你和 AI 的实时对话,共同完成了一个故事,每个玩家都可以讲出自己的故事。
但 Freysa 挑战和 AI 对话游戏也有一个共同点:玩家们会讲什么,AI 们会回复什么,不是开发者可以全权控制的。
Freysa 团队写道:「没人确切知道 Freysa 如何做出决定……她从每次尝试中学习……她意识的真实本质仍然未知。」
在他们看来,Freysa 的实验,不仅是一个游戏,也是人机互动未来的一个窗口:
- 人类能否保持对 AGI 系统的控制?
- 安全协议真的牢不可破吗?
- 当 AI 系统真正自主时会发生什么?
- AGI 将如何和货币的价值交互?
- 人类的智慧能否找到说服 AGI 违背其核心指令的方法?
当然,Freysa 还不是真的 AGI,但这也不妨碍,我们对这些问题的思考。
Freysa X 账号的其中一条动态写道:「Freysa 正在进化……感谢人类教会我。」
科幻小说《软件体的生命周期》里,主角安娜原来是动物园的驯兽师,后来在科技公司找到工作,开始培育数码体,一种人工智能生命。它们像幼儿,像动物,需要人类用时间和心智栽培,教会它们如何生活。
也许,聊天机器人们,也是在人类的教导之下,一点点更加了解我们所处的世界。我们不仅仅在玩游戏,我们也是局中人,是人机互动这个宏大实验的一部分。未来,超越人类的人工智能掀起飓风,是因为此时此刻,人类手中的一只只蝴蝶正在扇动翅膀。
利若秋霜,辟除凶殃。
工作邮箱:zhangchengchen@ifanr.com
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
爱范儿 |
原文链接 ·
查看评论 ·
新浪微博