ChatGPT o1 会主动思考推理的 AI,新模型发布实测总结
openai 今天发布「 ChatGPT o1-preview」,是会尝试主动思考的 ai 语言模型,chatgpt Plus 订阅用户现在就可使用。
根据 OpenAI 的说法:「我们训练这些模型〔ChatGPT o1-preview〕在回应前花更多时间思考问题,就像人类一样。通过训练,它们学会精炼思考过程、尝试不同策略,并能察觉自己的错误。」「如果您正在解决科学、程序设计、数学和相关领域的复杂问题,这些增强的推理能力可能特别有用。」
我自己在讲 ChatGPT 提升工作效率的相关课程时,常常强调一个设计指令的重点:「如果我们写 AI 指令〔 prompt、提示语〕时,可以让 AI 写出自己在想什么、怎么处理任务,通常生成的内容结果会相对更好。」
从用户端的角度来看「ChatGPT o1-preview」,就是在 AI 生成内容前,会先展开一步一步的思考流程,它可能会选择思考的策略与切入点,有时会提出一些批判思考,也会更仔细的分析资料细节来做深入处理。
在这个过程中,「ChatGPT o1-preview」生成内容的速度其实比 GPT-4o 要慢上不少,可能需要 30~60 秒的思考时间〔或者更久〕,才会开始一步一步的生成内容。
也因为这样的「思考」过程需要耗费更多运算资源,所以即使是 ChatGPT Plus 用户,在使用「ChatGPT o1-preview」时也有一些限制:
也就是说,目前「ChatGPT o1-preview」比较像是「GPT-4o」的辅助,在进行一些需要深入分析资料、产出有逻辑结果的任务,或者像是科学、数学、程序代码相关领域时,可以运用。
今天这篇文章,我就从自己日常惯用的几个 AI 辅助需求:翻译、摘要、企划思考、文案,以及有时用代码写个小工具的角度,以实际案例测试看看,「ChatGPT o1-preview」的效果如何,并和「GPT-4o」同样指令下的结果作比较。
当然,如果能从科学、数学与代码的角度来验证更好,不过从我个人常用角度出发,也想验证看看 ChatGPT o1-preview 是否能满足我的日常工作需求,也提供大家参考。
下面,先提供大家下面测试案例的快速心得比较表格。
翻译结果更简洁有力,文句白话流畅。
用语更符合台湾惯用词汇。
在「白话流畅度」与「专业用语」间平衡得更好。
翻译结果相对较弱,文句不如 o1-preview 流畅。
能计算分数并回馈对错。
无需修改即可使用。
需要多次反复调整才能达到可用程度。
提供具体、逻辑分明的建议步骤和文章架构。
深入分析资料细节。
缺乏深入的分析和明确的建议。
能整理出详细的步骤和操作要点。
细节完整程度略有不足。
缺乏社交贴文所需的流畅性和吸引力。
更注重安全性和准确性,避免使用版权材料。
可能在细节上不够精准。
首先来试试看翻译〔英翻中〕,我通常会用下面指令来要求 ChatGPT 翻译文章:「把下面这篇 XXX 主题的文章,翻译成中文,请一段一段翻译,尽量在维持原文语意,主题风格的情况下,让上下文的语句更自然通顺,遇到专有名词时附注英文原文,并在第一遍基本翻译后,用台湾惯用词汇与语气进行最后修饰。」
下图「左方」,是「ChatGPT o1-preview」翻译的结果。下图「右方」,是「GPT-4o」翻译的结果。
结论是,「ChatGPT o1-preview」花了 57 秒完成一整篇文章的翻译〔文章是 OpenAI「ChatGPT o1-preview」官方公告〕,但是翻译的结果比「GPT-4o」优异不少。
例如,大多数时候,「ChatGPT o1-preview」翻译的文句更加简洁有力〔相对「GPT-4o」〕,可以在许多段落看到这样的差别。
「ChatGPT o1-preview」翻译的结果也更白话,相对流畅,用语更符合我指定的中文用语。
「ChatGPT o1-preview」在「白话的流畅度」与「专业用语」之间也相对更能拿捏得当,会让人更容易看懂,但又保持专业用语的明确性。
我让「ChatGPT o1-preview」测试直接写一个九九乘法表小工具。o1 同样会先思考撰写工具的逻辑,然后才开始写出程序代码。
我提供的指令是:「我的小孩正在练习记忆数学的 99 乘法表 ,你可以设计一个协助她练习的小游戏吗?
请一步一步分析,从简单的 2 与 5 的乘法表开始,然后练习 3、4、6、7、8、9 的乘法表,根据每一个乘法表设计一个记忆游戏,游戏一开始可以选择要练习哪一个乘法表,进入后可以随机考验该乘法表的熟练度,最好设计有游戏机制。」
下面是 ChatGPT o1-preview 第一次生成的 99 乘法表小游戏,我没有做任何的修改,但是正确性、界面美化、操作流畅度都已经达到可用的程度,还会计算分数与回馈对错。
下面是旧版 GPT-4o 第一次生成的小游戏,基本界面可操作,但有一些明显错误〔如下图〕,可能还需要多几次的反复问答,才能调整正确。
我也很常跟 ChatGPT 一起讨论沟通企划案,下面是新旧版本生成的结果比较。
我提供了许多参考资料,请 AI 帮我做产品的企划报告。
「ChatGPT o1-preview」在生成过程中,会主动做一些反向思考,与探索不同的报告呈现方式,并且提供一些具体的、逻辑分明的建议步骤,这些不一定有出现在我的指令中。
下面是 ChatGPT o1-preview 生成的版本,我举出其中一部分,它提出了一个撰写初稿的建议方案,并指出了一些明确的试写步骤、文章架构方向。
下面是 GPT-4o 类似段落的版本,虽然也提出了撰写初稿的建议,但整体的说明就比较一般,少了一些明确的、深入的分析与建议。
我也测试了用两个版本去摘要同一篇文章。
下面是 ChatGPT o1-preview 的版本,可以看到文章细节整理得更深入、完整、有条理。
下面是 GPT-4o 版本摘要的结果,基本架构也相似,但细节的完整程度就有一点落差。
不过,ChatGPT o1-preview 也有他不擅长的内容,目前看起来它撰写流畅文案的效果,反而没有 GPT-4o 好〔现在写文案相对效果最好的可能是 Claude 3.5 Sonnet 〕。
下面我请 AI 根据参考资料写出社交贴文上的文案。
ChatGPT o1-preview 版本,AI 会思考撰写过程,撰写时会进行更多安全性、准确性的思考,例如避免使用版权材料。
但是多次尝试后,发现 ChatGPT o1-preview 版本目前的结果,比较像是把参考资料更有结构、更有逻辑的分析整理,不太像是社交贴文。
相较之下, GPT 4o 的版本,可能细节没有那么精准,但文案比较流畅。〔如下图〕
以上就是我的初步测试案例与心得,提供大家参考。