Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

动动嘴就能干活,这 7 款 AI 工具成了我离不开的效率搭子|AI 有用功

By: 张成晨
7 August 2024 at 19:20


语音,是一个「甲之蜜糖,乙之砒霜」的媒介。被微信 60 秒语音轰炸过的朋友,最懂个中滋味。

你说语音输出快,我嫌听起来不方便。你觉得语音更有感情,我认为文字更一目了然。立场相对,对语音的态度也就不同。

好在,已经重塑了很多产品的 AI,终于也在语音工具上雕花了。或许会让你觉得,语音也没那么讨厌。

APPSO 选取了几款语音转文字的工具,根据 4 个不同的场景,分享具体的使用体验,不存在纯粹的推荐,过程中有种草也有踩雷。

除了处理他人的语音,我们也可以用这些工具,记录脑洞,提高效率,甚至在以前意想不到的场景,打开新世界的大门。

如果你觉得有什么好用的产品,也欢迎在评论区分享!

捕捉脑洞的灵感搭子

——闪念贝壳、Voicenotes

接收语音固然让人暴躁,输出语音却比打字来得迅速。也就是说,捕捉一闪而过的脑洞,语音是一种时间成本较低的方式。

但这里存在一个问题,语音记录的信息粗糙、不直观、不方便检索,说完之后,我们还要再进行整理。

app「闪念贝壳」(目前只有 iOS 版),考虑到了存在已久的痛点。

▲ 设计特别,开屏致敬了《星球大战》的千年隼号

你不用担心停顿、口语化或者逻辑混乱,直接开口说你的想法,AI 可以帮你自动整理内容,并添加标签,方便管理和查找。

生成文字之后,你还能通过预置的提示词,将内容一键改写成代办事项、小红书文案等各种风格,或者再和 AI 聊聊,完善你的想法。

我口述了编辑的工作日常,要求整理成待办事项,说话的时候是想到哪就说到哪,但 AI 能够按时间线整理。

当我以更随意的状态,输出一些小说、电影的评价,对比了录音可以发现,AI 帮我省去了一些「哎」「嗯」之类的语气词,无意义的「然后」也会被消除,说错的一个词重新说一遍之后,会保留下来正确的版本。

AI 干完了整理的活,然后我们就可以和它再聊聊,读后感最适合和什么都懂一点的 AI 交流。

不过,AI 转录后的文案可能出现错误,可以让 AI 重新整理,或者点击页面之后人工微调。

基础功能也没被忽略,闪念贝壳同时保留录音和文字,并可以导出录音,我们纠错也就更加方便。

有些遗憾的是,免费用户体验的「点数」有限,且录音无法超过 1 分钟,付费(19 元每月、149 元每年、198 元终身),才能不限制录音时间,继续使用 AI 功能。

海外的语音笔记应用 Voicenotes,和闪念贝壳的定位和功能比较像:保留录音、添加标签、人工改正转录错误、AI 改写文风、与 AI 交流想法,但界面设计更加极简。

▲「独家富人大象馆」,实为「杜莎夫人蜡像馆」

Voicenotes 国内可用,app 语言为英文,支持在设置里将我们的输入和转写语言改成简体中文。

同样,Voicenotes 需要订阅(68 元每月或者 328 元终身),才能实现 1 分钟以上的录音,用上 GPT-4o、Claude Opus 等更好的大模型。

用一句话吩咐的生活秘书

——Miley

脑洞、工作事项之外,我们的生活里还存在更日常、更轻量、一句话就能说完的场景,这时候可以试试 Miley AI,一款主打「记录+智能体」的个人记忆 AI,目前只有 iOS 版。

它很适合用来在不方便打字的路上随手一记,吃了什么,花了多少钱,有什么突然的灵感,或者接下来要做某件事情,让人类 NPC 的一天井井有条。

最有意思的地方在于,Miley 可以根据你输入的内容,智能分析各种类型的事项。

你提到开心的事情,AI 可以识别出你的情绪,并用对应的表情标记。你说午餐花了多少钱,AI 会帮你记账。你怕错过点外卖的时间,AI 可以设置横幅提醒。

甚至你想设立一个每日运动的小目标,也可以通过授权苹果健康数据,监督每天有没有完成。比如,告诉 AI 每天都要散步 2000 步,周末 citywalk 实现 17800 步,这一项便可以打上勾。

水灵灵地随口一说,我们就有了记账本、运动打卡、提醒事项……

AI 的好处便在这里,碎片化的内容,整理起来不像以前那么花时间了,甚至像我这样不喜欢做计划的懒人也愿意试试,如此日积月累,形成微型日记,内心还会产生成就感。

不过对于免费用户来说,语音识别和智能体分析额度有限,尤其智能体分析,很容易触顶,这时候就需要「钞能力」,每月 28 元或者每年 188 元订阅。

▲「选题会」这个词,AI 识别有错有对

更影响使用体验的是,语音识别的准确性不够高,虽然支持修改,但会影响我们使用的初衷——AI 应该省事,而非多事。

改变输出习惯的创作工具

——墨问便签

说到创作,我们的脑海中会浮现这样的场景:正襟危坐在电脑前,在键盘上敲敲打打,眼睛快粘在屏幕上……

更随意、更生活化的语音,是否能被用于更长篇幅的创作?如果你想知道自己能不能出口成章,墨问便签是个不错的开始。

墨问便签是一款微信小程序,它的 AI 语音功能,单条最长支持录制 10 分钟,目前免费。

▲ 长按底部「+」号召唤出语音功能

其中一个设计很有意思,墨问便签支持实时输出,你边说边能看到转录的文字,而不是只能看到录音时间。

但这个功能也可能是打扰我们输出的干扰项,虽然会不断地自我修正,但转录文字的准确性还有待提高。

输出完毕,按下停止键,AI 会对文字润色一番,包括分段、修改错别字、去掉因为嘴瓢重复的词等等,但 AI 也不能修改所有的错误,之后我们还可以进行手动修改。

最终,我们就整理好了一条保留语音的笔记,可以仅自己可见,也可以公开。

墨问便签将自己定位为「创作者工具」,打开小程序,先显现出来的是它的 slogan:记录即创作。

平时看着电脑屏幕发呆还不觉得有什么,但对着手机讲满 10 分钟,还是挺有挑战性的,不仅口干舌燥,还有搜索枯肠、无话可说的无力感。

提供轻量化体验的小程序,或许真能让思考成为一种习惯。

重度语音处理的效率助手

——飞书妙记、讯飞听见、通义听悟

以上的语音场景,大多数不是硬性需求,可以抱着玩的心态上手体验。

平时工作遇到必须要用语音的时候,飞书妙记是我的首选。无他,习惯了,「先进团队,先用飞书」,企业账号真香。

几十分钟甚至几个小时的线下发布会、采访,我都是掏出手机,用飞书 app 里的「飞书妙记」录音,然后在飞书网页端处理音频,导出带有时间戳的文字记录。

这样一来,哪里的文字记录可能有问题,就可以精准定位到音频的对应位置,自己边听边修正。

飞书妙记也支持上传本地的音视频文件,如果网不好,可以用手机自带的录音工具记录,再交给飞书妙记处理。越基础的需求,越解决得好,使用体验就越丝滑。

飞书之前,我常用的是讯飞听见,飞书有的导入音频、区分说话人、倍速播放、搜索关键词等功能,它也有。

不过,讯飞听见虽然录音免费,但核心服务收费:将音频转成文字导出,需要购买录音转写包(连续包月 18 元)或者畅享包(连续包月 79 元)。

讯飞听见现在还有 AI 的加成,支持章节速览和问一问。我让聊天机器人「小谛」总结关于「冥想」的 40 分钟采访,重点抓得挺有条理,对于写文章有些帮助。但 AI 功能也并非免费,包含在录音转写包和畅享包里。

如果说飞书妙记用于线下、基于手机,那么通义听悟就补全了线上的场景。

通义听悟有网页、浏览器插件、微信小程序,更加「即用即走」,每天登录自动领取 10 小时的转写时长,基本相当于免费使用。

通义听悟也支持本地音视频的转文字,可以区分发言人、提供翻译,但我用得更多的,是实时语音转文字的功能。

在网页端,将标签页分享给通义听悟,我们开会、看视频、追发布会,就能拥有一个实时记录、提供字幕的搭子。

如果涉及外语,通义听悟还支持实时双语字幕,先选择音视频语言,再选择翻译语言,然后开启实时记录即可。

▲ 上为通义听悟,下为基于 CC 字幕的双语翻译

但通义听悟的翻译速度有延迟,翻译结果也会根据原文的变化而变动,这很正常,英语句子较长、定语较多,一句话说完才能知道意思,哪怕有字幕,有时候仍然一头雾水。

▲ 通义听悟实时调整翻译结果

所以在我的实际体验中,对于实时字幕,通义听悟在中文发布会的表现比英文发布会要好,像雷军这样略微不标准的普通话,很适合交给通义听悟处理。

结束共享之后,通义听悟可以提供转写原文,并智能总结内容和提取重点,很适合作为写稿材料。

讯飞听见有「小谛」,通义听悟也有「小悟」,你可以基于文字记录,向它提出相关的问题,点击回答中的时间戳,还可以定位到原文内容。

但还是会出现语音识别的老问题:说不对名字。Kimi 变成了「km」,秘塔变成了「蜜塔」,靠用户自己分辨和修正。

语音转文字,等待 AI 重做一遍

语音转文字,某种程度上是一项刚需。

聊天消息的转写,采访、会议、发布会的跟进,脑洞、生活碎片的记录,我们都可以用到它。

本质上,这些更强调 AI 存在感的新兴语音转文字产品,其实都在主打更智能、深入的内容处理,包括文字转写润色、按标签和类型整理内容、通过对话的方式查找和拓展内容等。

与此同时,仍有很多不尽如人意的地方。

  • 语音转文字的准确率仍然需要提高,保留录音和支持手动编辑又勉强弥补了这个问题。
  • 功能有创意,但不够完善,甚至成为阻碍记录的干扰项。
  • 收费门槛很低,少量尝鲜后就需要订阅了,但这也不能怪开发者,谁都想站着赚钱。

独立开发者们在语音转文字的赛道竞争,前景如何也并不明朗。

锤子手机 2017 年推出的闪念胶囊,是很多人心中的「白月光」。

长按 Home 键,或者耳机线控的中间按键,就能开始语音输入,记录你一闪而过的想法,文字和录音都会保存下来,你还能再编辑文本。

记录下的「胶囊」,可以拖拽到便签、插入微信输入框、变成待办事项……

这样基于系统的功能,唤起和使用步骤更少,也更符合我们的直觉,不把记录搞复杂化,才能真正地提高效率。

所以,虽然现在产品井喷,未来可能还是由操作系统厂商一锤定音,出现 Apple Intelligence 这样的、系统级的收编和降维打击。

之前看到一句调侃,国内的主流操作系统不是 iOS 也不是 Android,而是微信。

这话有些道理,像我一位做播客的同事,习惯在路上记录灵感,试过很多语音转文字的工具,最终大道至简,给文件传输助手发语音,再转文字。

高端的食材,往往只需要最简单的烹饪方式。想法本身的奔涌最为可贵,有些时候,不需要什么辅助的 AI 功能,我们只是想要快速把事情记录下来,能够一键完成终极目标的、最习以为常的方式,往往才是效率最高的手段。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


啊,创业6年了

By: DK
24 November 2022 at 22:40

三年前写过一篇文章「我创业的这三年」,三年又三年,好家伙,今年已经是六年了。

开头的三年,我做的很差,我至今依然没有洗清某种学生气,或者在某些时候不合时宜的对世界的天真看法,但那时候问题显然严重得多。

2016年,我从大学来到北京,我花了一年多的时间,才发现我一开始的创业方向错的离谱,然后又再花了一年多,才找到相对正确的方向,对于大多数情况较好的创业来说,这是人家的起点,而我花了三年才达到。

2019年,我开始全身心投入面包多这个产品,也就是上一篇三年总结中的「帮助创造者获得收入,帮助他们到达更远的地方」,那篇总结写在面包多上线的第四个月,我虽然已经相对谨慎,但还是没注意到文章里有一口毒奶,我这么写当时的面包多:

「也在过去的四个月,每个月都保持了 200% 以上的增长,在某种程度上,我可以说,我们终于开始揭开一个「拿的出手」的产品的面纱了」

文章发出去之后的下个月,面包多增长骤停,其实这也不难理解,当每月流水只有一两万的时候,增长个 200% 甚至 500% 都很容易,假如说身上只有 1 毛钱,那在路上捡了五块钱,都算是增长 5000% 了,面包多比1毛钱或5块钱好一点,上线四个月后月流水开始能有五六万了,这意味着每天有差不多两千块。

很惭愧,我拿了几百万的天使投资,虽然开始做面包多的时候已经所剩不多,但也好歹还有超过10人的团队,结果搞出来的东西,就是一天 2 千块的流水,并且我们赚的还只有 5% ,也就是 100 块。

好在那段时间我不咋写文章,开始更加积极的做产品更新和一些有意思的创新,然后数据开始继续增长。

一方面我在用很多办法削减支出,一方面我们的收入也在增加,最终我期待的事情在 2020 年底的时候发生了,那就是我们靠自己的赚的钱,可以够团队的成本,也就是达到了收支平衡。这不算是特别值得庆祝的事情,因为那时候团队已经被我砍到四个人了,再砍下去,就可能无法维持最基础的产品运作和更新了,但不砍的话,账上的钱其实很快就会见底,我最终在2020年的悬崖边缘,勒住了马。

大多数创业者是在有足够的积累,广阔的资源,坚定的想法,然后投身其中的,而在我前三年的创业中,我对这些几乎一无所有,对团队管理,更长远的规划,市场和竞争也几乎一无所知,只是埋头想做点啥东西,这就好比玩游戏,我本来应该先从新手教程学起,按O攻击,按X跳跃,但我却突然跑到最终 boss 面前,然而又因为卡了一个 bug,让 boss 一直没把我打死,这样苟过了三年。

走这一段弯路,没有从一开始直接杀入创业最核心的那个部分,虽然是我的不幸,但从整个过程来看,也可以看作是一种幸运了,当三年后,我因为面包多重新面对真正的市场和行业的时候,虽然趔趄但不至于倒下,这里的弯路也有一些作用。

我经历过的最激烈的竞争和最凶猛的攻击,都是在面包多增长最好的那段时间,我们被诬陷,被举报,被投毒(指在产品里故意发布违规内容,倒还不是用氰化物这种),也被人误解和扭曲,不道德的竞争手段就更多了,那些坐在办公室的凉风,MacBook,星巴克,那些逗趣的行业黑话和中英夹杂的表达,那些大厂的履历和背景,那些时髦光鲜的峰会座谈,最终还是会统统变成丛林法则,弱肉强食,欺善怕恶,唯利是图。

我其实很长时间都无法理解,我一直以为,互联网,应当不至于此,但确实是至的,这和互联网没有关系,这是人性。当然,不赚钱和特别特别赚钱的事情,可能情况会好很多。

我大学挂科很多的原因是我不作弊,不作弊的原因并非我是什么大好人,而是因为我见到身边的人都在作弊,这使我更厌恶作弊,我也不是什么正人君子,但如果见到的恶太多,我则会嫉恶如仇,我怀疑世界上可能有一种人就喜欢在好人堆里当个蔫坏的人,而在坏人堆里却一定要当好人,这种人朋友肯定不会太多,但活得应该比较有意思。

这里就回到了最初也是最终的问题,那就是为什么我要选择创业,而不是打工或者啃老,首先我要排除啃老,因为我过意不去,我爸妈也不会很乐意,其次是打工,我短暂的试过可能20天到1个月,但发现,如果我每天都在做一个我不想做的事情,或者无法把时间花在我想做的事情上面,我简直度日如年。

于是,做自己想做的事情,就成为了我唯一舒服的生活方式,而这种方式加入赚钱的部分,我们就称之为创业,后来又会加一些别的东西,比如股东,责任,投融资,回报,这些东西让事情变得更复杂,但总的来说还是主要做我想做的事情,或者说,保有能做我想做的事情的能力。

与其思考创业的目的,不如思考人生的目的,创业的目的可以用赚钱来逃避,人生则困难一些,但两者在某种程度上是一致的,当一个创业者无法把人生的目的和创业的目的进行某种关联的时候,就我经验来看,其人生和创业可能都会出问题。

这倒不是说,我们就决不做不愿意做的事情了,而是始终要清楚,做不愿意做的事情,只是为了达到目的,但不是目的本身,不愿意做的事情做多了,可能会从手段变成目的本身,那就大事不妙了。

最近几个月,我又无意中进入了一个极卷的行业,当我们 6 月底上线 6pen 这个 AI 绘画工具的时候,我只是觉得文本变成图片这件事很好玩,且 dalle2 和 midjourney 的内测很让人烦,于是想做一个没有门槛的小工具,但随着 8 月底 stable diffsuion 的开源,进入门槛瞬间降低,然后我们就在大约 1 个月内出现了大概 30 个竞品,未来可能还会有 300 个。

相较于其他 AI 绘画工具的野路子:完全不遵守开源模型的规定,欺骗用户,套壳和各种抄袭,极其低劣的推广方式,6pen 像是一朵白莲花,甚至我都有点烦了,为什么我们就不能像他们一样搞搞呢,用户哪里会在意你用了泄漏的 novelai 模型或者把 stable diffusion 说成是自研。我可以找到很多理由,例如我们要做长期价值,我们要通过创新来获得优势,但最重要的原因就是,这么做没意思。

我花了这么多时间和功夫,才能够做我想做的事情,如果现在又要做没意思的事情,那还有什么意思。

当然,我们确实会做很多创新,也会完全和这些同质化严重的大量产品拉开足够大的差距,但最重要的原因还是,我不想做没意思的事情。

我希望我能做成,因为这有两个可能性,要么是世界更本质的东西其实还是我希望的样子,要么是我让世界变得更像是我希望的样子一点,无论哪一种,这总是让人开心的。

我有一个比我成功很多的创业的朋友,他有一天深夜给我发了一条消息,说「我做了一次坏人」,我没有问,他也没有继续说,我认为做一次坏人是极有可能的,尤其是对创业者而言,但我们应该只做一次坏人,而不要彻底成为一个坏人。

第六年,我比之前走的稍微更近了一步,我没有发财或者成功,离做大做强也依然很有距离,但我看到更多这个世界的样子,也更深入的看到了许多人心和人性,我依然保有最开始的某种状态,并依然在追求同样的东西,我想这应该是很幸运的事情。

六年已经超过了中国中小企业的平均存续时间,这并不是一件容易的事情,但更重要的原因不是我做的有多好,事实上我有很多时刻,那些时刻其实解散或关闭公司是理论上更正确的选择,我只是基于个人主观的原因持续了下来,结果怎么样还不好说,但好歹我确实还没下牌桌。

虽然我换过多个方向,但公司主体没有变过,所有老股东也还都在这里,与 2016 年初冬时我注册的那家公司的价值相比,至少在纸面的估值上,它提高了 60 倍,当我意识到这一点的时候其实也挺吃惊的,这是我学到的另一件事,无论做的有多差,但只要一直做,就会有或多或少的沉淀,经年累月之下,可能也会成为可观的积累,这也是某一种复利。

六年时间对应一个完整的小学,从一年级到六年级,可能是人生中变化最大的六年,小学毕业的二十年后,我可以算作重新体验了这样一次巨大的变化。

接下来,我进入创业的初中了。

❌
❌