Reading view

There are new articles available, click to refresh the page.

我在小红书上,发现了这些脑洞的 AI 应用 | 附产品推荐

我们是小红书 Native App!

在上海的一场独立开发大赛上,「小猫补光灯」开发者蹦跳着冲上舞台。

这场开发者大会和我过去参加过的都不太一样,没有枯燥的技术演讲,没有严肃的商业计划,这些应用都在不约而同放大着生活的分辨率。

比如一款能将普通二维码变成艺术品的工具、一个 AI 帮你记住每一顿美食的应用、一个让文字流动起来的平台。甚至还能来一场「 梦境社交」,记录并分享你那些千奇百怪的梦。

与这两年那些充满「震撼」和「惊艳」的 AI 发布会不同,这里没什么惊天动地的技术革新,应用的灵感大都源于开发者自身经历的细微洞察,对生活中那些被忽略角落的回应。

用 AI 放大生活的分辨率

在 2019 年的中传大学的校园里,一个刚入学的大一新生静静地观察着周围同学们为作业制作二维码的繁琐过程。他们一笔一划地手工绘制,将黑白方块变成视觉上能接受的设计,却耗费了大量时间。

为什么二维码总是这么丑?为什么不能让它们既美观又实用?

这个疑问在倪豪心中萌发。当时,这位 01 年出生的少年并不知道,这个看似简单的问题将让他走上独立开发者的道路。

一次偶然的机会,倪豪将自己的想法与朋友「你好同学」分享。在北京的一个小咖啡馆里,他们常常聊到凌晨四五点,讨论着各种天马行空的产品想法。在这些熬夜的日子里,QRBTF AI 二维码的雏形逐渐成型。

「你知道吗?每天我们扫描的那些黑白方块,其实可以变成任何样子,只要它们仍然能被机器识别。」 倪豪向朋友解释着自己的设想。

从大一开始,倪豪便着手开发 QRBTF 的第一个版本——一个能够自动生成二维码的网站。当时的生成效果还相对死板,但已经展现出了不同于传统二维码的可能性。四年过去,如今已是同济大学研究生的倪豪,将 AI 技术融入到了他的项目中,升级成了现在的 QRBTF AI。

这个看似小众的工具,却解决了一个普遍存在但鲜少有人去解决的痛点:二维码的美学问题。

在商业设计中,精心设计的海报或产品包装常常因为一个黑白呆板的二维码而破坏了整体美感。QRBTF AI 允许用户上传一张图片或描述想要的风格,AI 就能生成既能被正常扫描又具有艺术效果的二维码。

「当我第一次看到用户生成的二维码图片时,我简直不敢相信。」一位使用 QRBTF AI 的设计师分享道,「它完全改变了我对二维码的认知,从一个必要的功能性元素变成了设计的亮点。」

这款工具上线后迅速走红,不仅在小红书上获得大量分享,还吸引了设计师、市场人员的广泛应用。最终,在小红书独立开发大赛中,QRBTF AI 二维码摘得「最佳 AI 项目」金奖。倪豪在现场表示:

「我希望每个普通人都能轻松创造美,让技术服务于生活的每一个角落。」

我在现场还看到很多像倪豪这样的年轻开发者,他们展现出了 AI 时代独立创作的无限可能:不再局限于传统的技术框架,勇敢地将 AI 与生活需求、美学追求相结合,创造出既解决问题又富有创意的产品。

像小红书上出圈的「胃之书 2.0」,用户只需上传照片,AI 就能识别食物并自动生成精美文案,为用户提供一本个性化的「胃之书」。

开发者赵纯想最初是为了解决自己的问题:「我是个吃货,但总是记不住自己吃过什么好吃的,想推荐给朋友时常常词穷。」

还有深受播客爱好者青睐的 Nooka,与传统有声书不同,Nooka 使用 AI 技术生成的语音更为自然,还能根据内容调整语气和情感。

更有趣的是,用户可以选择不同的「声音角色」,比如让莎士比亚的作品由「莎士比亚本人」来朗读,更有沉浸感。

「我们不只是做了一个 TTS(文字转语音)工具,而是希望重塑人与知识的关系。」Nooka 团队在获奖感言中表示,「在 AI 时代,知识获取应该更高效,也更有温度。」

AI 时代的应用开发,就像创作一条笔记

上面这种从个人生活观察到解决实际问题的路径,正是小红书独立开发社区的典型特征。

在这里,开发者们不是从技术出发,而是从真实生活需求出发,用 AI 重新审视和解决那些习以为常的问题。除此之外,应用的开发过程也在发生变化,新的独立开发生态正在形成。

在传统开发模式下,一款应用从构思到上线通常需要数月时间,涉及产品设计、前后端开发、测试等多个环节。而在 AI 的帮助下,这一周期被大幅缩短。「以前三个月才能上线的产品,现在两三周就可以上线。」 一位开发者表示。

门槛的降低也让更多开发者加入,这次小红书独立开发者大赛就不乏 00 后甚至 05 后的年轻开发者,他们中的许多人并非科班出身,而是凭借兴趣和创意,借助 AI 工具实现了自己的想法。

小红书数据显示,超过 90% 的开发者一年不只开发一款应用,在参赛团队中有 55% 是「一人公司」。这些独立开发者的背景也极为多元:有产品设计师、有内容创作者、有在校学生,甚至有全职主妇。

「我上午可能在写代码,下午去学习拍摄技巧,晚上研究如何做一道新菜。」一位参赛者这样描述自己的日常,「生活中的每一个触动,都可能成为下一个应用的灵感。」

「应用开发正成为 AI 时代的内容创作新形态。」小红书科技垂类负责人散兵表示,「AI 带来的技术平权大幅降低了开发的成本与门槛,让应用开发变得和创作图文、视频笔记一样简单。」

小红书怎么成了玩 AI 最活跃的社区?

在小红书的独立开发社区中,一种名为「听劝式开发」的新模式正在流行。开发者不再闭门造车,而是主动邀请用户参与产品设计和迭代过程,形成一种集体创造的氛围。

最近我们在小红书分享了 CapWords 的 AI 拍照翻译功能,引起了不少用户,大量用户还化身野生产品经理给产品反馈意见。

在小红书的独立开发者大会上,看到不少开发者确实已经把小红书作为种子用户募集+冷启动+迭代更新的主要平台,快速验证一个产品的可行性

这种开发者与用户之间的直接对话,大大缩短了产品从创意到市场的路径。参赛应用「调酒笔记」的开发者在零粉丝状态下发布了第一条构想笔记,意外收获超过 3000 个赞和数百条功能建议。他将这些用户称为「云股东」,与他们一起共创产品,甚至会在产品赢利后给予「分红」。

对于像赵纯想这样的资深独立开发者来说,用户反馈甚至成为了产品迭代的核心数据来源。他分享道:「胃之书 1.0 版本允许用户对 AI 生成结果进行修改,这些修改形成了一对对宝贵的训练数据。现在我们已积累了 170 万条记录,如果达到千万甚至亿级,就可以训练出更精确的模型。」

与传统技术社区不同,小红书的用户群体更加多元,既有同行也有普通用户,这为独立开发者提供了更丰富的反馈来源。

当 GPT 刚刚走红时,很多媒体和社交平台都在讨论 AI 资讯和散播焦虑,而小红书上的用户更关注的是,AI 能帮我做什么?它能解决我生活中的哪些问题?

这种实用主义的社区氛围,使得小红书成为了独立开发者验证想法的理想土壤。

参赛项目「Focus Flight」创始人 Una 分享,因为小红书的平权流量机制能快速验证产品是否受欢迎,他们将其作为唯一经营的国内社区阵地。上线后,首条视频笔记获得 2.2 万赞和上千条评论,原本定下的一个月达到 1000 美元收入的目标只用了三天就完成了。

「关于成功,我可能有点祛魅的感觉,」知名开发者玉伯在潘乱的播客中分享时说,「我追求的是能够保持自己的简单,能够自由地生活,能够对他人有爱。无论在大厂、创业、做独立开发,还是送外卖,对我来说可能都是一样的。」

这种将技术与生活紧密连接,以自由和表达为核心的理念,正是小红书独立开发社区的精髓。在 AI 时代,技术不再高高在上,而是融入日常;创造不再遥不可及,而是唾手可得;应用不应该只崇尚工具理性,更需要充满人文关怀。

当二维码不再只是丑陋的黑白方块,当梦境也可以成为社交货币,当日记可以全方位捕捉一天的点滴,我们看到的是技术与生活的重新连接,是创造者与使用者边界的模糊,是 AI 时代个体表达的无限可能。

正如年仅 17 岁的参赛者 rpone 在开场发言中所说:「我希望更多的 00 后,甚至 10 后,把自己的作品带到这个平台上来。小红书正成为 AI 应用的 UGC 平台,这里的每一个下午都属于我们这些独立开发者。」

附录:小红书独立开发大赛获奖应用

以下是本次大赛的获奖应用,欢迎大家在留言区分享最感兴趣的应用,我们将从中选取进行体验,并对开发者进行访谈。

🏆 全场大奖
Action&Link 体感控制器 [@赛博灵客] – 用身体控制数字世界的智能硬件

🏆 宝藏 APP 赛道
金奖:雨天 [@森树 Tree] – 一款治愈系独立游戏

银奖:Podwise [@硬地骇客] – AI 辅助听播客,「看比听快」

铜奖:PeakWatch [@Alex] – 专业运动记录应用

🏆 最佳 AI 赛道
金奖:QRBTF AI 二维码 [@倪豪 Troy Ni] – 让二维码变成艺术品

银奖:Nooka [@Nooka – Bookast App] – 将文字转化为自然播客

铜奖:胃之书 2.0 [@赵纯想] – AI 美食记录与推荐

🏆 五大特别单元
最佳 00 后开发者:Dreamoo 梦境社交 [@Sidrel] – 记录并分享你的梦境

最佳创意奖:专注飞机 FocusFlight [@专注飞机 FocusFlight] – 模拟航班环境提升专注力

出海先锋奖:Crowdcore [@北美创业的阿莱克斯] – 自动搜索海外营销达人信息

浪漫主义奖:魂旅 [@Highway 海玮] – AI 小人代你旅行并即时播报

社区人气奖:小猫补光灯 [@花叔(只工作不上班版)] – 在暗光环境下拍出好看的照片

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


豆包深度思考模型正式发布!和 o3 一样能「看图思考」,还有一个 Agent 大招

这两个月,AI 模型和产品的发布节奏用「日新月异」都不足以形容了。

GPT-4o 生图的爆火似乎还是昨天,OpenAI 放出了自家最强推理模型 o3 和 o4 mini,但可能这还不是这个月最重磅的 AI 发布,DeepSeek R2、Anthropic 的 Claude 4 以及马斯克剧透的「Grok-3.5」 ,极有可能将在本月陆续发布。

而且就在今天,字节还发布了一整套 AI 全家桶,深度思考模型、视觉推理、文生图、AI Agent……几乎涵盖了最近 AI 圈关注度最高的产品。

先看看这次字节发布的产品和亮点有哪些:

1. 豆包 1.5 · 深度思考模型

  • 推理能力跻身全球第一梯队
  • 更低延迟支撑高要求应用
  • 多模态理解与应用场景:支持「边想边搜」和「视觉推理」

2. 文生图 3.0

  • 3 秒出图
  • 原生 2K 高清
  • 文本排版与小字生成优化
  • 美感效果和生图结构提升

3. 豆包 1.5 视觉理解模型新版

  • 视觉定位更精准
  • 对视频的理解更智能

4. AI Agent

  • 垂类应用 Agent:豆包推出了国内首个 AI IDE——Trae
  • OS Agent:能够操作浏览器、电脑、手机或其他 Agent 完成复杂任务

字节这一系列产品升级,不仅在推理能力和多模态理解上实现突破,也通过 Agent 加速 AI 在更多场景的应用落地。

就像火山引擎总裁谭待所说的,「如果说 2024 年是中国AI应用的元年,那 2025 年极有可能是 AI Agent 应用的元年。」

豆包 1.5·深度思考模型:「边想边搜」+「视觉推理」,像人一样思考和观察

豆包 1.5·深度思考模型作为本次升级的核心,有三个关键升级:更强的推理效果、极低的响应延迟和全面的多模态能力。

在专业领域推理能力测试中,豆包深度思考模型整体达到或接近全球第一梯队水平。

  • 数学推理方面,在 AIME 2024 测试中的得分已追平 OpenAI o3-mini-high。
  • 编程竞赛方面,在 Codeforces pass@8 测试中接近 OpenAI o1。
  • 科学推理能力在 GPQA 测试中也接近 o3-mini。

豆包 1.5 深度思考模型采用总参数达 200B 的 MoE 架构,但激活参数仅为 20B。

这种设计可以在保证强大性能的同时,显著降低了训练和推理成本,实现了 20 毫秒的极低延迟,这意味着能更好应用在对延迟敏感的实时交互场景。

豆包深度思考模型技术报告 🔗
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

在实际体验中,豆包深度思考模型的「边想边搜」和「视觉推理」这两个功能,带来了一些惊喜,也是目前相较同类产品比较有特色的。

「边想边搜」功能模拟了人类解决问题时边思考边查阅资料的过程,,它把搜索和推理捆绑在一起,基于每一步的思考结果进行多次搜索,能让回答更有逻辑、更贴近需求。

APPSO 不久前对豆包深度思考的「边想边搜」也进行了详细体验。

以购物推荐场景为例,用户需要为一家三口选择露营装备,涉及预算、安全性、便携性、适应天气等多维度因素。

豆包深度思考模型不是简单给出答案,而是像顾问一样进行多轮搜索和思考:

  • 1. 第一轮搜索价格与性能数据,确定基本选择范围
  • 2. 第二轮针对儿童需求搜索,筛选安全适合的装备
  • 3. 第三轮考虑天气因素,查询详细评测

整个过程透明化,用户可以看到模型如何一步步构建解决方案。这种「边想边搜」能力不仅适用于购物决策,还能应用于金融分析、旅游规划等复杂决策场景。

至于豆包 1.5 深度思考模型的视觉推理能力,刚好和 OpenAI o3 不谋而合,让 AI 能像人类一样基于图像进行深层思考。

比如在地理位置推测任务中,模型不仅识别出图片中的湖泊,还注意到湖泊边缘的盐结晶和周边旅游设施等微小细节,通过逻辑推理精确定位景点位置。

而在国外点餐场景更具代表性,模型需要同时处理多种复杂因素:计算不同货币的价格换算、考虑老人和儿童的饮食喜好、避开可能引起过敏的食材等。这种能力大大超越了传统的单一功能工具。

视觉推理能力在企业办公场景其实也能发挥重要作用,豆包可以解读复杂的项目管理流程图表,快速定位关键信息,严格按照流程图逻辑回答问题。

可以看到,无论是解析财报图表还是分析产品说明图,都能展现专业水准的理解能力。

豆包文生图 3.0:从生成到创造的飞跃

Gemini 2.0 和 GPT-4o 的「一句话生图」掀起了新一轮生图的热潮,这次豆包文生图模型 Seedream3.0 则在三个核心方面实现突破:文字排版、图像真实感和高清输出能力。

在文生图领域权威评测 Artificial Analysis 竞技场中,豆包文生图 3.0 已经不输 GPT-4o、Imagen 3、Midjourney v6.1、FLUX 1.1 Pro 等顶级模型,跻身全球第一梯队。

Seedream3.0 最显著的升级是实现了 2K 分辨率图像的直接生成。字节技术团队通过多分辨率混合训练策略,让模型能够适应从手机屏幕到巨幅海报的各种比例需求,无需后期放大处理即可输出清晰高质的图像。

这种原生高分辨率能力,意味着对专业设计和商业应用提供了极大便利。

同时 1K 分辨率出图缩小到 3 秒,这一高效推理能力得益于多项技术优化,让创作者能够实现「所想即所得」的实时交互体验。对于海报设计、视觉创意这类需要和甲方高效沟通的场景。这种速度就很实用。

中文小字和长文本排版一直是 AI 绘画痛点,豆包 3.0 不仅解决了这一难题,还将排版美感提升到专业水准。以「现形」海报系列为例,生成内容细节丰富、排版精美,达到了商用水平。

人像生成方面,通过缺陷感知数据优化和跨模态编码技术,新模型在皮肤质感、表情自然度、服装纹理等方面极为逼真,几乎消除了 AI 生成的「诡异感」。

目前 Seedream3.0 已在豆包、即梦等平台全量开放,大家不妨亲自试玩。

视觉理解模型:从识别到理解

豆包 1.5·视觉理解模型主要在视觉定位和视频理解两个方向实现了突破。

视觉定位方面,新模型支持多目标定位(同时识别多个物体)、小目标定位(识别极小物体)和通用目标定位(不受预训练类别限制)等高级功能,还能进行点定位计数和 3D 场景定位。这些能力为机器人视觉、自动驾驶等领域提供了坚实基础。

同时,模型实现了记忆能力增强、总结理解能力提升、速度感知能力和长视频理解能力的全面提升。这使得用户可以对家庭监控视频进行语义搜索,如询问「今天小猫在家都干什么了?」系统能定位并展示相关片段。

AI Agent 的未来:应用 + OS

这次豆包 1.5 的核心突破不仅体现在模型能力上,更重要的是为 AI Agent 提供了强大基础,开始思考「AI 该解决什么问题」,而非单纯追求技术指标。

谭待认为, AI Agent 的构成,可以分为垂类应用 Agent 和 OS Agent。

在应用 Agent 领域,豆包团队推出了针对不同垂类场景的专业 AI 助手,包括客服 Agent、数据 Agent 和代码 Agent 等。这些 Agent 专注于特定领域任务,具备深度专业能力。

其中最引人注目的是国内首个 AI IDE——Trae。与传统 AI 插件不同,Trae 将 AI 与集成开发环境深度融合,具备三大核心特质:

  1. 交付化:面向软件交付而非仅生成代码,从本质需求出发
  2. 智能化:能理解信息和意图,自主规划反思,调用工具执行任务
  3. 协作化:能与用户在多个维度协作,保障最终结果质量

这种设计理念使 Trae 能帮助开发者和企业更快速、更准确地完成软件开发工作,实现从代码片段生成到完整软件交付的跨越。

而 OS Agent 代表了 AI 能力的更高层次——拥有跨场景的通用性和灵活性,能够操作浏览器、电脑、手机或其他 Agent 完成复杂任务。

火山引擎的 OS Agent 解决方案核心由豆包大模型和 veFaaS 产品组成。通过两个案例可以直观了解其强大能力:

在更复杂场景中,OS Agent 甚至能操作专业软件。如使用剪映专业版进行视频剪辑和配乐,或通过豆包 APP 生成内容并发布至今日头条;在手机端,则能操作指定 APP 完成高铁订票等任务。

这些能力的核心是全新发布的 GUI Agent 大模型——UI-Tars,它将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在单一模型中,突破了传统自动化工具依赖预设规则的局限。UI-Tars 在 OS World 等测试集中已取得国内各类模型中的最优成绩。

最近 OpenAI 姚顺雨在一篇文章中指出,我们已经进入了AI 发展的「下半场」。与上半场不同,下半场不再仅关注模型改进和技术指标,而是转向如何定义真正有价值的问题以及如何衡量真正的进步。

很难说在 AI 迅猛而又非线性的发展,用过去互联网的上下半场来划分是否适用,但一些转变确实在发生:不再把模型作为目的,而是作为解决实际问题的工具。

这可能就是字节内部所谓「务实的浪漫」,字节 CEO 梁汝波在年初的字节 All Hands 全员会上强调了这个概念。

这是最初是张一鸣在 2019 年提出的,他认为务实的浪漫就是 「把想象变成现实,face reality and change it。」

面对 DeepSeek 和 Agent 产品带来的 AI 行业剧变,这也会是字节的应对方式。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌