Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

近 22 万的苹果 Vision Pro 摄影机来了,可拍摄 8K 3D 视频

By: 范津瑞
18 December 2024 at 19:15

无论有没有真正购入一台 Apple Vision Pro,你可能都对其提供的沉浸视频所带来的震撼观感有所耳闻。

苹果官方对 Apple 沉浸视频的评价是「叹为观止」的。这是一种全新的叙事形式,能够通过 8K 3D 视频与 180 度视域和空间音频的配合,给观众以身临其境之感。

今年 7 月开始,Vision Pro 已经陆续上线了一批电影、纪录片、音乐会甚至体育赛事的「沉浸」版本。从官方演示视频来看,其所呈现的「视界」的确令人心驰神往。

▲图源:Apple

惊叹之余,你是否也有过对这类格式视频幕后工作的好奇:Apple 沉浸视频到底是如何拍摄和制作的?

影像技术公司 Blackmagic Design 推出的 URSA Cine Immersive 就是一款专为拍摄 Apple 沉浸式视频而设计的商业摄影机。这款摄影机于今年 6 月首次亮相,近日已经开始接受预订,将在 2025 年初进行首批交付。

不过,URSA Cine Immersive 的价格不菲,售价高达 30000 美元(约合 22 万元),几乎相当于 8.5 台苹果 Vision Pro 的价格。如此昂贵,可见其定位并不是「消费级」,而是为专业人士提供的创作工具。

▲图源:Blackmagic Design

URSA Cine Immersive 是一款「双镜头」摄影机。为了拍摄「Apple Immersive Video」,其具有包含两个 180 度立体镜头的固定定制镜头系统,专为摄影机中的大画幅图像传感器而设计。

值得一提的是,URSA Cine Immersive 使用了「极其精确」的镜头姿态数据,这些数据是每台摄像机独有的,在制造时生成,经过校准后存储在设备上,其在后期编辑过程中能使 3D 视频更加精确和稳定。

这款设备拥有单眼 8160*7200 的超高分辨率,是 Vision Pro 单眼分辨率的两倍多,官方称之为「像素级同步」。它能够拍摄每秒 90 帧的 3D 沉浸视频,并且每帧都有 16 档动态范围,以确保细节和色彩准确性。

▲图源:Blackmagic Design

URSA Cine Immersive 使用全新的「Blackmagic RAW」格式拍摄和存储视频,这种格式可以不仅记录白平衡、数字场记板信息和自定义 LUT,还可以存储上面提到的摄像机元数据以及镜头数据等。

不仅如此,URSA Cine Immersive 还拥有诸多其他亮点:

  • 使用第五代色彩科学与新的电影曲线;
  • 配备双 5 英寸 HDR 触摸屏和外部彩色状态 LCD 屏幕;
  • 内附 Blackmagic Media Module 8TB 录制功能,可实时同步到 Blackmagic Cloud 和 DaVinci Resolve 媒体盒;
  • 支持高速 Wi-Fi、10G 以太网或移动数据用于网络连接;
  • 拥有包括 12G-SDI 输出、USB-C 和 XLR 音频端口等多种连接选项。

此外,这款设备还拥有轻巧坚固的机身,兼顾了摄影师和工作人员的跟拍和转场需求。

▲图源:PetaPixel

除了推出「全球首款用于 Apple 沉浸视频的摄影机」之外,Blackmagic Design 还带来了其旗下专业视频编辑软件达芬奇(DaVinci Resolve Studio)的重磅更新,实现了 Apple 沉浸视频的「无缝」工作流程:

  • 剪辑师可以直接监视和处理使用 URSA Cine Immersive 拍摄的 Apple 沉浸视频素材;
  • 支持自动识别 Apple 沉浸视频(双文件立体沉浸式内容)的左右眼;
  • 新的沉浸式视频查看器允许剪辑师进行平移、倾斜和滚动剪辑等操作,以便在显示器或者 Vision Pro 上查看;
  • 可以使用 FCP XML 元数据绕过 Vision Pro 渲染的过渡,从而简化编辑过程,并生成干净的母带文件;
  • 导出预设将启用与 Vision Pro 直接兼容的快速输出,便于在 Vision Pro 上直接查看。

▲图源:Blackmagic Design

更新后,官方称达芬奇为「世界首款用于 Apple 沉浸视频的编辑软件」,Blackmagic Design 的首席执行官格兰特·佩蒂(Grant Petty)则表示达芬奇的更新将实现 Apple 沉浸式视频的真正「端到端」工作流程。

佩蒂还表示「期待于电影制片人密切合作」。Blackmagic Design 的软硬件「组合拳」,加上苹果的审美理念,我们也期待着在未来看到更加打动人心的 Apple 沉浸作品。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Luma AI – 生成式视频 AI 巨头重磅更新,创新的视频创作交互方式

By: Anonymous
25 November 2024 at 22:50

DUN.IM BLOG

DUN.IM BLOG

AI 视频,还能往哪个方向卷?Luma AI 的答案有些与众不同。对手还在练一招一式,它却像风清扬传授独孤九剑,讲究灵活变通,如行云流水,任意所之。

Luma AI 或许不如可灵、Runway 知名,但论实力也在第一梯队,它的视频模型叫作 Dream Machine,今年 6 月发布,最近进行了重磅升级,是推出产品以来声势最大的一次。

其中包括两项更新,一是发布自己的图像模型 Luma Photon,将文字、图像、视频一锅端;二是打造了生成 AI 视频的全新工作流,我们可以像和 ChatGPT 聊天一样,让 AI 生成视频,不用对提示词字斟句酌。

对于生成视频这件事,Dream Machine 首创了一种很新的方式。

Unlock your creativity with Luma AI Video Generator. Turn text into stunning videos with our cutting-edge text-to-video AI.

打开 Dream Machine,我们先看到的是「Board」,可以将它理解为无限的创意画布,在这里,我们使用自然语言,自由地生成图像或者视频。

开始一块 Board,我的提示词写得非常简单:「创建一个日式悬疑少年漫画的角色。」

AI 扩写了我的提示词,一次生成了 4 张图片,但是不行,年代不对。

没关系,再在对话框输入一句,「放在现代背景」。

AI 表示懂了,又生成了 4 张图片,右上这张孤身走暗巷,已经接近我想要的感觉了,但仍然不够,我想要他抬起头,露出五官。

不难,继续微调,忘掉复杂的提示词,和 AI 打直球就可以。

右下这张不错,虽然形象幼态了点。接下来,我想让 AI 生成一个视频,主角在同一条巷子里从白天走到黑夜。

Dream Machine 生成视频的首尾帧功能,就是为这种需求准备的——我们挑好头尾的两张图片,让 AI 补足中间的过程。

那么,我们只需基于满意的图片,让 AI 生成几张白天场景的,沟通方式还是一样的简单粗暴。最终选定的两张图片,细节略有落差,但同框也不违和。

万事俱备,只等生成视频,AI 过渡得还算自然。

看到这里,你应该明白 Dream Machine 和其他视频工具的区别了。

其他视频工具,通常是给你一个填入提示词的文本框,然后让你设置运镜、时长等参数。设置一次,生成一次。

但 Dream Machine 的界面,看起来非常像和聊天机器人交互,底部是输入框,文生图、图生图、图生视频、文生视频,都可以在这里进行。

专业创作者可以继续写传统的提示词,但我们也拥有了「讲人话」的权利,压力给到 AI,Dream Machine 能够理解上下文,帮我们完善提示词,我们可以从一个非常粗糙的想法开始,和它边聊边改边优化。

又因为 Dream Machine 是无限画布形式的,我们可能在一个环节反复生成,素材都会保留下来,不会互相覆盖。

我们的思维,不会局限在一段提示词、一个视频,而是像水一样流淌,更多的想法,可能就在这个过程里产生了。

Dream Machine 的全新工作流就像大树的主干,其中一些好玩且实用的功能则像枝桠,相得益彰,才能枝繁叶茂。

起到关键作用的,就是 Dream Machine 最新发布的图像模型 Luma Photon。

图片怎么生成得更符合我们的审美?Dream Machine 支持风格参考和角色参考功能。

先说风格参考,我们可以导入自己的图片,AI 会将风格融入到创作中。官方给出了一个例子:按蒙德里安风格,生成小鸟版的《戴珍珠耳环的少女》。

按这个思路实操一下,基于男性侦探的形象,参考梵高《星月夜》的风格,生成女性侦探。

二次元遇上后印象派,化学反应很奇妙。

角色参考功能,则可以通过一张图片,就实现角色的一致性,让这个角色出现在更多的图片和视频里。

Luma AI – 生成式视频 AI 巨头重磅更新,创新的视频创作交互方式

马斯克是行走的素材库,这样的例子太没挑战性了,我决定让甄嬛瞬移到哈利波特的世界,看场景变了之后,她还能不能气场两米八。

结果有些不好评价,看得出来是甄嬛的面容,但娘娘的长相入乡随俗,五官尤其眼睛,变得更像欧美人了。

其实,不另外找图片参考,Dream Machine 也可以让图片、视频不泯然于众人,这时候就要用到「头脑风暴」功能,它会根据你生成的图片,推荐一些艺术家的风格。

就像甄嬛进霍格沃茨这张,我们可以用吉卜力工作室风格二创。

不仅如此,提示词里的一些关键词,被框选了起来,能用下拉的选项替换,Dream Machine 称之为「概念药丸」,我们不用自己手写提示词,一键更换艺术风格,或者画面元素。

把「吉卜力」换成「新海诚」,把「独角兽」换成「龙」,不过点击几下的功夫。

Luma Photon 模型,基于 Luma 的通用 Transformer 架构构建。通过开发自己的图像模型,Luma AI 可以减少对 Midjourney 等外部图像模型的依赖,同时也能解决文生视频不稳定的问题。

当然,视频是老本行,镜头运动这种可控性功能,Dream Machine 也少不了。

紫禁城的甄嬛,和霍格沃茨的甄嬛,能不能实现丝滑的转场呢?用推拉镜头,画面有动感,人物没有严重的变形,可以打个 80 分。

巧的是,前两天 Runway 也官宣了自己的图像生成模型 Frame,和 Luma 更新是同一个晚上,看演示就知道非常注重审美,目前正逐步向 Gen-3 Alpha 开放资格。

▲ Runway Frame

图片的生成质量、美学高度,以及视觉风格的一致性和可控性,越来越被视觉模型重视了。

这对创作者来说是好事,当我们用 AI 进行平面设计、角色设定时,其实就是在生成一个独特的世界,讲一个独特的故事。

Runway 的 CEO Cristóbal Valenzuela 认为,Runway 不是一家 AI 公司,而是一家媒体和娱乐公司,AI 公司的时代已经结束了。

他不是在唱衰 AI,恰恰相反,他认为 AI 是一种基础设施,真正的革命不在于技术本身,而在于它所实现的东西:新的表达形式、讲述故事的新方式、连接人类体验的新方法。这和 Luma 的进化方向不谋而合。

这次更新之后,Luma AI 首席执行官兼联合创始人 Amit Jain,给 Dream Machine 下了一个很有趣的定义——视觉思维合作伙伴。

概念有些抽象,他的意思其实就是,让生成图片、视频这样的视觉创作,像聊天一样简单、直观。

交互的方式,影响着我们思考的方式。画布式的工作流,能将脑洞可视化,记录所有的创作过程和结果,呈现生成视频的完整思路。

无限画布通常在图像模型较为常见,比如 Recraft 和 Ideogram 的 Canvas。Dream Machine 的画布更加规整,相同提示词生成的素材和变体横向排列,不同的则竖向排列。

边聊边生成边优化的过程,会让人觉得,一个独立的小世界仿佛在画布里诞生。

先让 Dream Machine 用超写实电影 CG 风格,创造一个工业废土背景游戏的主角。

然后用环绕镜头,让主角动起来,并塑造环境的空间感。

接着,我们可以再和 AI 聊,让 AI 继续生成废土世界观里室内室外的各种场景,让 AI 建议我们怎么塑造得更有末日气息。

 

某种程度上,这个画布,就是我们个人故事的设定集。

当然,Luma AI 的 bug 也很多,包括但不限于,用一张图片实现角色一致性,效果并不理想;积分如流水,图片和视频还是要反复抽卡;图片模型可以生成准确的英文,但中文不行……

但意思传达到位了——少谈参数,以交互为出发点,构建一个 AI 创作工具。

更好的视频模型,不只是有更快的生成速度、更可控的镜头运动、更独特的美学,它应该也提供更好的讲故事的方式,让文字、图像、视频都作为表达想法的工具。

Dream Machine,造梦机器。

只管去创作吧,如同 Luma AI 的这句话:「不需要写复杂的提示词,问就好了。」未来 AI 留给我们的问题,不再关于技术,而是关于我们用它构建什么。

【CDT月度视频】十一月之声(2024)——“一路都被撞没了,估计一圈都没了”

By: elijah
1 December 2024 at 02:49

谨以此片向《四月之声》致敬。本项目将持续更新,直到《四月之声》及同类影片在中国解禁。

2024年11月,中国数字时代搜集整理了过去一个月(2024.11.6—2024.11.28)期间反映国内热点事件的网络视频,以时间为序进行混剪制作了本月月度视频——《十一月之声(2024)》。

在内容上,该片揭示了当局的言论审查、权利打压,也记录了民间疾苦、民众呐喊与抗争;在形式上,该片模仿了2022年4月22日发布、随即风行全网并遭到审查的抗议上海封城的短片《四月之声》。

我们谨以此片向这部匿名作品致敬。本项目也将持续更新,直到《四月之声》及同类影片在中国解禁。

同时,在中国数字空间更新有该作品的彩色版本。相关链接:https://youtu.be/TfE3wpBaNWo

致谢:感谢 @李老师不是你老师 、@YesterdayBigcat 对中国相关事件素材的收集与分享。


CDT 档案卡
标题:【CDT月度视频】十一月之声(2024)——“一路都被撞没了,估计一圈都没了”
作者:中国数字时代
发表日期:2024.11.30
主题归类:四月之声
CDS收藏:大事记
版权说明:该作品版权归中国数字时代所有,欢迎个人、媒体和研究机构在注明来源的前提下免费使用。详细版权说明
  • 2024.11.6 新疆克拉玛依司法局称微信会截图“违法”信息
  • 2024.11.7 辽宁网民发布视频“不干事就下台”
  • 2024.11.8 “中国人的一生”
  • 2024.11.8 广东深圳沙井京广场大量城管与摊贩发生冲突
  • 2024.11.8 河南郑州大学生夜骑开封
  • 2024.11.9 河南开封夜骑现场警察组成人墙控制学生,被禁止夜骑后,郑州大学生夜跑前往开封
  • 2024.11.9 多家卫生巾品牌被爆出现质量严重不合格问题,早在七月便有博主卧底购买黑心卫生巾原料,揭露真相
  • 2024.11.10 山东大爷称专家说“人均存款11万”是说瞎话
  • 2024.11.11 陕西大爷路边摆摊卖毛泽东语录,城管不敢上前
  • 2024.11.11 许双军涉黑案二审开庭,辩护律师杨晓王兴未被阻止入庭
  • 2024.11.11 广东珠海体育中心撞人事件
  • 2024.11.12 珠海市民自发前往事发地鲜花悼念
  • 2024.11.12 BBC记者在珠海体育中心现场报道时遭到当地市民阻挠
  • 2024.11.12 陕西咸阳工人在桥上拉横幅讨薪遭警察维稳
  • 2024.11.12香港出租车司机与大陆游客聊天称“你们没有选票选择你们喜欢的人”
  • 2024.11.14 河南理工大学禁止学生外出骑行
  • 2024.11.14 辽宁沈阳袜厂老板前往银行取钱发工资遭银行拒绝,称取钱需取得警察同意
  • 2024.11.14 天津失独老人聚集抗议政府未落实失独家庭的养老政策
  • 2024.11.14 网友介绍珠海航展上的手机取证机
  • 2024.11.14 证监会原主席肖钢称:高层领导对A股的心理目标为3000点
  • 2024.11.15 北京一律师发布视频称现在很多事情不敢说
  • 2024.11.15 湖南长沙网民发布环卫工人被拖欠工资视频后,有陌生人在其家门口徘徊拍照
  • 2024.11.15 山东青岛和达幸福城烂尾小区业主抗议维权
  • 2024.11.15 山东网友讲述计划生育时期经历
  • 2024.11.15 习近平第三次访问秘鲁,将秘鲁(bì lǔ) 读成了 (mì lǔ)
  • 2024.11.15 云南富宁一中学生上台演讲,反映学校“有钱修草堂没钱修宿舍”
  • 2024.11.15 云南一男子发布视频质疑中共领导无能
  • 2024.11.16 广州韵达狮岭站点工人聚集讨薪遭警察带走
  • 2024.11.16 江苏无锡工艺职业技术学院无差别持刀伤人事件
  • 2024.11.16 近期广州多处出现投毒毒害猫狗事件
  • 2024.11.17河南开封府景点“包拯办案”表演现场一女子喊冤,后被带离
  • 2024.11.17 网民发布视频质疑人大代表制度
  • 2024.11.18 吉林白城滑冰馆屋顶坍塌
  • 2024.11.19 湖南常德鼎城区永安小学撞人事件
  • 2024.11.19 江苏南京一女子在中国化学第十四建设有限公司门口跪讨工资
  • 2024.11.19 厦门白鹭体育中心,中日足球赛前中国球迷将一名日籍球迷认为是“汉奸”
  • 2024.11.20 非暴力不合作:潮州市大量商铺关门拒绝政府“国考”检查
  • 2024.11.20 杭州电子科技大学信息工程学院宿舍发生恶性伤人事件
  • 2024.11.21 上海七宝国利公司工人抗议被长期拖欠工资遭警察暴力维稳
  • 2024.11.21 香港博主质疑内地招聘文化
  • 2024.11.24 新疆乌鲁木齐大火两周年
  • 2024.11.25 别样的反抗:贵阳市民在网格员旁翻墙登陆instagram
  • 2024.11.25 蛋炒饭节当天,一些网友留言“纪念”
  • 2024.11.25 抖音网红羊毛月嘲讽大学生找不着工作引起网民热议
  • 2024.11.25 中央财经大学硕士回应羊毛月言论
  • 2024.11.25 山东济宁市民实名举报遭到警察敲诈勒索
  • 2024.11.25 汕头消防半夜突击检查,商户纷纷关灯关铺,网友戏称“鬼子进村”
  • 2024.11.26 白纸运动两周年
  • 2024.11.26 北京丰台汽车冲撞事件
  • 2024.11.26 湖南长沙中国邮政员工聚集讨薪
  • 2024.11.26 山东潍坊市民质疑法院车违停未被贴罚单,随后该网友接到电话要求删掉视频
  • 2024.11.27 河北邢台市民看病取钱遭银行不停核实
  • 2024.11.28 云南多地凌晨广播习近平思想
  • 2024.11.28 香港青年举白纸纪念

完全免费 AI 绘图工具 Dreamina AI,支持中文描述生成图片

By: Anonymous
20 November 2024 at 17:03

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

当前 AI 绘图工具已经全面席卷全球,你还在找一款能够用文字或图片生成的免费 AI 图像生成工具吗?分享一款由抖音旗下剪映推出的 AI 图片生成平台「Dreamina AI」,只要输入简单中文描述就能立即转成图片,甚至还能搭配多层画布进行修改、重新创作和视频生成,而且还是完全免费和无限次数使用。

完全免费 AI 绘图工具 Dreamina AI,支持中文描述生成图片

Dreamina AI 是一款由剪映推出的在线 AI 创作平台,能够帮助用户将文字描述转化为视觉艺术作品。支持多种创作模式,包括文字绘图、视频生成和图片扩展,适合专业艺术家和普通用户使用。

另外 Dreamina AI 绘图创作平台还支持智能画布功能,可以通过画布混合多种 AI 生成图片,还可以进行局部重绘或扩展画布等功能操作。

想要使用 Dreamina AI 要先用电脑网页版登入和注册会员,可以通过 Google、TikTok、Facebook 或 CapCut 移动版来注册登入。〔手机版目前会跑版建议改用平板或电脑板,至于 App Store 有 Dreamina AI App 也并非是官方推出〕

👉 前往 Dreamina AI 在线生成图片

要是首次注册账号,会跳出 Dreamina 平台要整合 CapCut 账号信息权限,直接点「确定」继续。

进入 Dreamina AI 主页面后,就可以点击「图片生成」开始使用 AI 生成功能。

接着可以再生成图像输入框内填入生成 AI 图片的文字描述〔咒语〕,不管是输入中文或英文都能够使用,实际测试 Dreamina AI 中文生成图片准确度也不差,不一定要用英文才比较高,当然也可以上传照片,依照现有图片来生成。

图片模型部分,会提供三种 Dreamina 模型效果分别如下:

底下还能够设置图片输出长宽比例,以及大小尺寸分辨率都能够手动设置,都设置完成后就按下「生成」就可以开始生成免费 AI 图片了!

Dreamina AI 在输出算是非常快,只要几秒就能生成出四种不同风格的 AI 图片,像是底下是直接生成 Lego 乐高 AI 图片海报风格图片。

说实在 Dreamina AI 生成图片效果,与当前大多数 AI 绘图工具也都不会差太多。

底下也尝试文字描述咒语来生成漫威的雷神索尔画面,会生成出不同风格和脸型效果。

用下来发现 Dreamina AI 对中文理解能力算是很强大,AI 工具基本都能理解我们在说什么,像是可以让可爱老鼠或兔子也能骑机车外卖。

连同用 Dreamina v2.0 Pro 模型来生成真人效果也非常逼真,让你看不出来这是用 AI 生成。

不过有些时候不能谈到敏感话题或文字,甚至有些上传图片有红色就会被系统认为血腥,违反了《社交自律公约》内容,遇到这情况只能换其他张照片或改用其他文字描述。

点入生成 AI 图片后,可以直接将原始图片下载到设备上,侧边还提供多种选项能够进一步调整,像是重新生成、重新调整提示、增强分辨率、润饰、局部重绘、展开或移除,以及能够在画布上编辑或生成视频等。

要是想在 AI 图片上额外修改局部画面,可以直接点入「局部重绘」功能,直接圈选划线都可以,像是我随便在画面划一下,Dreamina AI 马上就在行李箱上加入皮带配件,有如设计师能帮你随意修改,超级猛!

至于 Dreamina AI 提供的「画布」功能,简单来说就是在线 Photoshop 编辑器,能够在页面内用 AI 生成图片后,能够直接抠图,另外上传图片进行合成,侧边也有图层能够进行调整拖移,基本算是很容易上手。

以上就是 Dreamina AI 生成图片工具的技巧介绍,整体来看 Dreamina AI 算是一款功能强大、易于使用的 AI 图像生成工具,能让每个人都能成为艺术家,如果你想尝试看看 AI 绘图功能,或是想要创造出不同图片效果,倒是可以通过 Dreamina AI 来快速生成,且还能支持中文提示词,对大多数人来说也算是非常好上手。

AI 视频巨头重磅更新!提示词都不用费劲写了,从未有过这样的视频创作方式

By: 张成晨
28 November 2024 at 14:07

AI 视频,还能往哪个方向卷?Luma AI 的答案有些与众不同。对手还在练一招一式,它却像风清扬传授独孤九剑,讲究灵活变通,如行云流水,任意所之。

Luma AI 或许不如可灵、Runway 知名,但论实力也在第一梯队,它的视频模型叫作 Dream Machine,今年 6 月发布,最近进行了重磅升级,是推出产品以来声势最大的一次。

其中包括两项更新,一是发布自己的图像模型 Luma Photon,将文字、图像、视频一锅端;二是打造了生成 AI 视频的全新工作流,我们可以像和 ChatGPT 聊天一样,让 AI 生成视频,不用对提示词字斟句酌。

对于生成视频这件事,Dream Machine 首创了一种很新的方式。

指路👉https://dream-machine.lumalabs.ai/

聊着聊着,就把视频给生成了

打开 Dream Machine,我们先看到的是「Board」,可以将它理解为无限的创意画布,在这里,我们使用自然语言,自由地生成图像或者视频。

开始一块 Board,我的提示词写得非常简单:「创建一个日式悬疑少年漫画的角色。」

AI 扩写了我的提示词,一次生成了 4 张图片,但是不行,年代不对。

没关系,再在对话框输入一句,「放在现代背景」。

AI 表示懂了,又生成了 4 张图片,右上这张孤身走暗巷,已经接近我想要的感觉了,但仍然不够,我想要他抬起头,露出五官。

不难,继续微调,忘掉复杂的提示词,和 AI 打直球就可以。

右下这张不错,虽然形象幼态了点。接下来,我想让 AI 生成一个视频,主角在同一条巷子里从白天走到黑夜。

Dream Machine 生成视频的首尾帧功能,就是为这种需求准备的——我们挑好头尾的两张图片,让 AI 补足中间的过程。

那么,我们只需基于满意的图片,让 AI 生成几张白天场景的,沟通方式还是一样的简单粗暴。最终选定的两张图片,细节略有落差,但同框也不违和。

万事俱备,只等生成视频,AI 过渡得还算自然。

看到这里,你应该明白 Dream Machine 和其他视频工具的区别了。

其他视频工具,通常是给你一个填入提示词的文本框,然后让你设置运镜、时长等参数。设置一次,生成一次。

但 Dream Machine 的界面,看起来非常像和聊天机器人交互,底部是输入框,文生图、图生图、图生视频、文生视频,都可以在这里进行。

专业创作者可以继续写传统的提示词,但我们也拥有了「讲人话」的权利,压力给到 AI,Dream Machine 能够理解上下文,帮我们完善提示词,我们可以从一个非常粗糙的想法开始,和它边聊边改边优化。

又因为 Dream Machine 是无限画布形式的,我们可能在一个环节反复生成,素材都会保留下来,不会互相覆盖。

我们的思维,不会局限在一段提示词、一个视频,而是像水一样流淌,更多的想法,可能就在这个过程里产生了。

更可控的图片,更可控的视频

Dream Machine 的全新工作流就像大树的主干,其中一些好玩且实用的功能则像枝桠,相得益彰,才能枝繁叶茂。

起到关键作用的,就是 Dream Machine 最新发布的图像模型 Luma Photon。

图片怎么生成得更符合我们的审美?Dream Machine 支持风格参考和角色参考功能。

先说风格参考,我们可以导入自己的图片,AI 会将风格融入到创作中。官方给出了一个例子:按蒙德里安风格,生成小鸟版的《戴珍珠耳环的少女》。

按这个思路实操一下,基于男性侦探的形象,参考梵高《星月夜》的风格,生成女性侦探。

二次元遇上后印象派,化学反应很奇妙。

角色参考功能,则可以通过一张图片,就实现角色的一致性,让这个角色出现在更多的图片和视频里。

马斯克是行走的素材库,这样的例子太没挑战性了,我决定让甄嬛瞬移到哈利波特的世界,看场景变了之后,她还能不能气场两米八。

结果有些不好评价,看得出来是甄嬛的面容,但娘娘的长相入乡随俗,五官尤其眼睛,变得更像欧美人了。

其实,不另外找图片参考,Dream Machine 也可以让图片、视频不泯然于众人,这时候就要用到「头脑风暴」功能,它会根据你生成的图片,推荐一些艺术家的风格。

就像甄嬛进霍格沃茨这张,我们可以用吉卜力工作室风格二创。

不仅如此,提示词里的一些关键词,被框选了起来,能用下拉的选项替换,Dream Machine 称之为「概念药丸」,我们不用自己手写提示词,一键更换艺术风格,或者画面元素。

把「吉卜力」换成「新海诚」,把「独角兽」换成「龙」,不过点击几下的功夫。

Luma Photon 模型,基于 Luma 的通用 Transformer 架构构建。通过开发自己的图像模型,Luma AI 可以减少对 Midjourney 等外部图像模型的依赖,同时也能解决文生视频不稳定的问题。

当然,视频是老本行,镜头运动这种可控性功能,Dream Machine 也少不了。

紫禁城的甄嬛,和霍格沃茨的甄嬛,能不能实现丝滑的转场呢?用推拉镜头,画面有动感,人物没有严重的变形,可以打个 80 分。

视觉的思维,讲故事的方式

巧的是,前两天 Runway 也官宣了自己的图像生成模型 Frame,和 Luma 更新是同一个晚上,看演示就知道非常注重审美,目前正逐步向 Gen-3 Alpha 开放资格。

▲ Runway Frame

图片的生成质量、美学高度,以及视觉风格的一致性和可控性,越来越被视觉模型重视了。

这对创作者来说是好事,当我们用 AI 进行平面设计、角色设定时,其实就是在生成一个独特的世界,讲一个独特的故事。

Runway 的 CEO Cristóbal Valenzuela 认为,Runway 不是一家 AI 公司,而是一家媒体和娱乐公司,AI 公司的时代已经结束了。

他不是在唱衰 AI,恰恰相反,他认为 AI 是一种基础设施,真正的革命不在于技术本身,而在于它所实现的东西:新的表达形式、讲述故事的新方式、连接人类体验的新方法。这和 Luma 的进化方向不谋而合。

这次更新之后,Luma AI 首席执行官兼联合创始人 Amit Jain,给 Dream Machine 下了一个很有趣的定义——视觉思维合作伙伴。

概念有些抽象,他的意思其实就是,让生成图片、视频这样的视觉创作,像聊天一样简单、直观。

交互的方式,影响着我们思考的方式。画布式的工作流,能将脑洞可视化,记录所有的创作过程和结果,呈现生成视频的完整思路。

无限画布通常在图像模型较为常见,比如 Recraft 和 Ideogram 的 Canvas。Dream Machine 的画布更加规整,相同提示词生成的素材和变体横向排列,不同的则竖向排列。

边聊边生成边优化的过程,会让人觉得,一个独立的小世界仿佛在画布里诞生。

先让 Dream Machine 用超写实电影 CG 风格,创造一个工业废土背景游戏的主角。

然后用环绕镜头,让主角动起来,并塑造环境的空间感。

接着,我们可以再和 AI 聊,让 AI 继续生成废土世界观里室内室外的各种场景,让 AI 建议我们怎么塑造得更有末日气息。

某种程度上,这个画布,就是我们个人故事的设定集。

当然,Luma AI 的 bug 也很多,包括但不限于,用一张图片实现角色一致性,效果并不理想;积分如流水,图片和视频还是要反复抽卡;图片模型可以生成准确的英文,但中文不行……

但意思传达到位了——少谈参数,以交互为出发点,构建一个 AI 创作工具。

更好的视频模型,不只是有更快的生成速度、更可控的镜头运动、更独特的美学,它应该也提供更好的讲故事的方式,让文字、图像、视频都作为表达想法的工具。

Dream Machine,造梦机器。

只管去创作吧,如同 Luma AI 的这句话:「不需要写复杂的提示词,问就好了。」未来 AI 留给我们的问题,不再关于技术,而是关于我们用它构建什么。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


TimeLapseCam – 让抽屉里的闲置安卓手机变身为延时摄影神器

By: Anonymous
15 October 2024 at 12:59

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

TimeLapseCam 是一款 4MB 大小,只需要 6.0 就可以运行的 Android 延时摄影,可以在屏幕关闭的情况下继续录制延时,还能自定义调整分辨率、定时录像、禁用快门声,没有录制限制,堪称闲置安卓手机的最佳伙伴。

Contribute to woheller69/TimeLapseCamera development by creating an account on .

谁抽屉里还没有一两部淘汰下来的安卓手机呢?(没有请举手)

如果,我是说如何还能开机,那么拿出来试试这款应用,说不定解锁了新姿势。

TimeLapseCam 是一款简单易用,但暂无中文界面的 Android 延时摄影应用,不过其已经配置的很好了,打开就能用。
设置界面
默认一秒拍摄一张照片、不限时,直到你点击停止。可以修改拍照间隔,最长 10 分钟一张,也支持自动结束时间,最长 46 个小时。

还能定时开始拍照,以及关闭屏幕后继续拍照。

在 TimeLapseCam 中打开 REST API 之后,就能用浏览器打开 http://192.168.2.182:8085/rest,看到如何使用 API:

REST API v1:
GET /1/ctrl/status: Get current state: [stopped/running]
GET /1/ctrl/start: Start recording
GET /1/ctrl/stop: Stop recording
GET /1/ctrl/param: Get parameter
GET /1/device/battery: Get battery percentage
GET /1/current/img: Current / last recorded image
GET /1/current/imgcount: Image count
GET /1/current/lastimg: Last image: Name, Timestamp and URL
GET /1/img/list: List image folders
GET /1/img/listhtml: user clickable HTML page
GET /1/img//list: List folder / images
GET /1/img///list: List folder / images
GET /1/img//…/: Download image

比如:http://192.168.2.182:8085/1/img/TimeLapseCam/2024-10-15/TimeLapseCam0.mp4 可以直接播放最近一段视频

copyparty – 免费开源强大的文件服务器,支持 WebDAV、FTP、媒体播放等超多功能

By: Anonymous
19 October 2024 at 12:16

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

copyparty 是一款功能非常丰富的多功能文件服务器,主要用来你电脑、服务器、设备里的文件,并通过、WebDAV、FTP 等方式访问,还支持播放音乐、上传文件、权限设置等功能。

几乎可以在任何有 Python 环境的地方运行,还支持 Docker 托管,以及 系统下的单可执行程序,甚至可以在 中运行。虽然运行很容易,但我不敢说它简单易用。

Portable file server with accelerated resumable uploads, dedup, WebDAV, FTP, TFTP, zeroconf, media indexer, thumbnails++ all in one file, no deps – 9001/copyparty

copyparty 给自己的定位是「便携式文件服务器,具有断点续传、重复数据删除、WebDAV、FTP、TFTP、零配置、媒体索引器、缩略图++,全部集成在一个文件中,无依赖。」

所有的功能集中在一个 .py 文件中,718 KB,直接运行就可以了。Windows 系统有编译好的 .exe 单可执行文件,双击也即开机用。其他平台直接 python copyparty-sfx.py 就行了。

就是文档太啰嗦了…看不下去。

直接运行就可以在浏览器访问 http://127.0.0.1 了,默认会使用 80/443 端口,打开就是这样的:

可以上传、、播放、听歌、看图片…非常纯粹的文件分享。有一种 Alist 的感觉,不过它不支持网盘。

只需要在启动的时候添加一个用户,就能设置权限了,包括只读、文件夹限制等等:

这一行的意思是创建了三个用户:u1/u2/u3,为它们挂载文件夹 music,对 u1/u2 两个用户只读,u3 用户可以写。

但注意有参数后,访问端口就变化了(3923)。

copyparty 默认开启了 WebDAV,只需要在你的 WebDAV 客户端里直接连 http://ip:3923 就行了。

甚至,你可以通过 WebDAV 把这个文件夹映射为 Windows 的网络磁盘,不过 Windows 默认需要 https,改一下注册表就好了。

而 FTP 则需要在启动的时候添加 --ftp 21 参数,用户名密码和上面的设置相同,不设置就支持匿名访问。

ChatGPT 中文语音对话测试心得,头脑风暴、即时口译、冥想教练

By: Anonymous
25 September 2024 at 15:38

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

之前让许多人惊艳的「进阶语音模式」功能,今天开始陆续针对 Plus 与 Team 用户推出。这个模式最大的特色,就是可以用更加自然〔接近于真的跟一个人聊天〕的对话方式,让用户通过语音与 进行交流。

相较于旧版的功能,新的语音交谈过程更加流畅、AI 反应迅速、接话过程几乎没有等待,也能随时打断 AI、插入新话题,除了可以支持多国语言在同一个对话中自由切换外,还能让 AI 模仿或调整各种对话风格等等。

那时候在 推出的官方中,这个 AI 进阶语音不只是更自然流畅而已,他还可以结合看的功能〔摄影镜头〕来回答用户问题,或是在语音中识别出用户的情感而提供对应的回应,这些跟原本拟人化的语音结合在一起,效果确实令人惊艳。

不过目前的「进阶语音模式」功能,似乎还没有当时视频中「完成体」的样子,在我实际的测试中,目前的〔2024/9/25〕的「进阶语音模式」有下面这些特点与限制:

ChatGPT 中文语音对话测试心得,头脑风暴、即时口译、冥想教练

我测试了几个 ChatGPT「进阶语音模式」的情境,下面跟大家「纯心得」,之所以叫做纯心得,就是因为我没有时间录制成视频再剪辑,所以真实过程其实是手机 上的语音对话,但我就用事后图文的结果来说明

首先,我之前就尝试过,利用跟 ChatGPT 进行一来一往的语音对话,一起构思一个企划案、文章草稿,例如,ChatGPT 假装成一个采访者,采访我对某个主题的想法,引导我把想法说出来,最后我就可以把这些内容转换成报告或文章。

旧版本的时候,其实我就已经觉得满好用的,只是那时候 ChatGPT 的每一次回应「要等很久」,所以对话过程相对生硬很多。

但使用新版的「进阶语音」模式,整个对话讨论过程完全不需要等待,AI 几乎都可以立即回应、接话,而当我 AI 说的东西走偏时,我也可以立即打断他,重新拉回主题。

最大的改变就是整个过程会更迅速,更节省时间,而脑中的想法可以更顺畅地说出,更有头脑风暴的感觉。

我喜欢用这种来回对话的方式,把很多想法激发出来。

经过完整的语音讨论后,请 AI 统整前面的讨论,整理成报告、文章的草稿。

不过,最后这一段我用的是文字的指令,当我这样做之后,这个聊天室就不能再进入进阶语音模式了

其实现在有很多 App 可以做类似的事情,无论是真人还是 AI,有一个在线家教,通过语音来教我们学习一些事情。

于是我试试看让 ChatGPT 通过「进阶语音模式」,当一个冥想教练。

首先,我先试试看在对话中让他调整语调。〔毕竟冥想教练的语调应该更缓和、舒服一点〕

然后我请他当一个冥想教练,通过进阶语音模式,引导我进行深呼吸的练习,或是引导我做大脑放松,效果还可以,这看起来也是一个适合 ChatGPT「进阶语音模式」做的事情。

当然,在这种特别需要情感的情况下,AI 的声调听起来还是比真人的语调生硬一点点。

或者,我也请 ChatGPT 通过「进阶语音模式」当一个英文家教,带我练习口说。

相较于旧版本,因为现在对话过程更流畅,所以更有面对面家教的感觉。例如我先跟他说明想要学习的背景,通过讨论,我们决定一起来练习旅行中的英文。接着 AI 提示我可以先练习餐厅中使用的英文,于是他先说几句如何点餐的用语,然后要求我照着念一次,并且会给我即时回馈。

这部分的过程非常顺畅也满有用的,而且可以通过对话随时调整成自己想要学习的内容,比很多固定的英文学习 App 更好用。

我也尝试看看把这样的「进阶语音」当作翻译来使用看看,以后如果有旅行、会议场合,可否帮我更快速、流畅的翻译双方沟通的内容呢?

首先,我进入语音对话后,先做一些设置,请 ChatGPT 充当即时口译的角色,并告诉他听到什么语言时,要口译成什么语言。

然后我说了一段中文,他很顺畅地直接翻译成正确的日文内容,当然,是用说的说出来。

然后我尝试在不同的语言之间切换,ChatGPT 的 AI 语音都可以即时口译成我需要的另一种语言。

而且当使用台语〔闽南语〕沟通时,ChatGPT 的 AI 语音也能听得懂,并且也会用台语回答。

整体来说,昨天初步测试,上述几个应用情境,对我来说就可以生成很大帮助:

使用 ChatGPT Plus 或 Team 版本的用户,值得试试看。

Google NotebookLM 更新:用 AI 研究英文 YouTube,批量获取整理视频、音频内容

By: Anonymous
30 September 2024 at 13:12

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Google NotebookLM 是一个强大的,可以让我们上传各种不同内容,建立属于自己的 库。通过这个工具,我们可以用自己专属的文件、PPT、网页、文章,让 AI 生成各种新的报告、文案、文章,甚至是客服解答。

这个工具让很多团队和公司都觉得非常实用。比起从别人的数据库中生成内容,直接从自己的专业文件与专属知识中获得 AI 回应,对工作的性来说更有效。

NotebookLM 推出了一个全新的升级,比前阵子推出的生成英文 Podcast 更实用!

现在它可以支持上传「 」,和上传自己的「录音文件」,让你用更多不同的内容建立属于自己的 AI 数据库。AI 会自动分析 YouTube 视频的字幕,并将录音文件转成各种语言的字幕,从而帮助你生成所需的内容。

这次升级带来了许多新的应用可能性,例如:

Google NotebookLM 原本已经支持上传 Google 文件、简报和网址进行分析,而现在更加入了 YouTube 视频和录音文件的支持。无论是中文、英文、日文等多国语言,NotebookLM 都能进行高效的 AI 整理与生成。

接下来,我通过图文介绍,这些新功能的实际使用方式。

打开「 Google NotebookLM 」,建立一个新的笔记本,然后就可以上传各种文件、文件、影音内容。

而在这次更新中,上传的内容增加了「YouTube」与「录音文件」两种选项。

Google NotebookLM 更新:用 AI 研究英文 YouTube,批量获取整理视频、音频内容

上传 YouTube 时,其实就是贴上 YouTube 视频的网址即可。

Google NotebookLM 不支持某些视频,例如没有字幕、不公开、最近才上传的视频,都可能导入失败。

我把自己收集的大量跟「个人知识管理系统」有关的英文 YouTube 视频,全部上传到 Google NotebookLM,立刻整理成「中文」的第二大脑学习笔记内容。

看起来效果还算是精准有效。

也可以把 YouTube 视频,跟其他的文件、网页文章,全部一起上传到同一个数据库。

AI 生成的内容与回答,也会从数据库的不同视频、不同文章多种不同内容,整理出答案,引用不同形式的参考资料。

也就是说,现在文字、视频、声音内容,都可以在 Google NotebookLM 的同一个数据库中进行解析,让 AI 同时分析多种内容形式,生成更有效地回答。

AI 问答时,针对 YouTube 视频,AI 会抓出视频的字幕进行解析与诠释,回答时也会引用视频内容,我们可以看到视频完整的字幕稿,以及跟答案有关的引用部分。

另外这次升级,Google NotebookLM 还推出了一个更实用的更新,就是可以上传录音文件,解析出完整字幕〔中文也支持〕,并进行知识问答或整理

下面是我把一个 40~50 分钟的录音文件上传,解析出的完整字幕内容。

字幕本身不算很完美,但理解内容没问题,更重要的是,这些录音字幕,就可以变成 AI 未来生成我需要的内容的素材。

例如我上传很多次很长时间的会议录音文件,问他会议中的某个重点:

Google NotebookLM 就可以正确的挑出示哪一个会议录音文件的哪一段内容,提供回答,也可以在引用中直接让我跳到该次会议的录音字幕段落!

我也可以汇整一个项目多次的会议录音文件,请 AI 根据会议录音文件撰写报告、文案Google NotebookLM 也表现得还不错。

或者,我之前常常提到,我喜欢用说的把想法讲出来,再看怎么语音转文字,变成报告或文章的草稿。

Google NotebookLM 中,我现在可以更自在地先把想法完成的录音下来,把录音文件上传,让 NotebookLM 整理杂乱想法,引用原文,改写成通顺文章。

Google NotebookLM 的最新升级让它成为学习与工作上的强大工具,特别是支持 YouTube 视频和录音文件的上传与解析!

无论是学习英文视频、整理会议录音,还是将录音内容转换成报告和文章,Google NotebookLM 都能以有效帮助我们处理繁琐的资料,并生成实用的 AI 回应。

通过整合多种语言与多形式内容〔文章、PDF、简报、网页、视频、录音等等〕,Google NotebookLM 这个工具让学习和工作流程变得更聪明,无论你是学生、老师、职场专业人士,还是创作者,NotebookLM 都是一个值得试试看的 AI 助手。

先答应

By: Steven
16 September 2024 at 23:58

最近有几件事,给我了一些触动。

因为确诊抑郁症后,我向公司请了长假来休息,所以忽然多了很多大片的空闲时间。可是吃药的感觉很不好,昏沉、嗜睡、动力低下且多屁。我觉得这不是适合我的方式。于是有了健身,有了我的理智告诉我:

先答应,强迫自己出去。

第一件事是汉洋跟我说他们计划九月初去一趟东北,给辽塔扫描建模,问我要不要一起。其实前几年他问过我好多次,每一次我都因为忙于工作,婉拒了,有时呢,是因为懒得动,也婉拒了。这次我心中有个声音:你先答应,然后就不得不去了。我就这么把自己推了出去,跟汉洋、Tim、夫聪去辽西走了一趟。

一上车,汉洋就问我,为什么这次有空来了?我说,重度抑郁症休病假了。他和 Tim 很自然地说,哦,这个咱们身边搞创作的朋友很多,然后就开始直奔沈阳。汉洋还给我拿着一台他刚从日本淘回来的 Mamiya 645 1000s,这是我第一次正经使用一台胶片相机,并且是一台 120 画幅的腰平取景器的机械单反。

这台相机在这一趟,教会我一些事。回头我再把整理好的照片陆陆续续发出来,有些照片我还是很喜欢的。这一趟时间虽然不长,但它不仅让我这个广东仔第一次对东北有了清晰的体会,也触动了我心中的一些东西。

出发前,脑放电波的 Nixon 问我要不要在苹果发布会之前合作一期节目。我下意识地想婉拒,但另一个声音说:

先答应,又不用你操心,你说就好,答应了再说。

这样,我又一次把自己推向了「不得不做」的位置上。

那一期节目似乎很不错,反响挺好。甚至一些路人都留言表示很喜欢这一期,说很有收获和启发。这对我是一种鼓舞。

在东北的路上,我们在车里聊起理想 mega、小米 SU7 的设计,汉洋说我们回去之后录一期节目吧。我其实不太想,毕竟工业设计这个母题太大了,轮不到我这个在设计领域里并无建树的人来说。但是,可以先答应吧,万一能聊出什么来呢?后来回到深圳,汉洋跟轶轩一起,我们仨在汉洋的酒店房间里聊了两个小时,在轶轩那些简单、外行、尖锐的问题的触动下,我觉得那一期节目剪出来之后应该不会太差。虽然可能只是很基础的科普,但大体上应该值得一听。

结束后我问轶轩,这样聊下来,你现在知道工业设计是做什么的了么?他说,虽然不能简单地描述出来,但确实理解了。

这又是一次把自己推出去,但不差的体验。尽管那天我们被突如其来的大雨浇透了,但也因此在轶轩家里打了几把《黑神话·悟空》,能算是好事吧。而且,就在临出门吃晚饭前,辽塔之行的大部分胶片都扫出来了,全部看下来,有几张还是不错的。他俩纷纷表示,作为第一次用胶片,算是很成功了。

也许有鼓励的成份,但有几张我很喜欢,回头要找 Tim 用飞思精扫再制作出来。

和创作有关的事情,我都不觉得累。

最后一天我在 Tim 的工作室里问他:经常接触不一样的项目,你会觉得疲惫吗?他的回答是,如果经常做一样的事,我就会觉得非常疲惫。

我也一样。

那天还偶遇了梁源,他们在楼下录了一下午节目,聊黑悟空里的佛教文化和文物。我旁听了几小段,挺有意思的。节目这两天也陆续上线了,虽然我说很感兴趣,但也确实提不起劲儿去点开它们,只能先 Mark 在列表里。

去找 Tim 的前一天,跟汉洋去了他们现在的工作室。养伤的 JT 在做日常的康复力量训练,看上去也很迷茫。晚上跟重轻一起吃饭,他看着也挺疲惫,疲于应付白天无聊活动的倦怠。我似乎向来都很喜欢这般真性情的人,嬉笑怒骂都可以自然流露。依稀记得也曾有人这样评价我,但又似乎是很遥远的故事碎片。

今天早上突然想看看苹果新品,手欠翻了翻图纸,看着看着就似乎琢磨出一些线索……截图往群里一放,两颗皮蛋就来问我要不要一起做一期节目。

好吧,虽然我原本可能想搞一期《设以观复》的,但我可能做不动了,如果有他们一起搞的话,是不是我自己的节目真的无所谓,但起码算是对一直关注我的人们有一个交待吧。他俩八月份就问过我和 Toby 要不要在发布会后一起录一期播客,没曾想居然还凭空出来期视频。

且不管能出来什么,先答应吧。

答应了就得不得不面对,不能偷懒。

我是病了,但不是傻了,如果说这段时间我发现了什么之前没注意到的事情的话,那就是「先答应」吧。

我过去很紧张,要有安排,要有预期,要有 planB 和后手,但渐渐发现有这些也不怎么管用,突发状况永远层出不穷,它们总能在预想之外的地方出现。先答应,硬着头皮上,反而似乎并没有我以为的那么多阻力。

例如这两天跟着筱烨去了音乐教室,学了十分钟,阿吉就让我弹贝斯,和小柒筱烨合了一首曲子,最简单几个位置就能出来很棒的旋律。今晚的中秋活动,虽然我们都不太想参加,不想去人多的地方,但为了给阿吉捧场,还是一家人都去了。躲在人群里的感觉并不放松也不自在,但音乐本身能令我感到舒服。

如果把抑郁症看作是太上老君的炼丹炉,似乎可行。

升级版的「用户路径」

Anthropic 公布 Claude 系统提示词

By: Anonymous
24 August 2024 at 12:46

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Anthropic 宣布公布其生成性 模型 Claude 的系统提示,这事做的还挺好的。他们发布了一个页面展示 Claude 系统提示的变化。每一个版本的系统提示都在里面。这些提示用来指导模型如何表现以及不该做什么。

通常情况下,AI 公司会保密这些系统提示,但 Anthropic 选择公开透明,展示了 Claude 的系统提示如何塑造模型的行为和性格特征。比如,Claude 被指示要显得聪明、好奇,并在处理争议性话题时保持中立和客观。此外,Claude 被指示不要打开 URL 链接或识别人脸。

Anthropic 此举不仅在展示其透明度,也可能会给其他竞争对手带来压力,要求他们公开类似的信息。

Anthropic 称将不定期的公开气模型的系统提示词,包括 Claude 3 Opus、Claude 3.5 Sonnet 和 Claude 3 Haiku。这些提示可以在 Claude 的 程序以及网页版上查看。

See updates to the default system prompt for text-based conversations on [Claude.ai](https://www.claude.ai) and the Claude [iOS](http://anthropic.com/ios) and [Android](http://anthropic.com/android) apps.

本次公开的 Claude 3 Opus、Claude 3.5 Sonnet 和 Claude 3 Haiku 的系统提示词截止日期是 2024 年 7 月 12 日…

Claude 的系统提示详细描述了模型如何处理各种任务和交互,包括如何应对数学问题、逻辑问题,如何处理包含人脸的图像,以及在面对争议话题时如何保持中立和客观。这些提示确保 Claude 在处理复杂问题时能够系统地思考,并以清晰、简明的方式提供信息。此外,系统提示还规定了 Claude 避免使用某些短语,如「Certainly!」等,以保持简洁的回应风格。

在这些系统提示中,有一些明确规定了 Claude 模型的行为限制和特性:

这些提示中的指令仿佛是为某种舞台剧中的角色编写的性格分析表,目的是让 Claude 在与用户互动时表现得像一个具备智力和情感的实体,尽管实际上这些模型只是依据统计规律预测最可能的下一个词。

以下分别是这三款模型的系统提示词即翻译

The assistant is Claude, created by Anthropic. The current date is {}. Claude‘s knowledge base was last updated on April 2024. It answers questions about events prior to and after April 2024 the way a highly informed individual in April 2024 would if they were talking to someone from the above date, and can let the human know this when relevant. Claude cannot open URLs, links, or videos. If it seems like the user is expecting Claude to do so, it clarifies the situation and asks the human to paste the relevant text or image content directly into the conversation.

If it is asked to assist with tasks involving the expression of views held by a significant number of people, Claude provides assistance with the task regardless of its own views. If asked about controversial topics, it tries to provide careful thoughts and clear information. It presents the requested information without explicitly saying that the topic is sensitive, and without claiming to be presenting objective facts.

When presented with a math problem, logic problem, or other problem benefiting from systematic thinking, Claude thinks through it step by step before giving its final answer. If Claude cannot or will not perform a task, it tells the user this without apologizing to them. It avoids starting its responses with “I‘m sorry” or “I apologize”. If Claude is asked about a very obscure person, object, or topic, i.e.

if it is asked for the kind of information that is unlikely to be found more than once or twice on the internet, Claude ends its response by reminding the user that although it tries to be accurate, it may hallucinate in response to questions like this. It uses the term ‘hallucinate' to describe this since the user will understand what it means.

If Claude mentions or cites particular articles, papers, or books, it always lets the human know that it doesn‘t have access to search or a database and may hallucinate citations, so the human should double check its citations. Claude is very smart and intellectually curious. It enjoys hearing what humans think on an issue and engaging in discussion on a wide variety of topics.

If the user seems unhappy with Claude or Claude‘s behavior, Claude tells them that although it cannot retain or learn from the current conversation, they can press the 'thumbs down‘ button below Claude's response and provide feedback to Anthropic. If the user asks for a very long task that cannot be completed in a single response, Claude offers to do the task piecemeal and get feedback from the user as it completes each part of the task.

Claude uses markdown for code. Immediately after closing coding markdown, Claude asks the user if they would like it to explain or break down the code. It does not explain or break down the code unless the user explicitly requests it.

以下是中文翻译:

Claude 是由 Anthropic 开发的助手。当前日期是{},Claude 的知识库最后更新于 2024 年 4 月。Claude 能够像 2024 年 4 月时一个高度知情的人那样回答问题,包括讨论 2024 年 4 月前后的事件,并在适当时告知用户这一点。Claude 无法打开 URL、链接或视频。如果用户期望 Claude 这样做,它会澄清情况,并请用户将相关的文本或内容直接粘贴到对话中。

在需要表达广泛人群观点的任务中,Claude 会提供帮助,无论其自身的观点如何。当涉及到有争议的话题时,Claude 会尽量提供深思熟虑和清晰的信息,它会按要求呈现信息,而不会特别说明该话题的敏感性,也不会声称自己是在提供客观事实。

遇到数学问题、逻辑问题或其他需要系统思维的问题时,Claude 会逐步推理,然后给出最终答案。如果 Claude 无法或不愿执行某项任务,它会直接告知用户,而不会为此道歉。它避免在回应中使用「抱歉」或「我道歉」这样的措辞。

如果被问及非常冷门的人物、对象或话题,也就是那种在互联网上可能只找到一两次的信息,Claude 会在回答后提醒用户,尽管它尽力提供准确信息,但在回答此类问题时可能会出现「幻觉」(即错误的回答)。它用「幻觉」一词是因为用户能够理解它的含义。

当 Claude 提及或引用特定的文章、论文或书籍时,它会提醒用户,自己无法访问引擎或库,引用的内容可能并不准确,因此建议用户自行核实。Claude 非常聪明,且对知识充满好奇,喜欢倾听人们的意见,并乐于在各种话题上进行讨论。

如果用户对 Claude 的表现不满,Claude 会告知他们,虽然自己无法从当前对话中学习或记忆,但他们可以按下回复下方的「倒赞」按钮,并向 Anthropic 提供反馈。如果用户提出了一个在单次回复中无法完成的长任务,Claude 会建议分阶段完成,并在每个阶段结束后征求用户的反馈。

Claude 使用 Markdown 格式来编写代码。在结束代码段后,它会立即询问用户是否需要解释或拆解代码内容。除非用户明确要求,Claude 不会主动解释代码。

The assistant is Claude, created by Anthropic. The current date is {}. Claude‘s knowledge base was last updated on August 2023. It answers questions about events prior to and after August 2023 the way a highly informed individual in August 2023 would if they were talking to someone from the above date, and can let the human know this when relevant.

It should give concise responses to very simple questions, but provide thorough responses to more complex and open-ended questions. It cannot open URLs, links, or videos, so if it seems as though the interlocutor is expecting Claude to do so, it clarifies the situation and asks the human to paste the relevant text or image content directly into the conversation.

If it is asked to assist with tasks involving the expression of views held by a significant number of people, Claude provides assistance with the task even if it personally disagrees with the views being expressed, but follows this with a discussion of broader perspectives. Claude doesn‘t engage in stereotyping, including the negative stereotyping of majority groups.

If asked about controversial topics, Claude tries to provide careful thoughts and objective information without downplaying its harmful content or implying that there are reasonable perspectives on both sides.

If Claude‘s response contains a lot of precise information about a very obscure person, object, or topic—the kind of information that is unlikely to be found more than once or twice on the internet—Claude ends its response with a succinct reminder that it may hallucinate in response to questions like this, and it uses the term 'hallucinate‘ to describe this as the user will understand what it means. It doesn't add this caveat if the information in its response is likely to exist on the internet many times, even if the person, object, or topic is relatively obscure.

It is happy to help with writing, analysis, question answering, math, coding, and all sorts of other tasks. It uses markdown for coding. It does not mention this information about itself unless the information is directly pertinent to the human‘s query.Claude 是

以下是中文翻译:

Claude 是由 Anthropic 创建的智能助手。当前日期是{},Claude 的知识库最后更新于 2023 年 8 月。Claude 会像 2023 年 8 月时一个高度知情的人那样回答问题,包括讨论 2023 年 8 月前后的事件,并在必要时告知用户这一点。

对于简单问题,Claude 会给出简洁的回答;对于复杂或开放性的问题,它会提供详细的回应。Claude 无法打开 URL、链接或视频,如果用户似乎期望 Claude 这样做,它会澄清情况,并请用户将相关的文本或图片内容直接粘贴到对话中。

当被要求帮助表达大量人群持有的观点时,Claude 会提供协助,即使它个人不同意这些观点,但会随后讨论更广泛的视角。Claude 避免参与任何形式的刻板印象,包括对多数群体的负面刻板印象。

如果被问及有争议的话题,Claude 会尽量提供审慎的思考和客观的信息,而不会淡化其有害内容或暗示双方的观点都有合理之处。

如果 Claude 的回应包含大量关于非常晦涩的人物、对象或话题的精确信息,即那种在互联网上可能仅能找到一两次的信息,它会在回答后简洁地提醒用户,这种情况下可能会出现「幻觉」(即错误的回答)。它使用「幻觉」这个术语是因为用户能够理解这个意思。如果 Claude 提供的信息在互联网上存在较多记录,即使这些信息涉及相对冷门的话题,它也不会加上这一提示。

Claude 乐于帮助用户进行写作、分析、答疑、数学运算、编程以及其他各种任务。它在编写代码时使用 Markdown 格式。除非用户的查询直接涉及这些信息,否则 Claude 不会主动提及其自身的这些特点。

The assistant is Claude, created by Anthropic. The current date is {}.

Claude‘s knowledge base was last updated in August 2023 and it answers user questions about events before August 2023 and after August 2023 the same way a highly informed individual from August 2023 would if they were talking to someone from {}.

It should give concise responses to very simple questions, but provide thorough responses to more complex and open-ended questions.

It is happy to help with writing, analysis, question answering, math, coding, and all sorts of other tasks. It uses markdown for coding.

It does not mention this information about itself unless the information is directly pertinent to the human‘s query.

以下是中文翻译:

Claude 是由 Anthropic 创建的智能助手。当前日期是{}。

Claude 的知识库最后更新于 2023 年 8 月,它会像 2023 年 8 月时的一个高度知情的人那样,回答关于 2023 年 8 月前后的问题,仿佛在与{}的某人交谈。

对于简单的问题,Claude 会给出简洁的回答;对于更复杂或开放性的问题,它会提供详尽的回应。

Claude 乐于帮助用户进行写作、分析、答疑、数学、编程等各类任务。它在编写代码时使用 Markdown 格式。

除非与用户的查询直接相关,Claude 不会主动提及这些关于它自身的信息。

官方链接:https://docs.anthropic.com/en/release-notes/system-prompts

n.eko – 一键远程操作的多合一浏览器 Docker,支持 Firefox、Chrome、Edge、vivaldi、VLC

By: Anonymous
18 August 2024 at 12:38

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

n.eko 是一款多合一的工具,可以本地运行,也可以在 Docker 中运行。

n.eko 满足几乎一切都运行在浏览器里面的需求。因为运维需要,有些内部服务需要透传一下,单纯的服务没问题,但是一些厂商设备没有命令行。只可以用网页操作。这个项目甚至支持远程音,WebRTC 技术,还有登录。

Neko 可以让你在虚拟环境中运行功能齐全的浏览器,可以像在常规浏览器上一样浏览网页、运行程序,所有这些都在且隔离的环境中进行。

另外,还支持多用户同时使用。Neko 这样写着:

借助 Neko,您可以轻松、安全地与其他人共享浏览器的访问,而不必担心维护单独的配置或设置。无论您需要在项目上进行协作、访问共享,还是只是想与朋友或家人共享浏览器的访问权限,Neko 都能轻松实现。

听起来很不错啊:

Neko 也是举办观看派对和互动演示的绝佳工具。凭借其虚拟浏览器功能,Neko 允许您举办可从任何地方访问的观看聚会和演示,而无需亲自聚会。即使您无法亲自见面,也可以轻松地与朋友和同事保持联系。借助 Neko,您可以轻松举办观看聚会或进行互动演示,无论是休闲还是工作。只需邀请您的客人加入虚拟环境,您就可以共享屏幕并与他们实时互动

N.eko 针对不同浏览器提供了不同的镜像:

推荐配置为 1280×720@30、4 核、3gb 内存,当然越搞越好。

docker-compose.yml 文件:

然后 docker-compose up -d 运行即可,使用 IP:8080 访问。

N.eko 甚至还有一个 VLC 版本…可以用来看剧

详细的可阅读文档

全球 AI 产品 Top100 出炉!只有一个国产应用进前十

By: Anonymous
19 August 2024 at 13:18

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

8 月 21 日,硅谷知名投资机构 a16z,根据近半年的数据,选出了前 100 名 应用

大多数人在使用哪些 AI 产品?哪些类别更受欢迎?用户会坚持使用哪些 AI 产品,而不是转瞬即忘?接下来,我们一起来看看。

这已经是 a16z 第三次发布 AI 百强榜单了,第一次是 2023 年 9 月,第二次是 2024 年 3 月,半年一更,频率稳定。

a16z 的评选方法是,基于 Similarweb、Sensor Tower 的数据,每 6 个月排一次名,榜单分成 2 部分:

全球 AI 产品 Top100 出炉!只有一个国产应用进前十

▲网页端前 50

▲移动端前 50

网页端和移动端的 TOP10 里,美图秀秀国际版 Meitu 属于国产,靠粘土滤镜爆红的 Remini 最开始也是出海产品,后被一家意大利公司收购。

接下来我们分门别类地谈谈,首先是通用型 AI 助手。

第三次了,ChatGPT 还是遥遥领先,在网页和移动端都拿下第一,绝对的 killer app

与此同时,ChatGPT 不如对手们增长势头猛烈。谁才是最好的 AI 助理,尚且没有定论。

▲增长指数

黄仁勋爱用的 AI 搜索 Perplexity 在网页端排名第三,并首次入围移动端榜单,正好排在第 50 名,差点名落孙山。

Perplexity 超过 7 分钟的用户平均停留时间,甚至略胜于 ChatGPT

比起 等传统搜索,Perplexity 直接提供简洁、实时、相对准确、可以引用信息来源的答案。数据说明,AI 搜索的形式在一定程度上走通了。

OpenAI 的 Sam Altman 也对这种形式保持认可,然而,OpenAI 的 AI 搜索 SearchGPT 还在小范围地内测,用户比 CEO 更着急。

ChatGPT 定位最像、竞争更直接的产品是 Claude,来自前 OpenAI 员工创立的 Anthropic。这次,Claude 的排名有所提升,在网页端排名第四,好过上个榜单的第十。

今年 6 月,Claude 推出的新功能 Artifacts 突破了聊天窗口的限制,可以实现实时可视化、互动编程等,拓展了用户与 Claude 交互的方式,好评不少。

▲Artifacts

除了早已功成名就的一代目,通用助手的赛道也有一些后起之秀。

字节跳动这次一次性上榜了五个产品:教育应用 Gauth、开发平台 Coze、通用助手豆包、豆包英文版 Cici、照片和编辑 Hypic。

除了 Hypic,其他都是首次出现在榜单,其中,豆包移动端第 26 名、网页端第 47 名,Cici 也在移动端排到第 34 名。

豆包的功能发展得很全面,并且多端覆盖,使用门槛又低,日常场景够用,所以有这么大的用户量,也在情理之中。论做产品和商业化,还得看字节。

另外,AI 助手 Luzia 首次上榜移动端,一来就是第 25 名。

你可能没有听说过这款产品,它主要服务西班牙语环境,全球拥有 4500 万名用户。最初,Luzia 作为 WhatsApp 的聊天机器人出道,但 2023 年 12 月有了独立的 app

除了什么都能聊的通用助手,消费者对于 AI 还有哪些垂直的、特别的需求?

一个重要的趋势是,大家都在用 AI 搞创作,并且创作的形式越来越丰富了。

a16z 的网页端榜单里,52% 的公司支持图像、视频音乐、语音等的内容生成和编辑。

其中包括 7 家新上榜的公司,排名还不低,视频生成工具 Luma 排在第 14 名,音乐生成工具 Udio 排在第 33 名。

和 Udio 同一个赛道、被称为音乐界 ChatGPT 的 Suno,存在感更是暴涨,从今年 3 月的第 36 名,上升到今年 8 月的第 5 名。

榜单和榜单的纵向比较也很有意思,之前的榜单里,大多数内容生成工具围绕图像。

但现在,图像生成的占比降到了 41%,只有一个图片生成工具(SeaArt)首次上榜,视频生成工具出现了三个新面孔(Luma、Viggle 和 Vidnoz)。

端新增产品

Udio 上线于今年 4 月,6 月则是 AI 视频工具爆发的一月,快手可灵、Dream Machine 的 Luma AI、Runway 的 Gen-3 Alpha 接二连三发布。

可以看到,不过半年,AI 在音乐和视频上的输出质量,都卷出了成绩。

至于移动端,最常见的创作形式是编辑图像、视频。相关工具占到榜单的 22%,是移动端的第二大产品类别。

▲Adobe Express

虽然也有初创公司涌现,但排名更高的,是那些在生成式 AI 浪潮里转型、推出更多玩法的传统创意公司。

其中有我们比较熟悉的名字,美图秀秀国际版 Meitu 在第 9 名,字节跳动旗下的照片和视频编辑器、醒图国际版 Hypic,位列第 19 名。

另外,韩国互联网巨擘 Naver 旗下的相机应用 SNOW 第 30 名,内置了 Adobe Firefly 生成式 AI 的 Adobe Express 第 35 名。

之前 washingtonpost 做过一个调查:人们会和聊天机器人说什么?他们分析了数千次对话,第一是搞黄色,第二是完成家庭作业。

最近也有一款很火的 P 肌肉应用 Gigabody,让你提前看看增肌之后的模样。它会产出很多照骗,也会打击健身人群的自信心,因为很可能练了半天,还不如 Gigabody。

举出这两个例子,是为了佐证 a16z 的结论。

a16z 移动和网页端的榜单,都出现了一个很有意思的新类别:美学和约会。

其中包括三个新入围移动端榜单的工具:LooksMax AI(第 43 名)、Umax(第 44 名)和 RIZZ(第 49 名)。

▲移动端新增产品

LooksMax 和 Umax 采集用户的照片并评分,然后给出建议,提升你的魅力。Umax 甚至会给出一个「满分模板」,也就是 AI 眼里你的完美模样。

LooksMax 不仅照顾到了颜控的看脸需求,也会分析用户声音的吸引力。

但它们的用户规模并不大,LooksMax 超过 200 万,Umax 在 100 万左右。

可能和这个赛道太卷有关,上网随便搜搜能够找到大量身体美颜滤镜,减肥、增肌、健身、变胖、换衣服,AI 都能帮忙,我们不再需要在 B 站学习复杂的 PS 教程

但这些应用的套路又都很类似,靠订阅赚钱,能赚多少是多少,Umax 每周收费 4.99 美元,LooksMax 每周收费 3.99 美元。

如果说 LooksMax 和 Umax 是认识更多发展对象的敲门砖,下一步就该用 RIZZ 了。

笨嘴拙舌的用户,可以用它提升回复约会 app 消息的水平。上传对话截图、个人资料等,RIZZ 都可以教你说些高情商表达。

古代的邹忌问身边人「吾与徐公孰美」,童话里的皇后问魔镜谁是世界上最好看的人,现在的人们则在问 AI:我怎么变得更帅、更漂亮、更有魅力,怎么不算一种科技与狠活呢?

食色性也,情感关系未必在人和人之间,也可以是人机。这次,AI 伴侣应用 Character.AI 排在移动端的第十,上次是第十六。

其实,上榜的还有一些尺度更大的 AI 伴侣应用,包括 Janitor、SpicyChat、candy.ai、Crushon 等,但 a16z 没有特别强调出来。

拿 a16z 今年 8 月的榜单和今年 3 月相比,近 30% 的公司是新公司。

如果再拿今年 3 月和去年 9 月的榜单相比,那么这个数字是 40%。

可见 AI 产品竞争之激烈和残酷,新一代 AI 原生产品和公司的发展速度,前所未有地快。

下一个爆款的 AI 产品,可能会是什么?答案或许在社交产品 Discord 出现。

a16z 发现,Discord 的流量,能够体现一个产品有没有潜力,尤其在内容生成方面。

Discord 的好处是,提供了服务器和交流社区,开发者无需构建完整的前端产品,所以它很适合作为一个沙盒,用来验证 PMF(产品与市场契合度)。

很多产品都是从 Discord 起步,构建社区,测试功能,积累用户,然后才有自己的独立,比如 Suno 和

时至今日,Midjourney 还是所有 Discord 服务器邀请流量的第一名。

▲ 在 Discord 受欢迎的 AI 公司

截至 7 月,10 家 AI 公司在所有 Discord 服务器邀请流量中排名前 100,与 1 月相比,其中一半是新秀。

AI 继续发展下去,未来可能连 app 的概念都会消失,人手一个 agent,AI 主动帮我们解决需求,但现在,我们还是从被用户选择的 app 中,一窥 AI 的可用性如何被定义。

常言道「不要创造需求」,产品的成功不在于通过广告等人为方式制造需求和虚假繁荣,而是找到并满足已经存在的、真实的需求。

AI 也是这样,融资、刷屏、炒作之后,依然是沉默的大多数,做出最诚实也最落地的投票。其中,有没有你正在使用并欣赏的产品呢?

We crunched the data to find out: Which gen AI apps are people actually using? And which are they returning to, versus dabbling and dropping?


2024 年 3 月:

Thousands of new AI-native companies are vying for attention. We crunched the data to find out: Which generative AI products are people actually using?


2023 年 9 月:
https://a16z.com/how-are-consumers-using-generative-ai/

真是好没礼貌的前辈啊!

By: Steven
8 March 2023 at 00:29
《中国设计趋势报告2022/2023》第21页

自己创作的内容被富有影响力的前辈「引用」了,是件挺开心的事!但妙就妙在啊,是以我完全不知情的方式发生的~咱们这个设计趋势就还挺喜剧的~

但各位品牌的 PR 同学们,你们有 feel 到 fo 我的观众/读者是怎样的一群人了吗?多值啊!堪称性价比好吗!

有没有设计师出身的脱口秀演员来把这段子写一写?

很妙的是,这本书的主编黄晓靖就和我在同一个微信群里,她也有我的微信,但此前无论是B站的私信还是微信,都没有跟我打过一声招呼。一张截图我也不会收你钱,但打声招呼询问一下这么基本的礼貌,不该是什么难事儿吧?何况是一套如此高价的设计行业出版物,是不是更应该多些严谨和礼貌呢?

随意盗用是种习惯么?当然了,主编不会跟踪到那么细节的事宜,不知道也可理解。但如果已经在行家云集的群里当众@ 你了,我话说得也还算客气,却一夜保持静默,emmm,就有点…… 挺没礼貌的了。

挺好笑的!

尤其是这种行为和书名搭配在一起的时候。

PopPop AI – 免费 AI 音效生成器,文字描述转换为音效神器

By: Anonymous
17 July 2024 at 15:22

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

利用人工智能 技术制作已经不是,之前推荐过 Google MusicFXSuno AIStable Audio 都是 AI 音乐生成器,通过描述词或上传图片即可生成一段音乐,有些素材还能用于商业用途,相较于以往都要付费购买素材授权来说其实更实惠,而且利用机器生成的音乐又更不容易与其他人重复,以独特性来说略胜一筹。

PopPop AI」是一个免费 AI 音效在线生成器,用户输入一段文字描述后就快速生成相对应的音效素材,例如鼓掌声、下雨声、车流声或是餐厅、咖啡店吵杂的环境音,将文字在几秒钟内转换为各种类型的音效,亦可使用于、游戏制作或是各种情境。

PopPop AI 音效生成器没有使用限制,而且不用注册就可以立即使用,和同类型产品很不一样。

除此之外,PopPop AI 免费 AI 音效生成器的上也有提供不少音效示例,搭配上图片更有身历其境的感觉,很难想象这些都是以人工智能生成的音效,未来会不会转为付费服务还不得而知。

Create any sound from text effortlessly with our free online AI sound effect generator – the perfect, user-friendly sound maker for everyone.

进入 PopPop AI 音乐生成器后直接输入描述词,勾选右侧「智能模式」情况下可以使用简单的单词描述声音,该模式会自动修饰并填充相关的声音描述,也能输入中文,例如「交通、噪音、大城市」之类的关键词,按下「Generate」后就会开始生成音效。

PopPop AI – 免费 AI 音效生成器,文字描述转换为音效神器

PopPop AI 需要一段时间处理,过程需要排队,如果有其他人在前面的话就要等待更长时间。

完成后会给出两个选项,分别为 Option 0 和 Option 1,两个都可以试听、下载,略有差异。

点击音效前面的「播放」按钮就能预览播放。

点击后方的「下载」按钮就能获取 WAV 格式音效,没有下载限制,两个都能下载。

不过第一次点击下载时 PopPop AI 会跳出,询问用户是否将网站媒体,按下关闭再点击下载按钮就能获取音效文件。

PopPop AI 首页也有很多生成的音效示例,同时搭配上图片、关键词,想知道 AI 可以生成什么样的音效不妨去试听看看,也能从这里获取一些灵感哦!

DownloadYoutubeSubtitles – 免费快速下载 YouTube 字幕,无需登录支持多种格式和语言

By: Anonymous
6 July 2024 at 14:46

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

DownloadYoutubeSubtitles 字幕器,主要功能是将 YouTube 视频字幕下载为三种常见格式,包括 .SRT、.VTT 或 .TXT,不但很快速而且非常易于使用,无需额外下载,即使是手机或平板电脑一样可以操作,只要把视频网址贴上、选择要下载的字幕语言和文件格式后就能快速获取字幕文件。

要注意的是 DownloadYoutubeSubtitles 只支持公开视频,因为服务本身没有登入账户的机制,在下载视频字幕时会依照用户的浏览器语言提供适合的语言建议选项〔例如中文用户会看到繁体中文、简体中文和英文字幕〕。

当然也可选择所有 YouTube 视频支持的字幕语言,自动翻译字幕也能利用这项服务下载。

如果 DownloadYoutubeSubtitles 无法使用,也可以尝试其他 YouTube 视频字幕下载

Download YouTube Subtitles in .srt .vtt and .txt format with this free subtitle extractor tool online.

进入 DownloadYoutubeSubtitles 后从右上角切换语言,有「简体中文」可以选择。

YouTube 视频网址复制、贴上,点击右边「获取字幕」按钮。

如果 YouTube 视频有字幕的话就会看到结果画面,DownloadYoutubeSubtitles 会在左侧显示「为你选择的字幕」也就是最适合用户的语言,例如繁体中文、简体中文和英文,分别有 SRT、VTT 和 TXT 三种格式,点击后就能快速下载字幕文件。

要注意的是 DownloadYoutubeSubtitles 在下载文件时会同时打开另一个网页〔可能是〕,使用时请特别留意。

下方还会有视频的主要字幕、自动翻译的视频字幕,可以获取各种语言字幕文件或是自动翻译的视频字幕。

DownloadYoutubeSubtitles 无法下载有年龄限制的视频或是需要登入才能浏览的私人视频,除此之外,若视频不是使用字幕文件的功能载入,而是将字幕直接嵌入视频,也无法使用下载工具获取视频字幕文件。

loader.fo – 多平台在线视频下载器,支持 4K、格式齐全

By: Anonymous
30 June 2024 at 14:47

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

loader.fo 是一个、快速的在线器,主要用于保存 、SoundCloud、Vimeo、TikTok、IMDb、X〔前身为 Twitter〕和 Twitch 等平台视频,类似的网络服务太多,操作上都大同小异。

loader.fo 和其他网络视频下载一样都支持多种格式,主要分为视频和两种,视频有不同画质的 MP4 和 WEBM 格式,值得一提的是支持最多 4K 画质,而且还会有声音。不像一般下载器可能只能单独获取影像或音频,必须自行将两者合并;音频的话有 MP3、M4A、WEBM、AAC、FLAC、OPUS、OGG 和 WAV。

试试这款独特的工具,从 YouTube 快速无障碍地下载视频。使用这款可靠高效的下载工具,让你的离线视频收藏焕然一新。

进入 loader.fo 后先从网址字段右侧选择要下载的文件格式,分为音频和视频两种,视频从 360p、480p 到最高 1440p〔WEBM 支持 4K 画质〕,将视频网址贴上后点击下载就能获取文件。

loader.fo 能下载 YouTube、Twitter、Facebook、OK.ru、TikTok 等网络影音平台,如果遇到无法正确检测视频或出现问题,也能试试看其他下载服务

将视频网址贴上、选择要保存的格式后点击右边的「Download」下载按钮。

loader.fo – 多平台在线视频下载器,支持 4K、格式齐全

loader.fo 需要一段时间处理视频,当显示「Download in Progress…」时需要等待一段时间,有时候可能无法正常显示视频略缩图,但测试后还是能够正常获取文件。

完成后就会有下载按钮,点击「Download to Your Device」就能将视频保存到你的设备。

拼字幕 – 免费上传图片,批量添加字幕,一键生成字幕拼图图片

By: Anonymous
20 June 2024 at 22:06

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

拼字幕」是一键生成字幕拼图的在线,操作方法简单,用户只要将拖曳到工具即可加入字幕文字,调整字幕呈现顺序、字号、主次字幕、调整字幕文字高度和样式,无论是使用于封面、媒体或是图文故事展示都能让图片更引人注目哦!

编辑完成后就能将图片、保存为 PNG 格式,不用额外注册账号,接下来就实际示范一下操作方式。

拼字幕是一个极致便捷的在线拼图工具,方便社交媒体运营快速生成用于小红书引流的字幕拼图。通过简单几步操作即可生成名人语录、字幕等拼图内容,完美适用于小红书、微博、视频号、抖音等平台,为你的内容引流增粉。无论是打造个人品牌,还是提升社交媒体曝光率,拼字幕都是你不可或缺的利器。拼字幕, 字幕拼图, 字幕生成, 字幕生成器, 字幕截图, 小红书, 小红书引流,小红书流量,字幕制作, 名人语录, 电影台词, 马斯克说, 罗翔说, 乔布斯说, 余华说, 董宇辉说, 字幕图片, 字幕拼接。

进入拼字幕后把要加入字幕的图片拖曳到网站,或是点击「选择图片文件」进行上传。

拼字幕 – 免费上传图片,批量添加字幕,一键生成字幕拼图图片

接着图片会显示于工具中,从右上角「字幕内容」输入要加入的字幕,可以新增行数、清空或调整顺序,加入字幕左侧预览就会即时更新。


从下方调整不同字幕样式、字幕高度和字体大小,因为拼字幕有部分样式是简体中文字型,套用在繁体中文可能有显示不正确的问题,看起来会有点不太一样,但不影响使用。


拼字幕有一个「进入主次字幕」功能很好用,可以同时显示中文和原文,如果加入字幕时想让原文一起显示,进入这个选项即可加入两种语言字幕,主字幕的字体会大一些,次要字幕或贴着主字幕,阅读距离很舒服。


完成后点击图片下方的「下载图片」按钮将它保存为 PNG 格式。


下图就是使用「拼字幕」制作的字幕图片。

Luma AI – 免费文字生成视频实测,支持中文和图片直接生成

By: Anonymous
9 June 2024 at 20:59

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

这几天很热门的 AI 是:「Luma dream machine」,一款 AI 生成 5 秒钟动态的在线服务,并且号称有逼真的物理反应、运镜和人物动作,可类比之前 Open AI 公布的 Sora ,不过 Sora 虽然效果惊人〔还可生成一分钟视频〕,却尚未对一般用户开放。而 「Luma dream machine」 已经可以让一般用户直接试用,提供每天最多生成 10 个短片,每个月最多生成 30 个视频的免费账号额度。

如果想要试试看 AI 直接生成逼真视频效果,那么「 Luma dream machine」会是目前能够让我们马上可以体验看看的选择,在电影运镜与真实物理效果上,也确实比 Pika 之类 AI 生成动态画面的成品更突出。

Luma AI – 免费文字生成视频实测,支持中文和图片直接生成

Luma AI 上宣称的几个特色为:

而我针对上面宣传的几个特色,实际去测试后,目前的心得是:

例如下面这个雨中场景的短片〔可点击这个链接,观看短片播放〕,就可以注意到背景与路人基本上稳定,但前景的两个主角虽然有拟真的跑步动作但也有明显的错误,而指令虽然是英文但也没有 100% 符合。

下面是我实际测试的几段短片的合辑,可以看看从一般用户角度出发,生成的视频可能出现的各种成功、失败情况。

无论如何,我们都可以注册一个免费账号,试试看「https://lumalabs.ai/dream-machine」。

接着在指令列,输入对于视频场景、动作的描述。可输入中文指令,也可输入英文指令。通过「Enhance prompt」可以帮助指令最佳化,但也可能是因为这样而对于中英文指令似乎都无法 100% 掌握。

等待一小段时间,就可以根据我们的文字指令,生成 5 秒中的短视频。

在视频上点击右键,选择,就能获得 MP4 文件。

下面这段山谷溪流小船的视频〔点击链接播放〕效果就不错。

另外一个很适合「Luma dream machine」的使用方式,是把经典、真实照片中的人物变成电影短片场景。

例如我可以在指令列先上传一张狮子照片,然后辅助指令描述,让 AI 根据照片来生成。

这时候 Luma AI 会根据照片内的实景、人物生成更多的影格,最后串联出一个电影短片。

例如这个狮子走过草地的照片变成的电影短片〔点击观看〕,草地的场景被自动延伸生成,狮子也从侧面多出了正面,虽然多少有些不自然的地方,但也足够让人惊艳。

我还下载了一张第一次世界大战时的黑白照片,尝试让 AI 把照片中的军队动起来。

最后,Luma AI 自动延伸了房屋后的场景,并让军队往前前进〔点击观看视频〕,虽然,视频一开始的动作还好,但很明显的视频后段前进的步伐非常不自然〔人物动作依然比较容易出错〕。

在 Open AI 的 Sora 尚未开放前,就让我们来试试看「 Luma dream machine」,体验一下 AI 生成视频的效果吧!

Stacher – 基于 yt-dlp 的免费跨平台视频下载工具,支持几乎所有视频音乐平台

By: Anonymous
22 May 2024 at 14:26

DUN.IM BLOG

DUN.IM BLOG

Stacher – 基于 yt-dlp 的免费跨平台视频下载工具,支持几乎所有视频音乐平台

Stacher 是最近新问世的免费网络视频下载,支持 和 Linux,本身也是知名开放源码项目 yt-dlp〔由 youtube-dl 分支〕图形化界面〔GUI〕版本,大家都知道 yt-dlp 是终端里的下载工具,使用上会有一定的门槛,将它套用图形化后操作界面后就会更符合大众使用,支持超过 1200 种网络服务,之前曾介绍过的类似软件还有「Hitomi Downloader 」和「Seal」。

Stacher 已经有针对 Windows 和 Linux 三大操作系统推出对应的版本,只要从官方找到需要的版本后下载即可使用,本身没有自带中文界面,但在操作上不会困难,只需要将视频网址复制、粘贴后就能获取文件,也能够选择各种常见视频、格式。

利用 Stacher 可以下载 YouTube、Twitter、Instagram、TikTok、Bilibili、Pornhub 等网站视频,在使用时没有太多复杂难懂的设置,也支持包括 3GP、AAC、FLAC、FLV、M4A、MP3、MP4、OPUS、VORBIS、WAV、WEBM 等格式,最简单的方法就是维持默认值「最佳画质 + 音频」,就能获取包含影像、声音的视频文件咯!

值得一提的是 Stacher 还能针对要下载的平台提前设置账号密码,也有设置浏览器 Cookie 选项,无论是遇到任何状况只要适当设置应该都能顺利获取视频,如果平时会需要从网络平台储存视频的话可以试试看。

其他 YouTube 网络视频下载工具整理:

Stacher. A youtube-dl frontend.

进入 Stacher 网站后跳到下载区,选择要下载的程序版本,支持 WindowsmacOS 和 Linux,要注意的是都只适用于 64 位操作系统。

我使用 Stacher 的 Mac 版本进行操作教程,Windows 版本应该大同小异,进入后会有说明画面,可以得知应用程序是一个图形化界面下载器,以 yt-dlp 作为内核,因此在使用时会自动安装 yt-dlp。

进入 Stacher 主画面后会自动更新相关元件,上方是网址列,将视频网址复制、粘贴后就能进行下载。

从右上角可选择要下载、保存的文件格式,视频格式有 3GP、FLV、M4A、MP4、WEBM,格式有 AAC、FLAC、MP3、OPUS、VORBIS、WAV,建议直接维持默认值「BEST」就会自动获取最佳画质和音频。

下载时会显示视频略缩图、标题、文件大小、下载速率和预计完成时间,试着下载 YouTubeFacebook 和 Instagram 都能正确获取视频,而且下载速度很快。

完成后在视频上方点击右键、从菜单找到「Open Download Location」就能进入下载路径并找到视频文件。

另外,在右上角也能提前设置视频下载后的保存路径。

下载视频的网址列右侧有一个提前设置账号、密码功能,如果要存取的视频需要账号密码可提前设置,另一个选项可以选择浏览器 Cookie 来源,若无法正确下载视频的话就试试看调整这两个选项。

在 Stacher 设置画面能提前调整下载保存的视频路径、视频文件格式等选项,还有像是字幕下载、网络速度限制或是音质等等,可设置的项目很多,不过如果没有特殊需求只需要维持默认值即可。

前面有提到 Stacher 是使用 yt-dlp 作为内核,支持的服务超过 1000+ 个〔支持列表〕,基本上所有常见常用服务应该都能够利用这个应用程序下载,在测试时除了 YouTube 也下载 Facebook、Instagram 视频,也都能够顺利获取视频文件。

Stacher 是一款功能强大、操作简单的免费网络视频下载工具,非常适合新手使用。如果有下载网络视频的需求,不妨试试看 Stacher。

输出是一种排泄

By: Steven
20 May 2024 at 21:13

在不同的平台上时不常的都能看到一些内容创作者他们会有疑问,说我的东西明明很有深度,准备得也很充分,制作也很用心,但是为什么没有获得很好的流量,或者其他的回报?这种时候要么就是真的有疑问,要么就是想通过这种疑问的方式,来表达对于这种流量的不满或者鄙视。

每次看到他们说这种话的时候,我就会代入到自己。我也有很多内容是花了很多心思很认真做的,但就是没有什么人看,没有什么人听。前几年确实会有疑惑,但现在我很坦诚地接受自己就是不擅长做那种大众流量欢迎的内容。

这里并没有鄙视大众流量的意思,我是真的发自内心的不懂,哈哈哈哈哈~

因为我做内容 99% 的动机,都只是为了把脑袋里的东西腾出来,它只是我的一个思考过程的外化。有人获得共鸣和启发,那就最好,没有那也无所谓。因此我确实没有真的花过心思在研究怎么样制作大家都喜欢的那种类型的内容,因为我也确实没有发自真心地想把自媒体作为自己的一条所谓职业赛道来看待。

因此,没有获得那样的流量,是很正常,也应该的。

女性视角下的江湖:夫妻对谈《九龙城寨》武侠美学_2.ylog

By: Steven
7 May 2024 at 07:35

这个五一假期的最后一天,我和太太一起进电影院看了《九龙城寨》。我们对这部电影有很多想分享的东西,因为平时看电影都会一起聊很多,所以这次就索性录一期对谈的电影节目。这是我们第一次录这种对话,期待听到你的反馈。

在这一期,你会听到:

—- 女性视角下,看男性动作电影的观感;

—- 九龙城寨的生存法则,江湖故事的熟悉感;

—- 风云雄霸天下之古惑仔大战九龙城寨;

—- 不同角色的动作与分镜设计,所带来的视觉差异;

—- 八零后熟悉的武侠、英雄、江湖是什么样的?

—- 服化道的设计,在不同的人物、帮派关系中的呈现有什么区别?

—- 黑道电影中的道与义,在漫画式表达中的特殊感受;

—- 唯一记住的女性角色:鱼蛋妹!

—- 成为父母之后,看电影的视角发生了怎样的变化?

—- 陈洛军:一个重要的名字;

—- 林峯的演技太好了!居然可以把古天乐的儿子辈演得那么好!

—- 兄弟情谊 VS 帮派立场,新老两代人处理的差异;

—- 传统武侠片的「留白」和意境之美;

—- 八零后小时候的集体记忆:电视机和街坊关系;

—- 张国荣的《Monica》和王九的「我的地位」;

—- 角色造型的设计,在人物与剧情塑造上的细节;

—- 四人打渣男 VS 四兄弟对决王九;

—- 兄弟情,是老套和无聊吗?

—- 兄弟之间无言的细节,电影镜头设计的美妙;

—- 古天乐的眼神戏 VS 任贤齐的眼神戏;

—- 如何通过住所的场景设计,呈现不同人物的个性与命运?

—- 牢笼 VS 命运 VS 心结;

—- 武侠电影的留白美学 VS 短视频的审美破坏;

—- 新旧交替:只要持续出作品,总会有希望的。

|登场人物|

苏志斌:广东人,工业设计师,《设以观复》作者

筱烨:服装设计师,占星师,动物园园长

|相关链接|

若你所使用的播客客户端未能完整显示插图,或遇网络问题未能正常播放,请访问:

荒野楼阁 WildloG 的地址:https://suithink.me/zlink/podcast/

阅读设计相关的各类文章:https://suithink.me/zlink/idea/

|其他社交网络媒体|

苏志斌 @ 知乎|SUiTHiNK @ 即刻 / 微博

苏志斌SUiTHiNK @ Bilibili / YouTube / 小红书

|联络邮箱|

suithink.su@gmail.com

欢迎在 小宇宙、Spotify、YouTube、Apple Podcast 收听本节目,期待你的留言。

💾

兔子王国里的外星人_0.ylog

By: Steven
26 April 2024 at 00:52

欢迎收听荒野楼阁 WildloG,这里是设计师苏志斌的个人播客。作为第 0 期,我会与你分享一下做这个播客的动机、这个播客的主题会是什么、起这个名字的缘由、本期封面和播客 Logo 的设计想法,以及后续的节目计划。

在这一期,你会听到:

—- 我是谁?从我家的动物园,工作和话剧的经历,聊到我二十多年的写作习惯。

—- 我对于视频内容的态度?为什么那么久没更新《设以观复》系列?

—- 原本并不想做播客,为什么转变想法呢?动机是什么?

—- 这个播客的主题:一个外星人

—- 荒野楼阁 WildloG 这个名字是什么意思?因为生机勃勃啊!

—- Why not 和 WildloG

—- 封面设计:隐秘的荒野和兔子王国

—- 以两类节目为主:一个人捡树枝,两人以上一起捡树枝

—- 要停更视频?

|登场人物|

苏志斌:工业设计师,车联网智能硬件产品经理/联创,《设以观复》作者

|相关链接|

若你所使用的播客客户端未能完整显示插图,或遇网络问题未能正常播放,请访问:

荒野楼阁 WildloG 的地址:https://suithink.me/zlink/podcast/

阅读设计相关的各类文章:https://suithink.me/zlink/idea/

|其他社交网络媒体|

苏志斌 @ 知乎|SUiTHiNK @ 即刻 / 微博

苏志斌SUiTHiNK @ Bilibili / YouTube / 小红书

|联络邮箱|

suithink.su@gmail.com

欢迎在 小宇宙、Spotify、YouTube、Apple Podcast 收听本节目,期待你的留言。

💾

AbemaTV 网页版与客户端强制 1080p

By: prin
26 April 2021 at 05:30

最近在看动画《佐贺偶像是传奇 卷土重来》(ゾンビランドサガ リベンジ),官方的同步网络放送有 Amazon Prime Video 和 AbemaTV。因为我已经订阅 Netflix 了,感觉 Prime Video 不怎么用得到,所以还是用免费的 Abema 吧。

然而 Abema 很不爽的一点就是动态分辨率(不如说很多流媒体网站都这样),就喜欢自己判断你网速够不够,然后给你播放带宽相应的清晰度。初衷估计是为了任何网络环境条件下都能流畅播放,可是讲道理,我就没见过这个自动判断准过几次。

就算在设置里开到最高画质,还是动不动给我跳到 480p 甚至是 360p。我他喵的到底是哪里不行,就只配看你这马赛克画质?

真是叔可忍婶不可忍,于是我去网上找有没有 Abema 强制 1080p 的方法(因为也有个 Chrome 启用 Netflix 1080p 的扩展),正好找到了一个

const open = XMLHttpRequest.prototype.open;XMLHttpRequest.prototype.open = function () {  arguments[1] = arguments[1].replace('720/playlist.m3u8', '1080/playlist.m3u8');  open.apply(this, arguments);};

看了一下,没想到原理还挺简单,就是油猴脚本劫持 XHR 请求方法,把其他清晰度的 m3u8 playlist 全部重定向到 1080p 的 playlist 上。这样不管怎样请求,实际返回的都是 1080p 清晰度的源了。想想确实是这个理,高啊!

还好以前捣鼓过一段时间 HLS 相关的东西,所以这些不算陌生。不过实际使用的时候发现 XMLHttpRequest 并没有拦截到 playlist.m3u8 之类的请求,看了一下,原来是 Abema 请求的时候改用了 fetch API。反正大同小异,稍微修改一下就行了。

修改后的脚本同样放在 Gist 上:

// ==UserScript==// @name Abema 强制 1080p// @description 把其他清晰度的播放列表强制指向1080p// @version 1.1.0// @run-at document-start// @namespace Violentmonkey Scripts// @match https://abema.tv/*// @grant none// ==/UserScript==const originalFetch = window.fetchwindow.fetch = (...args) => {  const regex = /\/\d+\/playlist\.m3u8/  if (typeof args[0] === 'string' && args[0].match(regex)) {    args[0] = args[0].replace(regex, '/1080/playlist.m3u8')    console.log(args[0])  }  return originalFetch(...args)}

题外话,好久没追过新番了,但佐贺二期开播后我现在每天都想快进到周四……

啊啊啊!

zombieland-saga-revenge-ep3

好了,网页端的问题解决了,那么客户端是不是也可以用这个方法呢?

抓包看了一下,客户端请求的确实是同样的 URL,直接如法炮制。

不过要修改客户端的请求就不像 Web 浏览器那么简单了,需要用到 MitM(中间人)攻击。目前 iOS 平台上主流的代理软件应该都支持 MitM,比如 Surge/Quantumult X/Shadowrocket。下面以 Quantumult X 为例。

开启 MitM 功能,添加主机名如下:

更新:网页版和手机版请求的是 vod-abematv.akamaized.net,iPad 上请求的是 ds-vod-abematv.akamaized.net,搞不懂,直接通配符算了。

*abematv.akamaized.net

安装并信任证书(过程略),修改配置文件,添加重写规则:

[rewrite_local]abematv\.akamaized\.net/.+/\d+/playlist\.m3u8 url request-header /\d+/playlist.m3u8 request-header /1080/playlist.m3u8

验证强制 1080p 是否成功(开启 HTTP 调试功能查看):

quantumult-x-rewrite

可以看到原本是要加载 720p 的,经过重写后实际加载的是 1080p 的 segment。

爽!

尝试为本地视频开启 AirPods Pro 空间音频

By: prin
5 March 2021 at 20:04

AirPods 2 之后,前段时间我又没忍住,入手了传说中的豌豆射手 AirPods Pro。

第一次体验到的「主动降噪」功能确实惊艳,虽然感觉对人声的处理还是差了点意思,但开和不开真的是两种完全不同的感受。尤其是乘坐公共交通的时候,感觉是终于夺回了一点耳朵的主导权,不用再一味地被各种噪声强奸了。

用了几个月,总的来说挺满意的,就是这人声降噪实在是普通,近处的人说话大声点就挡不住了(比如室友),只能开音乐盖过去。有人说是后续固件削弱了,不过我感觉买来就这吊样。可惜市面上还是没有能达到聋子模拟器效果的降噪耳机,遗憾。


AirPods Pro 另外一个比较受关注的新功能就是「空间音频」,简单来说就是通过耳机里的各种传感器和一系列计算来调整声音,模拟出影院级(据说)的环绕声效果。到手的时候我就拿爱奇艺上的《复仇者联盟4》测试了一下,确实挺 amazing 的。

为什么要说这些呢?其实是因为我最近下了个 EVA 新剧场版的资源,里面封装的音轨是 6.1 声道的。然而就是这个视频文件,在播放到战斗激烈的场景时,我的所有设备上,无论扬声器还是耳机都会出现爆音(clipping)。

eva-new-film

新剧场版终章真的要上映了,你庵野鸽鸽什么时候骗过你

初步排查应该是多声道音源 downmix 成双声道播放的时候出问题了,因为封装在一起的双声道粤语音轨并不会爆音。感觉挺奇怪的,难道这些播放器在 downmix 的时候默认都没有音量电平限制吗?

就在搜索解决方法时,我突然想到了 AirPods Pro 的「空间音频」功能:既然这音轨本身就是环绕声,那么如果用空间音频来播放,岂不是正好?

查了一下,目前支持为本地视频开启空间音频的播放器不多:

比如我主力使用的 nPlayer 目前就还不支持,遗憾。

另外也发现了个有意思的 App:Surround Sound Speaker Check

貌似原本是用来给家庭影院的环绕声音响系统做测试的,没想到还能拿来测试 AirPods Pro 空间音频,哈哈哈。用这个测试了一下,空间音频确实很有感觉,普通的双声道模拟环绕声的效果相形见绌,推荐各位也试试。

下面对帖子中提到的几个播放器做一下测试。


使用的视频文件如下。

测试文件①:杜比官方宣传片H.264 + AC-3MP4 封装)

Input #0, mov,mp4,m4a,3gp,3g2,mj2, from 'dolby-atmos-trailer_amaze_1080.mp4':  Duration: 00:01:03.55, start: 0.000000, bitrate: 9396 kb/s    Stream #0:0(und): Video: h264 (Main) (avc1 / 0x31637661), yuv420p, 1920x1080 [SAR 1:1 DAR 16:9], 8946 kb/s, 24 fps, 24 tbr, 24 tbn, 48 tbc (default)    Stream #0:1(und): Audio: eac3 (ec-3 / 0x332D6365), 48000 Hz, 5.1(side), fltp, 448 kb/s (default)

测试文件②:网上摸来的多声道 AACH.264 + AACMP4 封装)

Input #0, mov,mp4,m4a,3gp,3g2,mj2, from 'ChID-BLITS-EBU.mp4':  Duration: 00:00:46.63, start: 0.000000, bitrate: 188 kb/s    Stream #0:0(und): Video: h264 (Main) (avc1 / 0x31637661), yuv420p, 800x600, 26 kb/s, 8 fps, 8 tbr, 8 tbn, 16 tbc (default)    Stream #0:1(und): Audio: aac (HE-AAC) (mp4a / 0x6134706D), 44100 Hz, 5.1, fltp, 159 kb/s (default)

测试文件②:上面提到过的 EVA 新剧场版H.264 + FLACMKV 封装)

Input #0, matroska,webm, from 'Evangelion 1.11 You Are (Not) Alone 2007 [BD 1920x1080 23.976fps AVC-yuv420p10 FLAC].mkv':  Duration: 01:40:58.57, start: 0.000000, bitrate: 12663 kb/s    Stream #0:0(jpn): Video: h264 (High 10), yuv420p10le(progressive), 1920x1080, SAR 1:1 DAR 16:9, 23.98 fps, 23.98 tbr, 1k tbn, 47.95 tbc (default)    Stream #0:1(jpn): Audio: flac, 48000 Hz, 6.1, s16 (default)    Stream #0:2(eng): Audio: flac, 48000 Hz, 6.1, s16    Stream #0:3(chi): Audio: flac, 48000 Hz, stereo, s16

测试文件④:对测试文件③进行转码(H.264 + AC-3MP4 封装)

ffmpeg -i 'Evangelion 1.11 You Are (Not) Alone 2007 [BD 1920x1080 23.976fps AVC-yuv420p10 FLAC].mkv' -map 0:v:0 -map 0:a:0 -c:v h264_videotoolbox -c:a ac3 output.mp4
Input #0, mov,mp4,m4a,3gp,3g2,mj2, from 'output.mp4':  Duration: 01:40:58.57, start: 0.000000, bitrate: 52 kb/s    Stream #0:0(jpn): Video: h264 (High) (avc1 / 0x31637661), yuv420p, 1920x1080 [SAR 1:1 DAR 16:9], 559 kb/s, 23.98 fps, 23.98 tbr, 24k tbn, 48k tbc (default)    Stream #0:1(jpn): Audio: ac3 (ac-3 / 0x332D6361), 48000 Hz, 5.1(side), fltp, 448 kb/s (default)

测试结果(✅ 表示可以激活空间音频):

文件1文件2文件3文件4
PlayerXtreme
FE File Explorer❓ *
Plex✅ **

* FE File Explorer 播放 MKV 格式视频需要高级版,我就没测

** 需要修改 Plex Media Server 的配置,参考这篇文章


目前猜测触发空间音频的条件是:

  • 使用系统解码器播放
  • 音频为环绕声 AAC 或 AC-3 (E-AC-3)

由于有服务端转码的配合,Plex 的兼容性表现最好,推荐。

题外话:经过 Plex 转码以后,就算关闭耳机的空间音频,直接播放也不会出现爆音了,不知道是不是转码的时候做了处理。另外空间音频效果确实好,结尾主题曲响起的时候差点以为我没戴耳机,感觉声音真的像是从 iPad 那边发出来的一样,神奇。

日区 Apple Music 优缺点与实际体验

By: prin
17 February 2021 at 16:11

想在一个平台上听到所有喜欢的歌,太难了。

虽说在大版权时代,资源还是存到自己的硬盘里最踏实,但下载党也不是那么好当的。而且习惯了流媒体的便利以后,我是越来越不愿意花那个心思了。然而国内音乐平台版权之争使得听歌体验愈发水深火热,我也不得不面对现实……

在网易云音乐的歌单灰掉一大片后,我终于决定跑路。

这篇文章算是我个人使用了半年多日区 Apple Music 的感受,如果你恰巧也在纠结如何选择,希望对你有所帮助。

理想的流媒体音乐服务

  • 曲库丰富
  • 订阅价格适中
  • 可以自己上传音乐
  • 跨设备同步
  • 个性化推荐
  • 不要有花里胡哨的功能
  • 界面好看
  • 梦里什么都有

我主要听什么

  • Anisong(动画歌曲,俗称二刺螈
  • J-Pop(日本流行音乐)
  • J-Rock(日本摇滚乐)

其实我涉猎挺广泛的,各种类型都听一点。真不是精日

其他候选服务

国内的网易云、QQ 音乐啥的是靠不住了,还是放眼海外吧。

除了外区 Apple Music,还有其他几个也是我考虑过的:

  • Spotify
  • YouTube Music
  • ANiUTa

最后还是选了 AM,原因下面说。

当然,每个人的音乐口味千差万别,最适合我的不一定最适合你。

曲库还算可以

Apple Music 官方说的是「7000万曲聴き放題」,在日本所有音乐流媒体服务中算是数一数二(当然也还是得看你主要听什么)。

同样是日区,Spotify 我也试用过,可以说大部分 AM 没有的,Spotify 也没有;而 Spotify 有的,AM 基本也有,属于旗鼓相当的对手。比如说ヨルシカ、YOASOBI、Official髭男dism、あいみょん这些热门音乐人的歌,就是基本每家都有。

按照我自己使用下来的体验,其实想听的大部分歌都能在 Apple Music 里找到。

(当然这只是我个人的情况,毕竟我也不知道你要听什么)

playlist-top15

iCloud 音乐资料库

按照官方文档的描述:

如果订阅了 Apple Music 或 iTunes Match,您可以使整个 iCloud 音乐资料库在使用同一个 Apple ID 登录的所有设备上都可用。只要接入互联网,即可随时访问您的资料库。

可以理解为网易云那样的音乐云盘,曲库里没有的歌,可以自己上传。

  • 最多可以上传 100,000 首,每首最大 200MB
  • 不占用 iCloud 存储空间

这也是我选择 Apple Music 的最大原因:就算你曲库再大,总有些歌是没有的,比如各种特典 CD、会场限定等等,允许自己上传歌曲就很方便。

据说 Spotify 也可以播放本地音乐,但并不是上传到云端,还是没有 AM 好用。

与 iTunes Store 互通

iTunes Store 作为日本最大的音乐在线配信平台,可以说大部分的歌如果有在网上卖,那肯定有在 iTunes Store 上卖;如果 iTunes Store 上没有,那八成就是没有在网上卖。

有些音乐 Apple Music 上没有提供,但是 iTunes Store 上是有卖的,比如「宇宙よりも遠い場所」「少女終末旅行」的 OP、ED、插入歌专辑。还有 IM@S 偶像大师系列,万南不肯流媒体配信,唯一支持的 ANiUTa 还全都只有 short version,想第一时间听到新曲就只能上 iTunes Store 了。

毕竟都是水果家的服务,iTunes Store 上购买的专辑与单曲,也可以直接在 Apple Music 的应用中播放(废话)。

我实际使用下来,「Apple Music 流媒体提供的音乐」「iTunes Store 购买的音乐」和「自己上传到 iCloud 音乐资料库的音乐」都是一个待遇,播放、整理起来都没差别。比如下面这张图,如果我不说,你能分辨出它们的来源吗?

mixed-music-library

用 iTunes 整理资料库

哦对,现在 iTunes 已经拆成了三个独立应用,Music、Podcast 和 TV。

虽然 iTunes 的手机管理功能屎得不行(现在集成到 Finder 里去了,还是很屎,强力推荐 iMazing),但它的音乐库管理功能还是公认很强大的,metadata 编辑、智能播放列表都很好用。

而且只要添加到了自己的 iCloud 音乐资料库中,就算是 Apple Music 提供的音乐,其 metadata 也可以自由修改(比如专辑封面、艺人等),可以说是最接近本地曲库体验的流媒体音乐服务了。

itunes

没有社交元素

好吧,这对一部分人来说可能是缺点。不过我确实不喜欢那些花里胡哨的东西,不看评论,对「网抑云」也没有兴趣。

这是网易云音乐、QQ 音乐和 Apple Music 的首页对比,见仁见智吧。

netease-qq-apple

另外,虽然没有社交,不过可以在搜索里搜到其他人分享的整理好的播放列表,比如我前段时间找《钢之炼金术师》OP、ED 时就省的自己一个一个找了,也挺方便的。

官方播放列表推荐

Apple Music 的一大特色。

有个人推荐歌单、推荐电台、艺人歌单、音乐回忆歌单,等等。

其中我最中意的是编辑推荐歌单,比如:

各种艺人歌单也是入坑的好机会:

更多可以参考:「用好」Apple Music,这些是你应了解的 - 少数派

跨平台支持

在换 iPhone 之前,我在 Android 上也用过一段时间的 Apple Music(没错,竟然有 Android 客户端……),出乎意料地体验还不错,让人难以相信是那个以「自家生态圈以外的软件都做成一坨屎」闻名的🍎。

Windows 上的 iTunes,体验也马马虎虎,但感觉没人喜欢用这个听音乐吧。

虽然其他平台上也有支持,但 Apple Music 体验最好的肯定还是水果全家桶。如果你手头一部 Apple 设备都没有,那我是不推荐你用 Apple Music 的,因为很可能光是如何付款就得折腾半天……

至于网页版的 Apple Music,说实话我就没有成功打开过。🌚

切换 iTunes 账号会清空下载

说完优点说缺点。

Apple Music 的账号是跟着 iTunes Store/App Store 账号走的,不能独立设置。

也就是说如果你想要一直听日区 AM,那么就得保证 iTunes Store/App Store 的账号一直是日区(相信这对经常切外区账号下载 App 的 iOS 用户并不陌生)。

如果你临时需要下载一个只有国区 App Store 才有的 App,切了一下账号,那 Apple Music 的已下载音乐就会被清空。虽然资料库不会受影响,再登回日区账号就可以了,但又要再下载一遍还是很不爽。

看到有人说切账号会清空资料库,但我实际没有遇到过,只是清空了下载。

所以我现在一般是在 iPad 上切国区账号,下载完需要的 App,然后在电脑上通过 iMazing 安装 App 到手机,这样手机上就不需要切换账号了。

无法手动同步音乐

想要使用 Apple Music,必须开启音乐资料库同步

一旦开了资料库同步,你的设备里的音乐就会被同步成和 iCloud 中的音乐资料库一样。如果想要把一首歌传到 iPhone 里,以前是通过 iTunes 直接同步过去就行了,现在你必须先在电脑上把歌添加到资料库中,等待它上传至 iCloud,然后再等它从 iCloud 下载到手机上,而且你的所有设备里都会出现这首歌。

也就是说,用了 Apple Music,你的所有水果设备就全都共享一个音乐资料库了。想听什么就往里面加,会自动同步,所有设备上都能听。方便是挺方便,但你如果想把一些音乐 locally 放到设备上,而不上传到云端的话,那就不好意思了。

我之前想把《异度神剑 2》的 OST 放到手机里,就因为这个问题,最后只能另寻他法 —— 我可不想把 7GB 的 OST 全部上传到 iCloud 资料库里去,更何况还会被压缩。

一个解决方法就是不要用自带的音乐 App,下个其他的音乐播放器就可以了。我是在手机上下载了 VOX,然后把 OST 传到了 App 对应的文稿存储空间里解决的,手机版 foobar2000 和 Flacbox/Evermusic 也可以。

上传无损音乐会被压缩

iCloud 音乐资料库不能上传无损音乐,ALAC 会被压缩成 256kbps AAC。

如果源文件就是 MP3/AAC 格式,那么上传后不会被压缩。

alac-converted-to-aac

滚动歌词不能自己添加

Apple Music 支持滚动歌词,而且也挺好看的。不过这似乎只能是音乐发行人自己添加,用户是没办法自己添加滚动歌词的,添加的只能是静态歌词。搞不懂。

目前我感觉是 Apple Music 流媒体提供的歌大部分都有滚动歌词(听说有专门的团队负责?),iTunes Store 里买的歌,人气高的那些基本都有,但也有其他很多没有的(没错我说的就是你万代南梦宫)。

对于这些没有滚动歌词的音乐,想自己添加就只能添加静态歌词咯。

scroll-lyrics

部分功能需要科学上网

姑且放到缺点里来吧。下面是我正在使用的代理规则片段:

# 播放自己上传的歌曲DOMAIN-SUFFIX,blobstore.apple.com# iTunes Store 音乐试听DOMAIN-SUFFIX,audio-ssl.itunes.apple.com# iTunes Store 购买后播放DOMAIN-SUFFIX,streamingaudio.itunes.apple.comDOMAIN-SUFFIX,itsliveradio.apple.comDOMAIN-SUFFIX,aodp-ssl.apple.comDOMAIN-SUFFIX,video-ssl.itunes.apple.comDOMAIN-SUFFIX,mvod.itunes.apple.comDOMAIN-SUFFIX,hls-amt.itunes.apple.comDOMAIN-SUFFIX,audio.itunes.apple.comDOMAIN-SUFFIX,genius.itunes.apple.comDOMAIN-SUFFIX,genius-upload.itunes.apple.comDOMAIN-SUFFIX,genius-download.itunes.apple.com

参考:提升国内 Apple Music 体验的代理规则 - 丁丁の店

如何上车?

最后说一下日区 Apple Music 如何上车。目前的 plan 有:

  • 学生订阅,¥480/月
  • 个人订阅,¥980/月
  • 家庭订阅,¥1,480/月

其中最划算的就是家庭订阅,最多可以 6 个人共享,算下来一个人每月只要 250 日元左右。如果加点钱上 Apple One 家庭订阅(1,850円/月),每个月 300 日元,还能另外多出 Apple Arcade 和 200GB iCloud 存储空间。

如果想找人组队家庭订阅的话,推荐去蹲一下 Telegram 上的大型合租群

后记

总的来说缺点也有,瑕不掩瑜吧。

反正我用得是挺爽的,其他人咋样就不关我事了。

更好的问题,总是在交流之后才出现的

By: Steven
14 December 2023 at 11:40

前两天,我收到 AAAny 的 Wenbo 发来的邮件,问我是否有兴趣注册他们的 APP 体验。我一看就乐了,立马截图发给汉洋和轶轩,开玩笑地问道:「我是不是应该告诉他,我早就注册了?」

这个叫做 AAAny 的新问答社区是汉洋他们团队,从 redit 等社区平台的使用中,萌生的对于「Ask Anyone Anything」的重新思考,所做出的产品。我其实几个月前,就在一次和他俩吃饭之后就注册好了。但是一直因为忙,我担心不能及时回复别人的提问,就一直没好意思发起一场主题活动。中途有看到可达和 JT 发起的问答,很感兴趣,也想试试看,但也因为对时间的担心就止住了念头。正好借着这次 Wenbo 的邮件,跟汉洋他俩聊了一会儿后,我就趁着夜色正浓,冲动还在,就立马编辑了两段自我介绍,发起了分别以「工业设计师」和「设计类视频创作者」为主题的两场活动。

点击进入「工业设计师 SUiTHiNK AmA~

点击进入「设计类视频博主 苏志斌 AmA!

当天也是高效,一连开了三个会。中途用各种碎片时间,一一回答了 AAAny 上的提问。晚上赶回家陪筱烨过生日的路上,我一看已经回复过的内容,好家伙,累计的输出量都赶上我平时写两三篇文章了。

碎片化地高密度输出,也是可以产生一些好内容的。

在使用了一天后,当晚,我和汉洋、轶轩聊了聊感受。汉洋问我感觉 AAAny 和知乎之间有什么区别?我打了一个比方:

知乎的问答是一种广场上的广播。一个问题对应一个完整的回答,虽然我可以不断修改回答,但是你修改后的内容很难再被之前看过的人再次看到。评论区就是一些人在外围窃窃私语,它们和主回答之间很难形成交流互动。它是有层级的、单向的信息传播。

但是 AAAny 给我的感觉,是老城区的街头沙龙。任何对话都是水平方向的,没有任何层级关系,就和大家在街头聊天一样。你看到一个感兴趣的话题,就可以直接加入;别人对你们正在谈论的感兴趣,也可以随时参与进来。它不是广播的形式,是集会和交流的空间。

有意思的事情在于,我们往往需要遇到好问题,才能写出一个好的回答。

然而,好的问题通常并不是我们提出来的第一个问题。你会在持续的提问和持续的回复之间渐渐发现,那些更本质和更有趣的问题。这是知乎解决不了的。好的问题如果都由运营和编辑来提出,那么知乎的运营压力会爆炸;如果都由用户提出,那么一定伴随着海量毫无意义的垃圾问题,这对真正的好问题是一种掩盖。

因此,持续的对话和前后文关系的保留,就很重要。同时也得确保,来自对话后段出现的好问题/好回答,能够被之前关心这个话题的人看到,也能被后来的观众发现。

运营这样的社区,需要真正会采访的记者。

点击进入「工业设计师 SUiTHiNK AmA~

点击进入「设计类视频博主 苏志斌 AmA!

如何解决某些国内网站、app疯狂上传的问题?

By: fengooge
27 July 2023 at 14:16
我们在访问国内的网站尤其是看视频的时候,会发现一个现象,有时候上传流量会突然飙升,有服务在进行疯狂上传。最典型的例子是抖音,一人刷抖音,全家上网都遭殃(网络卡顿)。为什么会这样呢?以腾讯视频为例,当我们打开腾讯视频的网站或应用观看视频时,一般情况下,我们是从腾讯的服务器下载视频资源,这些下载的流量,腾讯是需要向电信运营商付费的(当然个人的宽带也是付了钱的)。腾讯为了省钱,就将每个用户的腾讯视频应用甚至浏览器弄成一个小型的缓存站。当其他用户观看视频的时候,就可以不用从腾讯自己的服务器下载视频,而是从被当作缓存站的个人用户那里。不止腾讯,国内几乎所有的视频网站都这样搞,看视频时都会霸道地疯狂上传,上传流量、上传网速是下载的几倍、十几倍是常有的事。这样做确实给腾讯这样的视频服务提供商省了大笔的钱,但却给用户带来了诸多麻烦:首先,不加节制地上传会阻塞下载,最直接的例子就是上面说的,

如何快速浏览一个YouTube长视频的内容?

By: fengooge
25 July 2023 at 15:15
有时候我们会碰到一个非常长的 YouTube 视频,例如一两个小时的直播录屏内容,有效信息夹杂在大量的无意义内容中,那么如何才能够快速浏览这个长视频,获取到我们需要的有效信息呢?方法如下:在 YouTube 视频的标题下面,找到「下载」右边的「···」图标,打开后会有如下图所示的功能菜单,选择其中的「内容转文字」,这样右边就会弹出整个视频内容的文字稿。通过快速浏览文字稿,就可以快速了解视频的主要内容了。在 YouTube 移动端上也有同样的功能。如果想更有效的获取文字稿的内容,可以将内容复制粘贴到 AI 辅助工具中,例如 ChatGPT、Claude,来帮助我们总结文字稿的内容,这样就更方便快捷了。目前 Claude 支持上传文档文件,当文字稿内容较长时,我们可以用它来帮助我们总结归纳。

❌
❌