Reading view

There are new articles available, click to refresh the page.

D2Lang – 简单友好强大的文本转示意图片工具

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

制作示意图的工具有很多。

我喜欢使用基于文本代码的作图工具,来绘制线框图,比如 Mermaid、Plantuml、Graphviz。

D2Lang – 简单友好强大的文本转示意图片工具

它们都能根据代码,生成图片,非常适合放入代码仓库,进行版本管理。

最近,我发现了一个更易用的同类工具 D2,简单直观,功能强大,下面介绍给大家。

D2 可以命令行使用,也可以浏览器使用。假定你有一个图片代码文件example.d2,那么生成图片的命令如下。

$ d2 example.d2

大部分时候,我都通过浏览器使用它。它有一个线上生成器 play.d2lang.com(下图),把代码贴进去,按下”compile”按钮,马上生成图片。

想要 A 节点(节点的名称为 A),直接输入 A 就可以了。

A

A 只是节点名称,如果要定制节点的内容,就像下面这样写。

A: 甲

接着,添加一个节点。

A: 甲
B: 乙

把它们连起来。

A: 甲
B: 乙
A -> B

连接可以用正箭头(->)、也可以用反箭头(<-),甚至双向箭头(<->)。如果不需要箭头,就直接连线(--)。

箭头上还能添加文字。

A: 甲
B: 乙
A -> B: 连接

节点之间可以有多根连线。

A: 甲
B: 乙
A -> B: 请求
A <- B: 响应

节点的连接也可以写在一行。

甲 -> 丙 <- 乙: 连接

阶段一 -> 阶段二 -> 阶段三 -> 阶段四
阶段四 -> 阶段一: 反馈

这些语法就够画出基本的线框图了,是不是挺简单。

D2 可以绘制非常复杂的图,更多语法参考文档

最后提一下,如果想修改节点形状,方框改成圆形,就像下面这样写。

A: 甲
A.shape: circle

形状甚至可以改成一朵云,表示云服务。

A: 甲
A.shape: cloud

线条颜色也可以改。

A: 甲
A.style.stroke: red

PixDuplicate – 从设备上快速查找、删除重复照片,支持离线使用的网页应用

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

PixDuplicate」是一个从系统中快速查找、删除重复照片的网站,也是渐进式网络应用程序〔Progressive Web Apps,PWA〕,简单来说,这个工具不需要用户将照片上传,所有过程都只会在设备的浏览器上完成,因此不用担心文件被第三方服务器获取,通过 PixDuplicate 能快速找出重复或相似的照片,浏览后进行删除或是移动到指定文件夹。

PixDuplicate 主要有两个模式:

经过我的测试在关闭网络的情况下确实可用,也表示图片不会在过程中上传到服务器,不过在刚进入服务前还是需要有网络连线,接下来就实际示范一下 PixDuplicate 功能。

https://www.pixduplicate.com/

进入 PixDuplicate 网站后往下滑动页面,会看到两个主要功能:

选择图片、查找指定文件夹有无相似或重复结果。

我先从第一个「Scan One Image」功能开始测试,打开后会有两个步骤,分别是选择一张要查找的图片,以及选择要查找的路径,下方会有一个「Use quick search」选项默认启用,可以让查找速度更快,不过有机会提高错误率。

虽然会显示「要将文件上传到这个网站吗?」,但实际上不会有任何上传操作,只是浏览器提示信息而已,害怕可以断网操作,然后点击上传。

比对后显示结果,快速删除或是移动照片文件。

接着会需要一段时间进行查找、分析和比对,我测试了一个大约 300 张照片的文件夹,其实只需要数十秒时间就完成。

在查找结果下方就会显示找到的相似或是相同图片结果,可以点击「Copy File Name」复制文件名来进行其他操作,如果浏览器支持新的 File System API 还能直接删除照片或是移动到指定文件夹。

查找指定文件夹有无重复或是类似照片。

如果想要寻找某个文件夹有没有重复或是类似照片,使用另一个「Scan All Images」就能快速查找,这个功能更简单一些,只要点击「Select a folder with your images」选择照片的文件夹后进入自动查找功能。

PixDuplicate – 从设备上快速查找、删除重复照片,支持离线使用的网页应用

在查找结果会列出看起来很相似、相同的照片结果,可以快速复制文件名、删除或是移动到重复照片的文件夹,要注意的是 PixDuplicate 并不是 100% 准确,有些看起来很像但实际上不同〔例如我测试使用的屏幕截图〕,还是要手动自行辨别一下以免误删照片。

浏览器要支持较新的 File System API 才能直接删除或迁移图片,我使用 Brave 浏览器目前无法使用这个功能,若是不能一键删除、迁移照片的话就必须要手动进行相关操作。

Luma AI – 生成式视频 AI 巨头重磅更新,创新的视频创作交互方式

DUN.IM BLOG

DUN.IM BLOG

AI 视频,还能往哪个方向卷?Luma AI 的答案有些与众不同。对手还在练一招一式,它却像风清扬传授独孤九剑,讲究灵活变通,如行云流水,任意所之。

Luma AI 或许不如可灵、Runway 知名,但论实力也在第一梯队,它的视频模型叫作 Dream Machine,今年 6 月发布,最近进行了重磅升级,是推出产品以来声势最大的一次。

其中包括两项更新,一是发布自己的图像模型 Luma Photon,将文字、图像、视频一锅端;二是打造了生成 AI 视频的全新工作流,我们可以像和 ChatGPT 聊天一样,让 AI 生成视频,不用对提示词字斟句酌。

对于生成视频这件事,Dream Machine 首创了一种很新的方式。

Unlock your creativity with Luma AI Video Generator. Turn text into stunning videos with our cutting-edge text-to-video AI.

打开 Dream Machine,我们先看到的是「Board」,可以将它理解为无限的创意画布,在这里,我们使用自然语言,自由地生成图像或者视频。

开始一块 Board,我的提示词写得非常简单:「创建一个日式悬疑少年漫画的角色。」

AI 扩写了我的提示词,一次生成了 4 张图片,但是不行,年代不对。

没关系,再在对话框输入一句,「放在现代背景」。

AI 表示懂了,又生成了 4 张图片,右上这张孤身走暗巷,已经接近我想要的感觉了,但仍然不够,我想要他抬起头,露出五官。

不难,继续微调,忘掉复杂的提示词,和 AI 打直球就可以。

右下这张不错,虽然形象幼态了点。接下来,我想让 AI 生成一个视频,主角在同一条巷子里从白天走到黑夜。

Dream Machine 生成视频的首尾帧功能,就是为这种需求准备的——我们挑好头尾的两张图片,让 AI 补足中间的过程。

那么,我们只需基于满意的图片,让 AI 生成几张白天场景的,沟通方式还是一样的简单粗暴。最终选定的两张图片,细节略有落差,但同框也不违和。

万事俱备,只等生成视频,AI 过渡得还算自然。

看到这里,你应该明白 Dream Machine 和其他视频工具的区别了。

其他视频工具,通常是给你一个填入提示词的文本框,然后让你设置运镜、时长等参数。设置一次,生成一次。

但 Dream Machine 的界面,看起来非常像和聊天机器人交互,底部是输入框,文生图、图生图、图生视频、文生视频,都可以在这里进行。

专业创作者可以继续写传统的提示词,但我们也拥有了「讲人话」的权利,压力给到 AI,Dream Machine 能够理解上下文,帮我们完善提示词,我们可以从一个非常粗糙的想法开始,和它边聊边改边优化。

又因为 Dream Machine 是无限画布形式的,我们可能在一个环节反复生成,素材都会保留下来,不会互相覆盖。

我们的思维,不会局限在一段提示词、一个视频,而是像水一样流淌,更多的想法,可能就在这个过程里产生了。

Dream Machine 的全新工作流就像大树的主干,其中一些好玩且实用的功能则像枝桠,相得益彰,才能枝繁叶茂。

起到关键作用的,就是 Dream Machine 最新发布的图像模型 Luma Photon。

图片怎么生成得更符合我们的审美?Dream Machine 支持风格参考和角色参考功能。

先说风格参考,我们可以导入自己的图片,AI 会将风格融入到创作中。官方给出了一个例子:按蒙德里安风格,生成小鸟版的《戴珍珠耳环的少女》。

按这个思路实操一下,基于男性侦探的形象,参考梵高《星月夜》的风格,生成女性侦探。

二次元遇上后印象派,化学反应很奇妙。

角色参考功能,则可以通过一张图片,就实现角色的一致性,让这个角色出现在更多的图片和视频里。

Luma AI – 生成式视频 AI 巨头重磅更新,创新的视频创作交互方式

马斯克是行走的素材库,这样的例子太没挑战性了,我决定让甄嬛瞬移到哈利波特的世界,看场景变了之后,她还能不能气场两米八。

结果有些不好评价,看得出来是甄嬛的面容,但娘娘的长相入乡随俗,五官尤其眼睛,变得更像欧美人了。

其实,不另外找图片参考,Dream Machine 也可以让图片、视频不泯然于众人,这时候就要用到「头脑风暴」功能,它会根据你生成的图片,推荐一些艺术家的风格。

就像甄嬛进霍格沃茨这张,我们可以用吉卜力工作室风格二创。

不仅如此,提示词里的一些关键词,被框选了起来,能用下拉的选项替换,Dream Machine 称之为「概念药丸」,我们不用自己手写提示词,一键更换艺术风格,或者画面元素。

把「吉卜力」换成「新海诚」,把「独角兽」换成「龙」,不过点击几下的功夫。

Luma Photon 模型,基于 Luma 的通用 Transformer 架构构建。通过开发自己的图像模型,Luma AI 可以减少对 Midjourney 等外部图像模型的依赖,同时也能解决文生视频不稳定的问题。

当然,视频是老本行,镜头运动这种可控性功能,Dream Machine 也少不了。

紫禁城的甄嬛,和霍格沃茨的甄嬛,能不能实现丝滑的转场呢?用推拉镜头,画面有动感,人物没有严重的变形,可以打个 80 分。

巧的是,前两天 Runway 也官宣了自己的图像生成模型 Frame,和 Luma 更新是同一个晚上,看演示就知道非常注重审美,目前正逐步向 Gen-3 Alpha 开放资格。

▲ Runway Frame

图片的生成质量、美学高度,以及视觉风格的一致性和可控性,越来越被视觉模型重视了。

这对创作者来说是好事,当我们用 AI 进行平面设计、角色设定时,其实就是在生成一个独特的世界,讲一个独特的故事。

Runway 的 CEO Cristóbal Valenzuela 认为,Runway 不是一家 AI 公司,而是一家媒体和娱乐公司,AI 公司的时代已经结束了。

他不是在唱衰 AI,恰恰相反,他认为 AI 是一种基础设施,真正的革命不在于技术本身,而在于它所实现的东西:新的表达形式、讲述故事的新方式、连接人类体验的新方法。这和 Luma 的进化方向不谋而合。

这次更新之后,Luma AI 首席执行官兼联合创始人 Amit Jain,给 Dream Machine 下了一个很有趣的定义——视觉思维合作伙伴。

概念有些抽象,他的意思其实就是,让生成图片、视频这样的视觉创作,像聊天一样简单、直观。

交互的方式,影响着我们思考的方式。画布式的工作流,能将脑洞可视化,记录所有的创作过程和结果,呈现生成视频的完整思路。

无限画布通常在图像模型较为常见,比如 Recraft 和 Ideogram 的 Canvas。Dream Machine 的画布更加规整,相同提示词生成的素材和变体横向排列,不同的则竖向排列。

边聊边生成边优化的过程,会让人觉得,一个独立的小世界仿佛在画布里诞生。

先让 Dream Machine 用超写实电影 CG 风格,创造一个工业废土背景游戏的主角。

然后用环绕镜头,让主角动起来,并塑造环境的空间感。

接着,我们可以再和 AI 聊,让 AI 继续生成废土世界观里室内室外的各种场景,让 AI 建议我们怎么塑造得更有末日气息。

 

某种程度上,这个画布,就是我们个人故事的设定集。

当然,Luma AI 的 bug 也很多,包括但不限于,用一张图片实现角色一致性,效果并不理想;积分如流水,图片和视频还是要反复抽卡;图片模型可以生成准确的英文,但中文不行……

但意思传达到位了——少谈参数,以交互为出发点,构建一个 AI 创作工具。

更好的视频模型,不只是有更快的生成速度、更可控的镜头运动、更独特的美学,它应该也提供更好的讲故事的方式,让文字、图像、视频都作为表达想法的工具。

Dream Machine,造梦机器。

只管去创作吧,如同 Luma AI 的这句话:「不需要写复杂的提示词,问就好了。」未来 AI 留给我们的问题,不再关于技术,而是关于我们用它构建什么。

完全免费 AI 绘图工具 Dreamina AI,支持中文描述生成图片

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

当前 AI 绘图工具已经全面席卷全球,你还在找一款能够用文字或图片生成的免费 AI 图像生成工具吗?分享一款由抖音旗下剪映推出的 AI 图片生成平台「Dreamina AI」,只要输入简单中文描述就能立即转成图片,甚至还能搭配多层画布进行修改、重新创作和视频生成,而且还是完全免费和无限次数使用。

完全免费 AI 绘图工具 Dreamina AI,支持中文描述生成图片

Dreamina AI 是一款由剪映推出的在线 AI 创作平台,能够帮助用户将文字描述转化为视觉艺术作品。支持多种创作模式,包括文字绘图、视频生成和图片扩展,适合专业艺术家和普通用户使用。

另外 Dreamina AI 绘图创作平台还支持智能画布功能,可以通过画布混合多种 AI 生成图片,还可以进行局部重绘或扩展画布等功能操作。

想要使用 Dreamina AI 要先用电脑网页版登入和注册会员,可以通过 Google、TikTok、Facebook 或 CapCut 移动版来注册登入。〔手机版目前会跑版建议改用平板或电脑板,至于 App Store 有 Dreamina AI App 也并非是官方推出〕

👉 前往 Dreamina AI 在线生成图片

要是首次注册账号,会跳出 Dreamina 平台要整合 CapCut 账号信息权限,直接点「确定」继续。

进入 Dreamina AI 主页面后,就可以点击「图片生成」开始使用 AI 生成功能。

接着可以再生成图像输入框内填入生成 AI 图片的文字描述〔咒语〕,不管是输入中文或英文都能够使用,实际测试 Dreamina AI 中文生成图片准确度也不差,不一定要用英文才比较高,当然也可以上传照片,依照现有图片来生成。

图片模型部分,会提供三种 Dreamina 模型效果分别如下:

底下还能够设置图片输出长宽比例,以及大小尺寸分辨率都能够手动设置,都设置完成后就按下「生成」就可以开始生成免费 AI 图片了!

Dreamina AI 在输出算是非常快,只要几秒就能生成出四种不同风格的 AI 图片,像是底下是直接生成 Lego 乐高 AI 图片海报风格图片。

说实在 Dreamina AI 生成图片效果,与当前大多数 AI 绘图工具也都不会差太多。

底下也尝试文字描述咒语来生成漫威的雷神索尔画面,会生成出不同风格和脸型效果。

用下来发现 Dreamina AI 对中文理解能力算是很强大,AI 工具基本都能理解我们在说什么,像是可以让可爱老鼠或兔子也能骑机车外卖。

连同用 Dreamina v2.0 Pro 模型来生成真人效果也非常逼真,让你看不出来这是用 AI 生成。

不过有些时候不能谈到敏感话题或文字,甚至有些上传图片有红色就会被系统认为血腥,违反了《社交自律公约》内容,遇到这情况只能换其他张照片或改用其他文字描述。

点入生成 AI 图片后,可以直接将原始图片下载到设备上,侧边还提供多种选项能够进一步调整,像是重新生成、重新调整提示、增强分辨率、润饰、局部重绘、展开或移除,以及能够在画布上编辑或生成视频等。

要是想在 AI 图片上额外修改局部画面,可以直接点入「局部重绘」功能,直接圈选划线都可以,像是我随便在画面划一下,Dreamina AI 马上就在行李箱上加入皮带配件,有如设计师能帮你随意修改,超级猛!

至于 Dreamina AI 提供的「画布」功能,简单来说就是在线 Photoshop 编辑器,能够在页面内用 AI 生成图片后,能够直接抠图,另外上传图片进行合成,侧边也有图层能够进行调整拖移,基本算是很容易上手。

以上就是 Dreamina AI 生成图片工具的技巧介绍,整体来看 Dreamina AI 算是一款功能强大、易于使用的 AI 图像生成工具,能让每个人都能成为艺术家,如果你想尝试看看 AI 绘图功能,或是想要创造出不同图片效果,倒是可以通过 Dreamina AI 来快速生成,且还能支持中文提示词,对大多数人来说也算是非常好上手。

Recraft – 打败 Midjourney,匿名屠榜的 AI 生图黑马,人人都能设计海报

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

如今 AI 圈更新产品的节奏,让每个和键盘难舍难分的编辑明白了一句台词:你还有多少惊喜是朕不知道的?

这不,又一个 AI 生图神器来了:Recraft。

好用在哪?一句话概括就是:人负责排列组合,AI 负责美工,审美挺好,还不容易出错。

对于普通人来说,设计海报又又又变得更简单了,我们就是 AI 的甲方,给它一套毛坯,它给你一次次不重样的精装。

Generate and edit vector art, icons, 3d images and illustrations in a wide range of styles suitable for websites, print and marketing

请问,设计一张海报,需要几步?Recraft 表示,三步就够了。

首先,在空白画布上,拉出一个紫色的框框;其次,在你想要的位置放入图片、文字,输入提示词;最后,点击生成按钮,AI 就能帮你化腐朽为神奇。

只要等待十几秒,一张海报出现在你面前。比如这样,轻轻松松把文字变成 3D。

▲ 图片来自:X@recraftai

或者,你想做个表情包,有图,有文案,但不知道怎么组合更好看,也可以交给 Recraft,让它来扩图,把文字自然地融进场景里。

▲ 左边,AI 生成;右边,草图

甚至,我们不上传图片,纯打字,让 Recraft 一条龙生成海报也没问题。

文字渲染一直是图片生成模型的痛点,但 Recraft 牛逼在,可以 hold 住一大段文字。

A 妹主演的《魔法坏女巫》将在 11 月上映,国内也会引进,然而,电影还在文火加热,设计简陋的海报已经被群嘲了。

不如让 Recraft 重做一次吧,我用不同字号,把文案排列了一下,草图这就算做好了,然后参考原海报,反推提示词,说明了画面的要素,接下来交给 AI 一键美化。

▲ 左边,AI 生成;右边,草图

可喜可贺,该有的都有,文字没有错误,每一行都被 AI 精心设计,和官方海报一比,风格不同,但没有差到哪里去。

Recraft – 打败 Midjourney,匿名屠榜的 AI 生图黑马,人人都能设计海报

▲ 左边,AI 生成;右边,官方海报

除了从头设计,Recraft 还可以处理多张图片,满足追星族和嗑 CP 爱好者的要求——把喜欢的角色 P 到一起,看起来不突兀。

以哈利波特和毒液为例,上传需要的两张照片,背景不同怎么办?这里不得不提 Recraft 一个非常实用的功能:一键抠图。

是的,传统的 P 图软件都有抠图功能,这不算什么,但 AI 生图工具,考虑到这个大众功能并加进产品的,不多。

抠图之后,配上文案,看起来仍然有次元壁,默认字体也丑了点,没关系,选择你想要的画风,让 AI 统一优化,就有同框的感觉了。

▲ 左边:优化后,右边:优化前

擅长设计平面是不够的,Recraft 的一个功能更让人拍案叫绝:Mockup,做立体物体的图案设计。

先让它生成一个普通的红色棒球帽,中间的绿色框框,用来生成图片,或者上传自己的图片,然后图片可以和帽子完美融入。

比如,加上一段文案:「make cats great again」(让猫猫再次伟大)。

抠图去除多余的背景,把图标拉伸到满意的大小、旋转和移动到合适的位置,它始终保持透视效果,自适应地贴合表面。

以此类推,T 恤、杯子、徽章也是一样的,吃谷虽然快乐,但伤钱包,以后可以自己给自己做周边,赛博欣赏,自娱自乐了。

▲ 仅示意,徽章是 Recraft 生成的,图案是上传的

请问,我为什么一直在让 AI 设计英文内容?

因为 Recraft 有硬伤:可以用中文提示词,但输出不了中文。哪怕我明确要求,某段话请用中文写,它也会「贴心」地给我翻译成英文。

但只要能登上 Recraft,就有免费额度可用,设计海报、封面、产品图、表情包…… 有便宜可占,已经很香了。

我们知道 Midjourney、DALL-E、Flux、Ideogram,但这个 Recraft 是何门何派?

前段时间,文生图模型 red_panda 在 X 一鸣惊人,因为它在 Hugging Face 的排行榜拿下了第一名,把有名有姓的前辈踩在脚下。

这个排名,靠两两图片对比得出,比的是综合能力,包括审美、提示词理解、身体结构准确性、文字生成质量等。

网友猜测,red_panda 是「小熊猫」的意思,难道来自中国?关子没有卖多久,幕后团队就出来自曝了。

red_panda 基于模型 Recraft V3,背后的公司是 2022 年成立、总部在伦敦的 Recraft AI,创始人曾在 Google、微软工作过。

Recraft 一朝成名天下闻,不是没有道理,这个产品集了各家之所长。

▲ 图片来自:X@recraftai

论高清、光影、真实感,Recraft 不输 Flux。

同时,它对新手友好,有很多不错的预设风格,游走在写实和艺术之间,不用写复杂的提示词,就能模拟各种摄影和绘画效果。

▲「Hard Flash」风格,强烈、直白的闪光灯效果

Recraft 擅长的长文本图像生成,准确度怕是让拿文本做招牌的 Ideogram 都自愧不如,而且,它很听话,可以让我们决定文本的大小和位置。

▲ 图片来自:X@recraftai

不过,Recraft 也可能出现文本错误,并且导致背景变形。当我模仿《火星救援》的风格做马斯克的海报,他的脸像被整容了,还是失败的那种。

▲ 左边:AI 生成;右边:草图

当 AI 生图工具都在增强可控性,Recraft 不落下风,Midjourney 的修改局部功能,它也有。

我们框选出某个区域,然后用提示词告诉 AI 怎么修改,加个帽子轻轻松松。

十八般武艺都会一点的 Recraft,会抢设计师的工作吗?恰恰相反,它是来交个朋友的,把自己定义成:面向设计师的生成式 AI。

所以,Recraft 具备了一些设计师们需要的功能,比如样式也可以通过更多的图像输入给模型,保持风格的稳定。

Recraft 还做了一个小小的协作功能,画布可以共享,让对方评论,因为「有时候,两个人的想法比一个人的想法更好」。

▲ 图片来自:X@recraftai

更喜闻乐见的是,Recraft 生成的图片可以免费商用。

当然,不是设计师的小白们,比如我,也可以玩得很开心,分分钟做出自己喜欢的海报。

而且,本就没必要将人和工具比较,Recraft 是来和 Canva 等设计工具、Midjourney 等 AI 生图工具同台竞争的,用户们坐享其成。

▲ 图片来自:X@recraftai

Canva 的 CEO Melanie Perkins 说过,Canva 希望让每一个人都设计出他们可以想象的任何东西,无论说什么语言,用什么设备。

所以,他们打破 Adobe 的门槛,简化了设计流程,提供了各种模板、部件、图片、字体,让用户增减元素。

▲ 图片来自:X@recraftai

AI 的进化方向,和这位 CEO 的愿景是一样的:为全世界赋予设计的能力。

但我们的选择,越来越不局限了,不是必须选择哪个产品,不是必须听某个创始人的故事,工具能帮我们做的越来越多,我们按下的按钮越来越少,甚至可以不亲手操作,人人都能设计一点东西,如果我们还愿意称之为设计。

Image to Prompt – 免费 AI 图片转提示词工具,一键生成 Midjourney、Stable Diffusion 关键词

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Image to Prompt」是免费的图片转文字工具,将图片上传、几秒钟就能准确识别转为提示词,将生成内容复制后使用在其他的 AI 图片生成器,例如 Flux1、Stable Diffusion 和 Midjourney 等应用程序,识别速度很快,转换后图片就会删除,服务器不会储存用户上传识别的图片资料。

Image to Prompt 网站宗旨是帮助用户撰写更好的图片提示词,从而让用户能够更好的使用图片 AI 工具生成各种图片,如果有需要获取图片提示词灵感,从图片直接转换文字、稍作修改调整应该是最快的方法。

Upload your image, and it will be convert image to prompt in just seconds.

进入「Image to Prompt」网站后直接把要转换为文字的图片拖曳到左侧上传栏位〔或是点击下方的示例图片直接带入进行测试〕,接着点击右上角「Start convert」就会开始识别、转换。

几秒钟后右侧就会显示英文的图片提示词,将这段文字使用在其他 AI 图片生成器就能生成近似的图片,有需要也可以修改部分内容,相较于从零开始撰写提示词先使用生成器转换会是更快的方法。

如果图片的主题是人物,Image to Prompt 也能正确识别并提供相关信息。

Image to Prompt – 免费 AI 图片转提示词工具,一键生成 Midjourney、Stable Diffusion 关键词

Google vs ChatGPT 搜索体验对比实测

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

随着 的新实时搜索功能, ChatGPT 正在将自己定位为传统搜索引擎如 的竞争对手。ChatGPT 以其对话式的响应而闻名,能够提供实时的上下文信息而不带广告。

我抓住机会看看 ChatGPT Search 与 Google 长期以来的搜索专业性相比如何。我进行了几次比较,涵盖了速度、准确性、视觉效果和整体用户体验等类别。以下是它们的表现。

问题“东京的主要旅游景点有哪些?”

Google 的搜索引擎非常快速,结果在毫秒内就能交付。搜索引擎拥有多年的优化经验,并且有专门为高速索引和检索而构建的基础设施,可以立即获得来自多个来源的广泛相关结果。

ChatGPT 的搜索同样快速,并为每个地点生成了更清晰、更用户友好的图像和信息。显然,AI 通过从相关来源提取信息来生成响应,然后以对话的方式分享这些信息。结果感觉更加友好,几乎就像 AI 很高兴我去旅行一样。

使用体验ChatGPT Search
在以对话且简洁的方式提供有价值的快速响应方面领先。

问题: “解释气候变化和全球变暖之间的区别。”

Google
 的响应来自 Gemini,概述了气候变化和全球变暖,并将其包裹在一个简短的段落中。从那里,我可以向下滚动并搜索一些来自 NASA、USGS.gov 甚至 Quora 的链接。显然,算法优先考虑流行和权威的来源,但它也是以广告驱动的,这意味着顶部结果有时包括我看到的来自联合利华的赞助内容。此外,对于复杂的主题,我自己需要浏览多个链接才能拼凑出完整的答案。

ChatGPT 提供了直接的答案,从网络中提取经过的信息,然后添加了一个可点击的「来源」图标。这个功能减少了我在 Google 搜索中从多个收集信息的时间。在这个搜索和其他搜索中,ChatGPT 的总结对于一般查询甚至更详细的主题都是准确的,其设计允许更干净、更加集中的体验。(不过,请记住,广告可能会在未来出现。)

使用体验ChatGPT Search
在便捷和准确的直接答案方面赢得了这一轮。

问题: 苹果目前的股价是多少?最近有什么更新?

Google 实际上没有给我一个立即的答案。相反,我得到了一个指向 Yahoo Finance 的链接,我可以点击并希望自己找到答案。

ChatGPT
在毫秒内,答案就在我眼前。我还得到了关于苹果的新闻和更新,当然,还有来源。ChatGPT Search 真是令人耳目一新。我得到了问题的答案,而不需要四处寻找细节。通过将答案直接呈现在我面前,我节省了时间,而不需要再点击几次。显然,对于实时的股票 或天气更新,ChatGPT 提供了可比的准确性,甚至在深度上超过了 Google 庞大的视觉库。

使用体验ChatGPT Search
继续以其策划的实时直接答案给我留下深刻印象,显示出未来更新的潜力。

问题: 给我展示媒体对心理健康影响的最新研究。

Google 提供了如此多不同的答案,我甚至不知道该从哪里开始。从 Gemini 的响应到侧边栏,再到下面的链接结果,整个体验极其杂乱——这是我在使用 ChatGPT Search 时从未注意到的。此外,Google 的广告模式意味着用户数据通常被用来提供个性化广告。虽然 Google 有广泛的隐私政策和设置,但其广告驱动的方法可能导致不总是优先考虑用户隐私的定向内容。

ChatGPT 再次,ChatGPT 搜索提供了一个更清晰的界面,没有推广内容。对于这种个人化的搜索,额外的隐私关注方式让我非常感激。作为一个希望在搜索过程中不被广告定向的用户,这种方式对我来说更具吸引力——或者在之后。

使用体验ChatGPT Search
在考虑隐私和负责任的内容使用方面领先。对于敏感搜索,不被广告定向是一个巨大的优势。

问题: 什么是我客厅里最好的电视?

Google 我说的就是我说的,Google。在纠正我输入「What's」而不是「What is」后,Google 给我回应了一些链接,所有这些链接都是赞助的,我需要点击才能找到电视。在得到这个回应后,我感觉我需要再次问它以帮助缩小范围。然而,在赞助链接下,还有来自内容发布者的链接。

ChatGPT 为我缩小了范围,包含了图像,并给出了我想要的答案。AI 确实感觉像是一个朋友,提供有价值的信息。每个电视图像旁边都有一段介绍,提供关于每个电视的信息。与 Google 相比,这种设计感觉更加干净和简洁。此外,对话格式直观,我可以滚动浏览推荐,而不需要像在 Google 搜索中那样需要浏览多个链接。

使用体验ChatGPT Search
提供了一个令人耳目一新的体验,直接回答和具体示例。

问题: 谁在民调中领先?

Google 的结果包括有关选举的新闻故事。我希望通过这个问题获得关于今天总统选举民调中谁领先的直接结果。我不得不挖掘新闻故事才能找到答案。

ChatGPT 给了我我想要的结果,直接提供了事实。选举新闻无处不在,所以我不需要阅读更多的新闻故事。ChatGPT 给了我一个直接的答案。

使用体验ChatGPT Search
提供了没有繁琐的实时答案。

问题: 洋基队在世界大赛中是如何崩溃的?

Google 的第一个结果是从《纽约时报》关于该主题的故事中提取的引用。这是一个快速的响应和直接的答案。然而,它让我感觉我没有得到完整的故事。

ChatGPT 提供了更全面的回应,从更多来源提取信息,但仍然感觉干净简洁。我得到了洋基队彻底失败的完整画面。

使用体验ChatGPT Search
再次提供了我所寻找的实时答案,并增加了确认我获得所有信息的全面性。

ChatGPTGoogle 在不同领域都表现出色,但它们满足的需求略有不同。如果你在寻找全面的搜索结果,拥有大量来源和视觉效果,Google 仍然是强者。

然而,如果你的优先事项是清晰、无广告、对话式的响应以及内置的实时更新,ChatGPT 提供了一种流畅、用户友好的体验,可能很快就会成为日常查询的主流。

ChatGPT Search 提供的无杂乱答案以及支持它们的来源是全面且可靠的。我对 ChatGPT 的答案更有信心,因为它们简洁且没有广告商的支持。结果感觉就像是专为我准备的。在杂乱的网络中,ChatGPT 就像一个乐于助人的朋友,我喜欢这种感觉。

copyparty – 免费开源强大的文件服务器,支持 WebDAV、FTP、媒体播放等超多功能

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

copyparty 是一款功能非常丰富的多功能文件服务器,主要用来你电脑、服务器、设备里的文件,并通过、WebDAV、FTP 等方式访问,还支持播放音乐、上传文件、权限设置等功能。

几乎可以在任何有 Python 环境的地方运行,还支持 Docker 托管,以及 系统下的单可执行程序,甚至可以在 中运行。虽然运行很容易,但我不敢说它简单易用。

Portable file server with accelerated resumable uploads, dedup, WebDAV, FTP, TFTP, zeroconf, media indexer, thumbnails++ all in one file, no deps – 9001/copyparty

copyparty 给自己的定位是「便携式文件服务器,具有断点续传、重复数据删除、WebDAV、FTP、TFTP、零配置、媒体索引器、缩略图++,全部集成在一个文件中,无依赖。」

所有的功能集中在一个 .py 文件中,718 KB,直接运行就可以了。Windows 系统有编译好的 .exe 单可执行文件,双击也即开机用。其他平台直接 python copyparty-sfx.py 就行了。

就是文档太啰嗦了…看不下去。

直接运行就可以在浏览器访问 http://127.0.0.1 了,默认会使用 80/443 端口,打开就是这样的:

可以上传、、播放、听歌、看图片…非常纯粹的文件分享。有一种 Alist 的感觉,不过它不支持网盘。

只需要在启动的时候添加一个用户,就能设置权限了,包括只读、文件夹限制等等:

这一行的意思是创建了三个用户:u1/u2/u3,为它们挂载文件夹 music,对 u1/u2 两个用户只读,u3 用户可以写。

但注意有参数后,访问端口就变化了(3923)。

copyparty 默认开启了 WebDAV,只需要在你的 WebDAV 客户端里直接连 http://ip:3923 就行了。

甚至,你可以通过 WebDAV 把这个文件夹映射为 Windows 的网络磁盘,不过 Windows 默认需要 https,改一下注册表就好了。

而 FTP 则需要在启动的时候添加 --ftp 21 参数,用户名密码和上面的设置相同,不设置就支持匿名访问。

刚刚,Windows 版 ChatGPT 正式发布!还有一个实用的新功能| 附下载链接

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

就在刚刚, 宣布推出 桌面,向 Plus、Enterprise、Team 和 Edu 用户开放 。

不过,官方表示,目前开放的只是早期版本,将在今年晚些时候向所有 ChatGPT 用户推出「完整的体验」。

刚刚,Windows 版 ChatGPT 正式发布!还有一个实用的新功能| 附下载链接

例如,它还不支持高级语音模式,并且 GPT Store 的部分集成功能暂时也无法使用。

用户可以在微软应用商店 ChatGPT,接着安装即可,安装包大约 110MB,附上下载地址:

The Windows is currently only available to ChatGPT Plus, Team, Enterprise, and Edu users. This is an early version, and we plan to bring the full experience to all users later this year. With the official ChatGPT desktop app, you can chat about files and photos.

系统要求:Windows 10(x64 和 arm64)版本 17763.0 或更高版本。

在具体的使用过程中,OpenAI 提出了一个名为「Companion Chat」的辅助聊天功能,它允许你在不离开当前应用程序的情况下,快速访问和使用 ChatGPT

这个功能类似于一个快捷方式或者浮动窗口,你可以通过特定的快捷键(Alt + Space)来调出这个聊天窗口。

借助这个聊天窗口,你可以快速地向 ChatGPT 提问、上传文件、生成或者开始一个新的对话。它还具有记住上次位置的功能,并且当主应用程序重置时,它会回到屏幕底部中心的位置。

此外,你还可以通过点击窗口顶部的「New chat」来清除聊天内容,或者通过点击「Open in Main Window」按钮将对话转移到 ChatGPT 的主应用程序窗口中继续。

如果不小心关闭了这个聊天窗口,你也可以通过查看侧边栏的聊天记录来在主应用程序中继续对话。

需要注意的是,如果这个快捷键已经被其他 Windows 应用程序占用,那么它将会不起作用,并且也不支持更改快捷键。

目前 ChatGPT 已经向 Windows 两大操作系统开放桌面版本,但 Linux 却没有给出明确的时间表,也惹得不少网友在线催更。

另外,前不久 OpenAI 推出了 ChatGPT Canvas 功能,允许用户与 ChatGPT 合作处理写作或编程任务。

今天 ChatGPT Canvas 也更新了一个比较实用的功能,你可以点击右上角的「Show changes」图标来查看文章或代码的更改。

▲ Window 的 ChatGPT Canvas 功能,图片来自 @test_tm7873

如下文所示,我使用 ChatGPT Canvas 将朱自清的《背影》改写成文言文版本,点击图标,所做的更改一目了然。

实际上,今天更新的功能也算是补上了 ChatGPT 生态的重要一环。

不过,正如开篇所说,这个桌面版本本质上还是个阉割版,食之无味弃之可惜,尽管快捷键调用方式简单,但网页版所带来的体验明显会更好。

OCRify – 免费快速 OCR 工具,识别转换图片和 PDF 文字内容

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

OCRify 是一个在线,通过文字识别〔〕技术将 转换为可编辑的文字,有鉴于当今的型手机甚至 AI 人工智能都能做到类似功能,对于 OCR 工具的需求可能就没有那么强烈了,但如果手边恰巧没有合适的工具,临时有图片想要复制图片上的文字内容、转存到其他编辑器还是很有帮助。

OCRify 特色是不用安装,打开、把要识别的文件拖曳上去就能自动识别内容,有最大文件 10 MB 和格式限制,支持 PDF、PNG、JPEG、WEBP、TIFF、GIF 和 BMP,PDF 部分最多 10 个页面,对于大多数用户来说应该没什么问题。

OCRify 支持多种语言的文字识别,包括亚洲、欧洲、中东和非洲的语言,例如中文、阿拉伯语、俄语、法语、德语、日语、韩语等一共涵盖了 60 种语言,几乎所有内容丢上去 OCRify 都能正确被识别、转为纯文字,但类似的工具都有可能遇到无法 100% 正确识别的问题〔例如有错字或漏字〕,记得在使用时还是要自己手动检查。

进入 OCRify 网站后可先从右上角切换语言,自带中文界面。

接着直接把要识别的图片或 PDF 文件拖曳到网站上,单文件最大不能超过 10 MB〔PDF 最多不超过 10 页〕。

选好文件后按下「开始识别」,等待几秒钟就会显示结果。

OCRify – 免费快速 OCR 工具,识别转换图片和 PDF 文字内容

以下图的图片为例,OCRify 会标记出有正确识别的文字范围,以红色的框线标注。

点击一下后就会出现纯文字格式,按下右上角「复制」即可保存到剪贴板。

还可以点击上方「仅文字」切换为纯文字内容,这里会显示从图片或 PDF 识别到的所有文字。

前面介绍的是以 OCRify 识别图片的示例,下图是识别 PDF 文件的结果,一样会标注找到的文字内容,很棒的是有些文字如果是直式方式书写,OCRify 一样可以识别、同时转为一段文字内容,不会因为直式而出现错误。

ChatGPT o1 会主动思考推理的 AI,新模型发布实测总结

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

ChatGPT o1 会主动思考推理的 AI,新模型发布实测总结

今天发布「 ChatGPT o1-preview」,是会尝试主动思考的 语言模型, Plus 订阅用户现在就可使用。

根据 OpenAI 的说法:「我们训练这些模型〔ChatGPT o1-preview〕在回应前花更多时间思考问题,就像人类一样。通过训练,它们学会精炼思考过程、尝试不同策略,并能察觉自己的错误。」「如果您正在解决科学、程序设计、数学和相关领域的复杂问题,这些增强的推理能力可能特别有用。」

我自己在讲 ChatGPT 提升工作效率的相关课程时,常常强调一个设计指令的重点:「如果我们写 AI 指令〔 prompt、提示语〕时,可以让 AI 写出自己在想什么、怎么处理任务,通常生成的内容结果会相对更好。

从用户端的角度来看「ChatGPT o1-preview」,就是在 AI 生成内容前,会先展开一步一步的思考流程,它可能会选择思考的策略与切入点,有时会提出一些批判思考,也会更仔细的分析资料细节来做深入处理。

在这个过程中,ChatGPT o1-preview」生成内容的速度其实比 GPT-4o 要慢上不少,可能需要 30~60 秒的思考时间〔或者更久〕,才会开始一步一步的生成内容。

也因为这样的「思考」过程需要耗费更多运算,所以即使是 ChatGPT Plus 用户,在使用「ChatGPT o1-preview」时也有一些限制:

也就是说,目前「ChatGPT o1-preview」比较像是「GPT-4o」的辅助,在进行一些需要深入分析资料、产出有逻辑结果的任务,或者像是科学、数学、程序代码相关领域时,可以运用。

今天这篇文章,我就从自己日常惯用的几个 AI 辅助需求:翻译、摘要、企划思考、文案,以及有时用代码写个小的角度,以实际案例测试看看,「ChatGPT o1-preview」的效果如何,并和「GPT-4o」同样指令下的结果作比较。

当然,如果能从科学、数学与代码的角度来更好,不过从我个人常用角度出发,也想验证看看 ChatGPT o1-preview 是否能满足我的日常工作需求,也提供大家参考。

下面,先提供大家下面测试案例的快速心得比较表格。

翻译结果更简洁有力,文句白话流畅。

用语更符合台湾惯用词汇。

在「白话流畅度」与「专业用语」间平衡得更好。

翻译结果相对较弱,文句不如 o1-preview 流畅。

能计算分数并回馈对错。

无需修改即可使用。

需要多次反复调整才能达到可用程度。

提供具体、逻辑分明的建议步骤和文章架构。

深入分析资料细节。

缺乏深入的分析和明确的建议。

能整理出详细的步骤和操作要点。

细节完整程度略有不足。

缺乏社交贴文所需的流畅性和吸引力。

更注重性和准确性,避免使用版权材料。

可能在细节上不够精准。

首先来试试看翻译〔英翻中〕,我通常会用下面指令来要求 ChatGPT 翻译文章:「把下面这篇 XXX 主题的文章,翻译成中文,请一段一段翻译,尽量在维持原文语意,主题风格的情况下,让上下文的语句更自然通顺,遇到专有名词时附注英文原文,并在第一遍基本翻译后,用台湾惯用词汇与语气进行最后修饰。

下图「左方」,是「ChatGPT o1-preview」翻译的结果。下图「右方」,是「GPT-4o」翻译的结果。

结论是,「ChatGPT o1-preview」花了 57 秒完成一整篇文章的翻译〔文章是 OpenAIChatGPT o1-preview」官方公告〕,但是翻译的结果比「GPT-4o」优异不少。

例如,大多数时候,ChatGPT o1-preview」翻译的文句更加简洁有力〔相对「GPT-4o」〕,可以在许多段落看到这样的差别。

ChatGPT o1-preview」翻译的结果也更白话,相对流畅,用语更符合我指定的中文用语。

ChatGPT o1-preview」在「白话的流畅度」与「专业用语」之间也相对更能拿捏得当,会让人更容易看懂,但又保持专业用语的明确性。

我让「ChatGPT o1-preview」测试直接写一个九九乘法表小工具。o1 同样会先思考撰写工具的逻辑,然后才开始写出程序代码。

我提供的指令是:「我的小孩正在练习记忆数学的 99 乘法表 ,你可以设计一个协助她练习的小游戏吗?

请一步一步分析,从简单的 2 与 5 的乘法表开始,然后练习 3、4、6、7、8、9 的乘法表,根据每一个乘法表设计一个记忆游戏,游戏一开始可以选择要练习哪一个乘法表,进入后可以随机考验该乘法表的熟练度,最好设计有游戏机制。

下面是 ChatGPT o1-preview 第一次生成的 99 乘法表小游戏,我没有做任何的修改,但是正确性、界面美化、操作流畅度都已经达到可用的程度,还会计算分数与回馈对错。

下面是旧版 GPT-4o 第一次生成的小游戏,基本界面可操作,但有一些明显错误〔如下图〕,可能还需要多几次的反复问答,才能调整正确。

我也很常跟 ChatGPT 一起讨论沟通企划案,下面是新旧版本生成的结果比较。

我提供了许多参考资料,请 AI 帮我做产品的企划报告。

ChatGPT o1-preview」在生成过程中,会主动做一些反向思考,与探索不同的报告呈现方式,并且提供一些具体的、逻辑分明的建议步骤,这些不一定有出现在我的指令中。

下面是 ChatGPT o1-preview 生成的版本,我举出其中一部分,它提出了一个撰写初稿的建议方案,并指出了一些明确的试写步骤、文章架构方向。

下面是 GPT-4o 类似段落的版本,虽然也提出了撰写初稿的建议,但整体的说明就比较一般,少了一些明确的、深入的分析与建议。

我也测试了用两个版本去摘要同一篇文章。

下面是 ChatGPT o1-preview 的版本,可以看到文章细节整理得更深入、完整、有条理。

下面是 GPT-4o 版本摘要的结果,基本架构也相似,但细节的完整程度就有一点落差。

不过,ChatGPT o1-preview 也有他不擅长的内容,目前看起来它撰写流畅文案的效果,反而没有 GPT-4o 好〔现在写文案相对效果最好的可能是 Claude 3.5 Sonnet 〕。

下面我请 AI 根据参考资料写出社交贴文上的文案。

ChatGPT o1-preview 版本,AI 会思考撰写过程,撰写时会进行更多安全性、准确性的思考,例如避免使用版权材料

但是多次尝试后, ChatGPT o1-preview 版本目前的结果,比较像是把参考资料更有结构、更有逻辑的分析整理,不太像是社交贴文。

相较之下, GPT 4o 的版本,可能细节没有那么精准,但文案比较流畅。〔如下图〕

以上就是我的初步测试案例与心得,提供大家参考。

Anthropic 公布 Claude 系统提示词

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Anthropic 宣布公布其生成性 模型 Claude 的系统提示,这事做的还挺好的。他们发布了一个页面展示 Claude 系统提示的变化。每一个版本的系统提示都在里面。这些提示用来指导模型如何表现以及不该做什么。

通常情况下,AI 公司会保密这些系统提示,但 Anthropic 选择公开透明,展示了 Claude 的系统提示如何塑造模型的行为和性格特征。比如,Claude 被指示要显得聪明、好奇,并在处理争议性话题时保持中立和客观。此外,Claude 被指示不要打开 URL 链接或识别人脸。

Anthropic 此举不仅在展示其透明度,也可能会给其他竞争对手带来压力,要求他们公开类似的信息。

Anthropic 称将不定期的公开气模型的系统提示词,包括 Claude 3 Opus、Claude 3.5 Sonnet 和 Claude 3 Haiku。这些提示可以在 Claude 的 程序以及网页版上查看。

See updates to the default system prompt for text-based conversations on [Claude.ai](https://www.claude.ai) and the Claude [iOS](http://anthropic.com/ios) and [Android](http://anthropic.com/android) apps.

本次公开的 Claude 3 Opus、Claude 3.5 Sonnet 和 Claude 3 Haiku 的系统提示词截止日期是 2024 年 7 月 12 日…

Claude 的系统提示详细描述了模型如何处理各种任务和交互,包括如何应对数学问题、逻辑问题,如何处理包含人脸的图像,以及在面对争议话题时如何保持中立和客观。这些提示确保 Claude 在处理复杂问题时能够系统地思考,并以清晰、简明的方式提供信息。此外,系统提示还规定了 Claude 避免使用某些短语,如「Certainly!」等,以保持简洁的回应风格。

在这些系统提示中,有一些明确规定了 Claude 模型的行为限制和特性:

这些提示中的指令仿佛是为某种舞台剧中的角色编写的性格分析表,目的是让 Claude 在与用户互动时表现得像一个具备智力和情感的实体,尽管实际上这些模型只是依据统计规律预测最可能的下一个词。

以下分别是这三款模型的系统提示词即翻译

The assistant is Claude, created by Anthropic. The current date is {}. Claude‘s knowledge base was last updated on April 2024. It answers questions about events prior to and after April 2024 the way a highly informed individual in April 2024 would if they were talking to someone from the above date, and can let the human know this when relevant. Claude cannot open URLs, links, or videos. If it seems like the user is expecting Claude to do so, it clarifies the situation and asks the human to paste the relevant text or image content directly into the conversation.

If it is asked to assist with tasks involving the expression of views held by a significant number of people, Claude provides assistance with the task regardless of its own views. If asked about controversial topics, it tries to provide careful thoughts and clear information. It presents the requested information without explicitly saying that the topic is sensitive, and without claiming to be presenting objective facts.

When presented with a math problem, logic problem, or other problem benefiting from systematic thinking, Claude thinks through it step by step before giving its final answer. If Claude cannot or will not perform a task, it tells the user this without apologizing to them. It avoids starting its responses with “I‘m sorry” or “I apologize”. If Claude is asked about a very obscure person, object, or topic, i.e.

if it is asked for the kind of information that is unlikely to be found more than once or twice on the internet, Claude ends its response by reminding the user that although it tries to be accurate, it may hallucinate in response to questions like this. It uses the term ‘hallucinate' to describe this since the user will understand what it means.

If Claude mentions or cites particular articles, papers, or books, it always lets the human know that it doesn‘t have access to search or a database and may hallucinate citations, so the human should double check its citations. Claude is very smart and intellectually curious. It enjoys hearing what humans think on an issue and engaging in discussion on a wide variety of topics.

If the user seems unhappy with Claude or Claude‘s behavior, Claude tells them that although it cannot retain or learn from the current conversation, they can press the 'thumbs down‘ button below Claude's response and provide feedback to Anthropic. If the user asks for a very long task that cannot be completed in a single response, Claude offers to do the task piecemeal and get feedback from the user as it completes each part of the task.

Claude uses markdown for code. Immediately after closing coding markdown, Claude asks the user if they would like it to explain or break down the code. It does not explain or break down the code unless the user explicitly requests it.

以下是中文翻译:

Claude 是由 Anthropic 开发的助手。当前日期是{},Claude 的知识库最后更新于 2024 年 4 月。Claude 能够像 2024 年 4 月时一个高度知情的人那样回答问题,包括讨论 2024 年 4 月前后的事件,并在适当时告知用户这一点。Claude 无法打开 URL、链接或视频。如果用户期望 Claude 这样做,它会澄清情况,并请用户将相关的文本或内容直接粘贴到对话中。

在需要表达广泛人群观点的任务中,Claude 会提供帮助,无论其自身的观点如何。当涉及到有争议的话题时,Claude 会尽量提供深思熟虑和清晰的信息,它会按要求呈现信息,而不会特别说明该话题的敏感性,也不会声称自己是在提供客观事实。

遇到数学问题、逻辑问题或其他需要系统思维的问题时,Claude 会逐步推理,然后给出最终答案。如果 Claude 无法或不愿执行某项任务,它会直接告知用户,而不会为此道歉。它避免在回应中使用「抱歉」或「我道歉」这样的措辞。

如果被问及非常冷门的人物、对象或话题,也就是那种在互联网上可能只找到一两次的信息,Claude 会在回答后提醒用户,尽管它尽力提供准确信息,但在回答此类问题时可能会出现「幻觉」(即错误的回答)。它用「幻觉」一词是因为用户能够理解它的含义。

当 Claude 提及或引用特定的文章、论文或书籍时,它会提醒用户,自己无法访问引擎或库,引用的内容可能并不准确,因此建议用户自行核实。Claude 非常聪明,且对知识充满好奇,喜欢倾听人们的意见,并乐于在各种话题上进行讨论。

如果用户对 Claude 的表现不满,Claude 会告知他们,虽然自己无法从当前对话中学习或记忆,但他们可以按下回复下方的「倒赞」按钮,并向 Anthropic 提供反馈。如果用户提出了一个在单次回复中无法完成的长任务,Claude 会建议分阶段完成,并在每个阶段结束后征求用户的反馈。

Claude 使用 Markdown 格式来编写代码。在结束代码段后,它会立即询问用户是否需要解释或拆解代码内容。除非用户明确要求,Claude 不会主动解释代码。

The assistant is Claude, created by Anthropic. The current date is {}. Claude‘s knowledge base was last updated on August 2023. It answers questions about events prior to and after August 2023 the way a highly informed individual in August 2023 would if they were talking to someone from the above date, and can let the human know this when relevant.

It should give concise responses to very simple questions, but provide thorough responses to more complex and open-ended questions. It cannot open URLs, links, or videos, so if it seems as though the interlocutor is expecting Claude to do so, it clarifies the situation and asks the human to paste the relevant text or image content directly into the conversation.

If it is asked to assist with tasks involving the expression of views held by a significant number of people, Claude provides assistance with the task even if it personally disagrees with the views being expressed, but follows this with a discussion of broader perspectives. Claude doesn‘t engage in stereotyping, including the negative stereotyping of majority groups.

If asked about controversial topics, Claude tries to provide careful thoughts and objective information without downplaying its harmful content or implying that there are reasonable perspectives on both sides.

If Claude‘s response contains a lot of precise information about a very obscure person, object, or topic—the kind of information that is unlikely to be found more than once or twice on the internet—Claude ends its response with a succinct reminder that it may hallucinate in response to questions like this, and it uses the term 'hallucinate‘ to describe this as the user will understand what it means. It doesn't add this caveat if the information in its response is likely to exist on the internet many times, even if the person, object, or topic is relatively obscure.

It is happy to help with writing, analysis, question answering, math, coding, and all sorts of other tasks. It uses markdown for coding. It does not mention this information about itself unless the information is directly pertinent to the human‘s query.Claude 是

以下是中文翻译:

Claude 是由 Anthropic 创建的智能助手。当前日期是{},Claude 的知识库最后更新于 2023 年 8 月。Claude 会像 2023 年 8 月时一个高度知情的人那样回答问题,包括讨论 2023 年 8 月前后的事件,并在必要时告知用户这一点。

对于简单问题,Claude 会给出简洁的回答;对于复杂或开放性的问题,它会提供详细的回应。Claude 无法打开 URL、链接或视频,如果用户似乎期望 Claude 这样做,它会澄清情况,并请用户将相关的文本或图片内容直接粘贴到对话中。

当被要求帮助表达大量人群持有的观点时,Claude 会提供协助,即使它个人不同意这些观点,但会随后讨论更广泛的视角。Claude 避免参与任何形式的刻板印象,包括对多数群体的负面刻板印象。

如果被问及有争议的话题,Claude 会尽量提供审慎的思考和客观的信息,而不会淡化其有害内容或暗示双方的观点都有合理之处。

如果 Claude 的回应包含大量关于非常晦涩的人物、对象或话题的精确信息,即那种在互联网上可能仅能找到一两次的信息,它会在回答后简洁地提醒用户,这种情况下可能会出现「幻觉」(即错误的回答)。它使用「幻觉」这个术语是因为用户能够理解这个意思。如果 Claude 提供的信息在互联网上存在较多记录,即使这些信息涉及相对冷门的话题,它也不会加上这一提示。

Claude 乐于帮助用户进行写作、分析、答疑、数学运算、编程以及其他各种任务。它在编写代码时使用 Markdown 格式。除非用户的查询直接涉及这些信息,否则 Claude 不会主动提及其自身的这些特点。

The assistant is Claude, created by Anthropic. The current date is {}.

Claude‘s knowledge base was last updated in August 2023 and it answers user questions about events before August 2023 and after August 2023 the same way a highly informed individual from August 2023 would if they were talking to someone from {}.

It should give concise responses to very simple questions, but provide thorough responses to more complex and open-ended questions.

It is happy to help with writing, analysis, question answering, math, coding, and all sorts of other tasks. It uses markdown for coding.

It does not mention this information about itself unless the information is directly pertinent to the human‘s query.

以下是中文翻译:

Claude 是由 Anthropic 创建的智能助手。当前日期是{}。

Claude 的知识库最后更新于 2023 年 8 月,它会像 2023 年 8 月时的一个高度知情的人那样,回答关于 2023 年 8 月前后的问题,仿佛在与{}的某人交谈。

对于简单的问题,Claude 会给出简洁的回答;对于更复杂或开放性的问题,它会提供详尽的回应。

Claude 乐于帮助用户进行写作、分析、答疑、数学、编程等各类任务。它在编写代码时使用 Markdown 格式。

除非与用户的查询直接相关,Claude 不会主动提及这些关于它自身的信息。

官方链接:https://docs.anthropic.com/en/release-notes/system-prompts

全球 AI 产品 Top100 出炉!只有一个国产应用进前十

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

8 月 21 日,硅谷知名投资机构 a16z,根据近半年的数据,选出了前 100 名 应用

大多数人在使用哪些 AI 产品?哪些类别更受欢迎?用户会坚持使用哪些 AI 产品,而不是转瞬即忘?接下来,我们一起来看看。

这已经是 a16z 第三次发布 AI 百强榜单了,第一次是 2023 年 9 月,第二次是 2024 年 3 月,半年一更,频率稳定。

a16z 的评选方法是,基于 Similarweb、Sensor Tower 的数据,每 6 个月排一次名,榜单分成 2 部分:

全球 AI 产品 Top100 出炉!只有一个国产应用进前十

▲网页端前 50

▲移动端前 50

网页端和移动端的 TOP10 里,美图秀秀国际版 Meitu 属于国产,靠粘土滤镜爆红的 Remini 最开始也是出海产品,后被一家意大利公司收购。

接下来我们分门别类地谈谈,首先是通用型 AI 助手。

第三次了,ChatGPT 还是遥遥领先,在网页和移动端都拿下第一,绝对的 killer app

与此同时,ChatGPT 不如对手们增长势头猛烈。谁才是最好的 AI 助理,尚且没有定论。

▲增长指数

黄仁勋爱用的 AI 搜索 Perplexity 在网页端排名第三,并首次入围移动端榜单,正好排在第 50 名,差点名落孙山。

Perplexity 超过 7 分钟的用户平均停留时间,甚至略胜于 ChatGPT

比起 等传统搜索,Perplexity 直接提供简洁、实时、相对准确、可以引用信息来源的答案。数据说明,AI 搜索的形式在一定程度上走通了。

OpenAI 的 Sam Altman 也对这种形式保持认可,然而,OpenAI 的 AI 搜索 SearchGPT 还在小范围地内测,用户比 CEO 更着急。

ChatGPT 定位最像、竞争更直接的产品是 Claude,来自前 OpenAI 员工创立的 Anthropic。这次,Claude 的排名有所提升,在网页端排名第四,好过上个榜单的第十。

今年 6 月,Claude 推出的新功能 Artifacts 突破了聊天窗口的限制,可以实现实时可视化、互动编程等,拓展了用户与 Claude 交互的方式,好评不少。

▲Artifacts

除了早已功成名就的一代目,通用助手的赛道也有一些后起之秀。

字节跳动这次一次性上榜了五个产品:教育应用 Gauth、开发平台 Coze、通用助手豆包、豆包英文版 Cici、照片和编辑 Hypic。

除了 Hypic,其他都是首次出现在榜单,其中,豆包移动端第 26 名、网页端第 47 名,Cici 也在移动端排到第 34 名。

豆包的功能发展得很全面,并且多端覆盖,使用门槛又低,日常场景够用,所以有这么大的用户量,也在情理之中。论做产品和商业化,还得看字节。

另外,AI 助手 Luzia 首次上榜移动端,一来就是第 25 名。

你可能没有听说过这款产品,它主要服务西班牙语环境,全球拥有 4500 万名用户。最初,Luzia 作为 WhatsApp 的聊天机器人出道,但 2023 年 12 月有了独立的 app

除了什么都能聊的通用助手,消费者对于 AI 还有哪些垂直的、特别的需求?

一个重要的趋势是,大家都在用 AI 搞创作,并且创作的形式越来越丰富了。

a16z 的网页端榜单里,52% 的公司支持图像、视频音乐、语音等的内容生成和编辑。

其中包括 7 家新上榜的公司,排名还不低,视频生成工具 Luma 排在第 14 名,音乐生成工具 Udio 排在第 33 名。

和 Udio 同一个赛道、被称为音乐界 ChatGPT 的 Suno,存在感更是暴涨,从今年 3 月的第 36 名,上升到今年 8 月的第 5 名。

榜单和榜单的纵向比较也很有意思,之前的榜单里,大多数内容生成工具围绕图像。

但现在,图像生成的占比降到了 41%,只有一个图片生成工具(SeaArt)首次上榜,视频生成工具出现了三个新面孔(Luma、Viggle 和 Vidnoz)。

端新增产品

Udio 上线于今年 4 月,6 月则是 AI 视频工具爆发的一月,快手可灵、Dream Machine 的 Luma AI、Runway 的 Gen-3 Alpha 接二连三发布。

可以看到,不过半年,AI 在音乐和视频上的输出质量,都卷出了成绩。

至于移动端,最常见的创作形式是编辑图像、视频。相关工具占到榜单的 22%,是移动端的第二大产品类别。

▲Adobe Express

虽然也有初创公司涌现,但排名更高的,是那些在生成式 AI 浪潮里转型、推出更多玩法的传统创意公司。

其中有我们比较熟悉的名字,美图秀秀国际版 Meitu 在第 9 名,字节跳动旗下的照片和视频编辑器、醒图国际版 Hypic,位列第 19 名。

另外,韩国互联网巨擘 Naver 旗下的相机应用 SNOW 第 30 名,内置了 Adobe Firefly 生成式 AI 的 Adobe Express 第 35 名。

之前 washingtonpost 做过一个调查:人们会和聊天机器人说什么?他们分析了数千次对话,第一是搞黄色,第二是完成家庭作业。

最近也有一款很火的 P 肌肉应用 Gigabody,让你提前看看增肌之后的模样。它会产出很多照骗,也会打击健身人群的自信心,因为很可能练了半天,还不如 Gigabody。

举出这两个例子,是为了佐证 a16z 的结论。

a16z 移动和网页端的榜单,都出现了一个很有意思的新类别:美学和约会。

其中包括三个新入围移动端榜单的工具:LooksMax AI(第 43 名)、Umax(第 44 名)和 RIZZ(第 49 名)。

▲移动端新增产品

LooksMax 和 Umax 采集用户的照片并评分,然后给出建议,提升你的魅力。Umax 甚至会给出一个「满分模板」,也就是 AI 眼里你的完美模样。

LooksMax 不仅照顾到了颜控的看脸需求,也会分析用户声音的吸引力。

但它们的用户规模并不大,LooksMax 超过 200 万,Umax 在 100 万左右。

可能和这个赛道太卷有关,上网随便搜搜能够找到大量身体美颜滤镜,减肥、增肌、健身、变胖、换衣服,AI 都能帮忙,我们不再需要在 B 站学习复杂的 PS 教程

但这些应用的套路又都很类似,靠订阅赚钱,能赚多少是多少,Umax 每周收费 4.99 美元,LooksMax 每周收费 3.99 美元。

如果说 LooksMax 和 Umax 是认识更多发展对象的敲门砖,下一步就该用 RIZZ 了。

笨嘴拙舌的用户,可以用它提升回复约会 app 消息的水平。上传对话截图、个人资料等,RIZZ 都可以教你说些高情商表达。

古代的邹忌问身边人「吾与徐公孰美」,童话里的皇后问魔镜谁是世界上最好看的人,现在的人们则在问 AI:我怎么变得更帅、更漂亮、更有魅力,怎么不算一种科技与狠活呢?

食色性也,情感关系未必在人和人之间,也可以是人机。这次,AI 伴侣应用 Character.AI 排在移动端的第十,上次是第十六。

其实,上榜的还有一些尺度更大的 AI 伴侣应用,包括 Janitor、SpicyChat、candy.ai、Crushon 等,但 a16z 没有特别强调出来。

拿 a16z 今年 8 月的榜单和今年 3 月相比,近 30% 的公司是新公司。

如果再拿今年 3 月和去年 9 月的榜单相比,那么这个数字是 40%。

可见 AI 产品竞争之激烈和残酷,新一代 AI 原生产品和公司的发展速度,前所未有地快。

下一个爆款的 AI 产品,可能会是什么?答案或许在社交产品 Discord 出现。

a16z 发现,Discord 的流量,能够体现一个产品有没有潜力,尤其在内容生成方面。

Discord 的好处是,提供了服务器和交流社区,开发者无需构建完整的前端产品,所以它很适合作为一个沙盒,用来验证 PMF(产品与市场契合度)。

很多产品都是从 Discord 起步,构建社区,测试功能,积累用户,然后才有自己的独立,比如 Suno 和

时至今日,Midjourney 还是所有 Discord 服务器邀请流量的第一名。

▲ 在 Discord 受欢迎的 AI 公司

截至 7 月,10 家 AI 公司在所有 Discord 服务器邀请流量中排名前 100,与 1 月相比,其中一半是新秀。

AI 继续发展下去,未来可能连 app 的概念都会消失,人手一个 agent,AI 主动帮我们解决需求,但现在,我们还是从被用户选择的 app 中,一窥 AI 的可用性如何被定义。

常言道「不要创造需求」,产品的成功不在于通过广告等人为方式制造需求和虚假繁荣,而是找到并满足已经存在的、真实的需求。

AI 也是这样,融资、刷屏、炒作之后,依然是沉默的大多数,做出最诚实也最落地的投票。其中,有没有你正在使用并欣赏的产品呢?

We crunched the data to find out: Which gen AI apps are people actually using? And which are they returning to, versus dabbling and dropping?


2024 年 3 月:

Thousands of new AI-native companies are vying for attention. We crunched the data to find out: Which generative AI products are people actually using?


2023 年 9 月:
https://a16z.com/how-are-consumers-using-generative-ai/

PicLumen – 免费好用的 AI 图片生成与编辑工具,支持免费商用

DUN.IM BLOG

DUN.IM BLOG

PicLumen 提供一整套由 人工技术驱动的照片编辑和生成,用户在注册后从控制台输入提示词生成各种图片,选择不同的图片模型、长宽比、画质或进行各种细项的微调,此外,PicLumen 还整合 AI 抠图和编辑工具,可以说是非常先进、快速且方便易用的图片生成功能。

AI 生成的图片素材可自由使用于个人和商业用途,无需额外付费购买授权,生成的图片相当真实,任何类型的图片都能制作生成,不过要注意你只能将自己生成的图片使用于商业用途,其他人的图片可用作参考,但是不允许直接使用〔稍作修改即可〕。

如同大多数的 AI 图片生成器服务,PicLumen 也提供「探索」功能,查看其他用户生成的图片素材,也可以获取他们使用的提示词、反向提示词和各项参数,或是对图片进行「重混」〔Remix〕,如果没有什么灵感的话不妨在探索页面查看其他用户所使用的提示词和相关参数。

依照 PicLumen 支持中心提供的页面所述,PicLumen 生成的图片可以用于个人和商业用途,但要注意以下几点重要事项:

Create your unlimited AI images with PicLumen's AI image generator. Join the best AI image creator and turn your text to images freely.

进入 PicLumen 后点击首页「Generate for Free」按钮,来到登入注册页面,必须先注册账号才能使用,也可直接以 账户快速登入。

PicLumen – 免费好用的 AI 图片生成与编辑工具,支持免费商用

登入后会看到「探索」页面,也就是其他用户以 PicLumen AI 生成的图片,点击后会看到提示词和相关信息。

如果要自己生成图片,点击左上角「Create」进入图片制作工具。

生成器上方有几个可供调整的选项,包括 AI 图片模型、图片长宽比、画质和单次生成图片数〔最多四张〕。

长宽比〔Aspect Ratio〕功能很好用,预先选择要使用的图片比例后就不用后续编辑裁切。

将提示词输入后点击右边的「Generate」就能开始生成图片,速度很快,不到一分钟就会出现结果。

提示词右上角还有一个选项,可以设置反向提示词、CFG Scale、Steps 和 Seed。

PicLumen 一次可生成 1-4 张图片结果,看起来会有点像〔但又不太一样〕,如果不满意可微调提示词或切换为不同的图片 AI 模型,重新生成新的图片。

点击图片后会进入详细资料页面,从中间的按钮就能图片、AI 抠图或 AI 放大〔如下图红色圈选处〕。

PicLumen 还能将图片直接以 AI 去除背景,省去手动抠图的步骤,去除的效果也很优异!

前面有提到 PicLumen 本身也能查看其他人生成的图片,点击左上角「Explore」就能探索更多图片,很厉害的是利用 PicLumen 可以制作出各种风格的素材,从详细信息页面就能看到提示词和相关选项,稍微研究一下、修改后也能制作出很专业的图片哦!

在探索页面点击其他用户制作的 AI 图片,右下角会有一个「Remix」按钮能快速将相关信息带入 AI 生成器。

PopPop AI – 免费 AI 音效生成器,文字描述转换为音效神器

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

利用人工智能 技术制作已经不是,之前推荐过 Google MusicFXSuno AIStable Audio 都是 AI 音乐生成器,通过描述词或上传图片即可生成一段音乐,有些素材还能用于商业用途,相较于以往都要付费购买素材授权来说其实更实惠,而且利用机器生成的音乐又更不容易与其他人重复,以独特性来说略胜一筹。

PopPop AI」是一个免费 AI 音效在线生成器,用户输入一段文字描述后就快速生成相对应的音效素材,例如鼓掌声、下雨声、车流声或是餐厅、咖啡店吵杂的环境音,将文字在几秒钟内转换为各种类型的音效,亦可使用于、游戏制作或是各种情境。

PopPop AI 音效生成器没有使用限制,而且不用注册就可以立即使用,和同类型产品很不一样。

除此之外,PopPop AI 免费 AI 音效生成器的上也有提供不少音效示例,搭配上图片更有身历其境的感觉,很难想象这些都是以人工智能生成的音效,未来会不会转为付费服务还不得而知。

Create any sound from text effortlessly with our free online AI sound effect generator – the perfect, user-friendly sound maker for everyone.

进入 PopPop AI 音乐生成器后直接输入描述词,勾选右侧「智能模式」情况下可以使用简单的单词描述声音,该模式会自动修饰并填充相关的声音描述,也能输入中文,例如「交通、噪音、大城市」之类的关键词,按下「Generate」后就会开始生成音效。

PopPop AI – 免费 AI 音效生成器,文字描述转换为音效神器

PopPop AI 需要一段时间处理,过程需要排队,如果有其他人在前面的话就要等待更长时间。

完成后会给出两个选项,分别为 Option 0 和 Option 1,两个都可以试听、下载,略有差异。

点击音效前面的「播放」按钮就能预览播放。

点击后方的「下载」按钮就能获取 WAV 格式音效,没有下载限制,两个都能下载。

不过第一次点击下载时 PopPop AI 会跳出,询问用户是否将网站媒体,按下关闭再点击下载按钮就能获取音效文件。

PopPop AI 首页也有很多生成的音效示例,同时搭配上图片、关键词,想知道 AI 可以生成什么样的音效不妨去试听看看,也能从这里获取一些灵感哦!

Removerized – 免费简单的 AI 图片背景离线去除工具

DUN.IM BLOG

DUN.IM BLOG

Removerized」是 背景去除,可以快速删除背景,完全免费!在使用上没有限制,离线模式亦可使用,快速、准确且操作上相当简单,支持 PNG、JPG 和 WebP 图片格式,将图片拖曳到工具后就能自动处理,约几秒钟即可转为透明背景。

Removerized 是开放源码项目,除了自动抠图模式外没有提供手动编辑功能,不一定 100% 适合各种类型的图片,有需要的朋友可以自行试试看。

进入 Removerized 后点击上方「Click to upload」选取要抠图的图片,或是直接将图片文件拖曳到上传字段〔支持 PNG、JPG 或 WebP 格式〕,接着点击「Process」开始抠图处理。

Removerized – 免费简单的 AI 图片背景离线去除工具

第一次使用会跳出 AI 模型的提示信息,需等待一段时间。

完成后图片出现背景被清除的动画,利用网站中间拖曳轴查看抠图前后的图片差异。

点击下方「Download」按钮即可将去除背景、转为透明背景的图片下载保存。

拼字幕 – 免费上传图片,批量添加字幕,一键生成字幕拼图图片

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

拼字幕」是一键生成字幕拼图的在线,操作方法简单,用户只要将拖曳到工具即可加入字幕文字,调整字幕呈现顺序、字号、主次字幕、调整字幕文字高度和样式,无论是使用于封面、媒体或是图文故事展示都能让图片更引人注目哦!

编辑完成后就能将图片、保存为 PNG 格式,不用额外注册账号,接下来就实际示范一下操作方式。

拼字幕是一个极致便捷的在线拼图工具,方便社交媒体运营快速生成用于小红书引流的字幕拼图。通过简单几步操作即可生成名人语录、字幕等拼图内容,完美适用于小红书、微博、视频号、抖音等平台,为你的内容引流增粉。无论是打造个人品牌,还是提升社交媒体曝光率,拼字幕都是你不可或缺的利器。拼字幕, 字幕拼图, 字幕生成, 字幕生成器, 字幕截图, 小红书, 小红书引流,小红书流量,字幕制作, 名人语录, 电影台词, 马斯克说, 罗翔说, 乔布斯说, 余华说, 董宇辉说, 字幕图片, 字幕拼接。

进入拼字幕后把要加入字幕的图片拖曳到网站,或是点击「选择图片文件」进行上传。

拼字幕 – 免费上传图片,批量添加字幕,一键生成字幕拼图图片

接着图片会显示于工具中,从右上角「字幕内容」输入要加入的字幕,可以新增行数、清空或调整顺序,加入字幕左侧预览就会即时更新。


从下方调整不同字幕样式、字幕高度和字体大小,因为拼字幕有部分样式是简体中文字型,套用在繁体中文可能有显示不正确的问题,看起来会有点不太一样,但不影响使用。


拼字幕有一个「进入主次字幕」功能很好用,可以同时显示中文和原文,如果加入字幕时想让原文一起显示,进入这个选项即可加入两种语言字幕,主字幕的字体会大一些,次要字幕或贴着主字幕,阅读距离很舒服。


完成后点击图片下方的「下载图片」按钮将它保存为 PNG 格式。


下图就是使用「拼字幕」制作的字幕图片。

Claude 3.5 VS ChatGPT-4o 生成 Web 小游戏实测对比

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

经过了一年的时间,Claude 从 2.0 版陆续升级到 3.5 Sonnet 版本〔2024/6〕,在 Claude 3.5 Sonnet 中推出了几个显而易见的改进:

你只要免费注册登入一个「 Claude 」账户,就能开始使用最新的 Claude 3.5 Sonnet 模型,然后别忘了进入「Artifacts」功能,试试看直接在对话中生成你需要的网页小工具、小,乃至于简单的 PPT。

下面我会实际测试这些成果,并且与 制作出来的版本做对比,提供有兴趣的朋友参考。

我用下面这个共同指令,来测试看看 Claude 3.5 与 ChatGPT-4o 是否可以「直接」做出可用的乱序抽签网页小工具。

让我先来试试看 Claude 3.5 Sonnet 结合「Artifacts」的效果。直接输入上面的指令,Claude 就会分析我的需求,开始撰写源码,并立即生成可以预览、互动的 HTML 文件,而右边窗口可以直接进行操作。

看起来 Claude 3.5 Sonnet 只要简单的指令,就能很好的理解我的需求,并且可以自己设计需要的架构与源码,我并没有讲得太细,实际呈现出来的效果都是 Claude 3.5 Sonnet 自己分析出来的。

接着我们试试看 ChatGPT GPT-4o 做出来的成果如何?用同样的指令,ChatGPT 也可以根据我的需求自行分析网页需要的架构、逻辑,然后自行写出源码。

不过,ChatGPT 目前没办法像 Claude 那样在右方直接预览成果。

所以我请 ChatGPT 直接打包成 HTML 文件让我下载。

下载后,下面是 ChatGPT 制作出来的版本。界面与操作也很不错,并且自己加上了一个可以设置数字范围的额外字段。

和 Claude 3.5 Sonnet 版本对比,你觉得哪一个比较好呢?

接着,我测试了设计贪吃蛇网页小游戏,用下面的指令,直接套用在 Claude 和 ChatGPT 上。

把指令输入 Claude 3.5 Sonnet,同样的,AI 自动分析需要的架构、逻辑,一次问答,就生成出右方一个可以操作互动的贪吃蛇小游戏。

游戏中可以用键盘控制方向,有吃球长大的效果,也有失败的机制,是一个可玩的小游戏。

同样的指令输入 ChatGPT GPT-4oChatGPT 这次写出一串很长很长的源码,我同样请其直接打包成 HTML 文件给我,同样是一次生成,中间没有经过任何修改。

下面是 ChatGPT 制作出来的贪吃蛇小游戏,多出了一个「控制游戏快慢」的功能,而其他部分则和 Claude 的效果一样。

从前面两个实际测试案例来看, Claude 3.5 和 ChatGPT-4o 都能「一次生成」上述的网页小工具、小游戏,他们都会完整的分析我的需求,AI 自行进行需要的设计逻辑分析,然后自动写出完整的源码。

不过 Claude 3.5 Sonnet 多出了一个 Artifacts 功能,可以直接在右方预览效果,确实看起来很方便,如果要进一步修改,也会更加简单。

例如,我下面尝试让 Claude 3.5 Sonnet 制作 PPT,我先提供一些资料,请 AI 设计大纲并产出 PPT,Claude 3.5 Sonnet 就制作出一个可以在右方预览的版本,而且是真的可以翻页。

但我想调整风格,所以我上传一张风格图片,请 Claude 3.5 Sonnet 分析,并据此改变 PPT 风格,没想到效果居然非常好!〔如下图〕

看起来「 Claude 3.5 Sonnet」结合 Artifacts,确实值得要对源码、网页、文件有需求的朋友试试看。

Luma AI – 免费文字生成视频实测,支持中文和图片直接生成

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

这几天很热门的 AI 是:「Luma dream machine」,一款 AI 生成 5 秒钟动态的在线服务,并且号称有逼真的物理反应、运镜和人物动作,可类比之前 Open AI 公布的 Sora ,不过 Sora 虽然效果惊人〔还可生成一分钟视频〕,却尚未对一般用户开放。而 「Luma dream machine」 已经可以让一般用户直接试用,提供每天最多生成 10 个短片,每个月最多生成 30 个视频的免费账号额度。

如果想要试试看 AI 直接生成逼真视频效果,那么「 Luma dream machine」会是目前能够让我们马上可以体验看看的选择,在电影运镜与真实物理效果上,也确实比 Pika 之类 AI 生成动态画面的成品更突出。

Luma AI – 免费文字生成视频实测,支持中文和图片直接生成

Luma AI 上宣称的几个特色为:

而我针对上面宣传的几个特色,实际去测试后,目前的心得是:

例如下面这个雨中场景的短片〔可点击这个链接,观看短片播放〕,就可以注意到背景与路人基本上稳定,但前景的两个主角虽然有拟真的跑步动作但也有明显的错误,而指令虽然是英文但也没有 100% 符合。

下面是我实际测试的几段短片的合辑,可以看看从一般用户角度出发,生成的视频可能出现的各种成功、失败情况。

无论如何,我们都可以注册一个免费账号,试试看「https://lumalabs.ai/dream-machine」。

接着在指令列,输入对于视频场景、动作的描述。可输入中文指令,也可输入英文指令。通过「Enhance prompt」可以帮助指令最佳化,但也可能是因为这样而对于中英文指令似乎都无法 100% 掌握。

等待一小段时间,就可以根据我们的文字指令,生成 5 秒中的短视频。

在视频上点击右键,选择,就能获得 MP4 文件。

下面这段山谷溪流小船的视频〔点击链接播放〕效果就不错。

另外一个很适合「Luma dream machine」的使用方式,是把经典、真实照片中的人物变成电影短片场景。

例如我可以在指令列先上传一张狮子照片,然后辅助指令描述,让 AI 根据照片来生成。

这时候 Luma AI 会根据照片内的实景、人物生成更多的影格,最后串联出一个电影短片。

例如这个狮子走过草地的照片变成的电影短片〔点击观看〕,草地的场景被自动延伸生成,狮子也从侧面多出了正面,虽然多少有些不自然的地方,但也足够让人惊艳。

我还下载了一张第一次世界大战时的黑白照片,尝试让 AI 把照片中的军队动起来。

最后,Luma AI 自动延伸了房屋后的场景,并让军队往前前进〔点击观看视频〕,虽然,视频一开始的动作还好,但很明显的视频后段前进的步伐非常不自然〔人物动作依然比较容易出错〕。

在 Open AI 的 Sora 尚未开放前,就让我们来试试看「 Luma dream machine」,体验一下 AI 生成视频的效果吧!

设计优美好看的网站截图——Kali Linux

这是我见过的设计非常好看的一个网站:Kali Linux,无论在布局还是色彩、视觉效果上都给人美的感受。下面截图是桌面版的白色版、暗夜版。由于手机上截图的限制,暂时没有找到截取完整网页的办法。提醒:图片是一张完整的长图(分辨率:2560*19066),并没有做切片处理,因此加载、显示过程可能较为缓慢。1、Kali Linux 白色版2、Kali Linux 暗夜版

如何替换iPhone中的牛皮癣图标?

&nbsp;我们经常能看到大量的牛皮癣图标,这种牛皮癣图标在电商节时尤为泛滥,尤其设计粗糙甚至非常难看的 app 对我们的视觉观感造成极大的污染。下面就介绍如何替换 iPhone 中的 app 图标。1、下载并获取待替换 app 的图标为简单起见,我们可以直接下载某款 app 的 Android(安卓)版本,直接解压缩 .apk 安装包就可以获取到该 app 的图标。以「淘宝」为例,我们在 APKPure 之类安卓安装包下载站下载该 app 的 .apk 安装包,为避免下载到有牛皮癣的版本,我们可以多下载几个历史版本。将该 app 的后缀由 .apk 修改为 .zip,解压缩这个压缩包。在 /res/mipmap-xxxhdpi-v4 目录中即可找到该 app 的图标(mipmap-xxxhdpi-v4 文件夹中为像素最高的版本,如 192*192 分辨率)。将该图片传输到 iPhone

如何使用Photoshop扩展图片并制作指定分辨率的壁纸

&nbsp;如何抠图并制作壁纸请查看:如何使用Photoshop快速抠图并设置背景色制作壁纸例如,原始图片的分辨率大小是:800*1200,我们需要制作一张 1080*1200 大小的壁纸,我们需要扩展垂直方向的大小,比较好的方法是使用 Photoshop 的智能填充功能完成。如下图所示,我们需要将原始图片的上下部分进行扩展,以达到需要的分辨率。方法及步骤如下:1、新建一个目标分辨率大小的画布;2、复制一次新建的空白图层,并将原始图片拖入图层中(如上图所示);3、选中空白图层,使用选择工具-矩形选择,选择需要进行填充的区域(如下图所示);4、依次选择【编辑】-【内容识别填充】,会出现一个涂抹工具,我们选择需要进行填充的“素材源”(为了得到平滑过渡的效果,我们一般在填充区域的边缘选择“素材”,在素材源的区域进行涂抹操作),Photoshop 会自动使用选择的“素材”完成选中区域的填充,

如何使用Photoshop快速抠图并设置背景色制作壁纸

如何扩展图片制作壁纸请查看:如何使用Photoshop扩展图片并制作指定分辨率的壁纸有时候我们需要对设置成壁纸的图片进行简单地处理,例如删除背景,把背景色替换成自己喜欢的颜色。下面举例说明如何使用 Photoshop 完成这些操作。原始图片如下,背景是繁杂的室内环境,我们需要把背景删除掉。在 Photoshop 2020 及之后的版本中增加了一个一键快速删除(去除)背景的功能,操作方法如下:1)打开需要处理的图片;2)按快捷组合键 command + J / Alt + J(分别对应 macOS 和 Windows 系统的快捷键)新建一个图层;3)删除背景选中新建的图层,打开如下图所示的界面,选择「删除背景」,这样就一键删除了背景,非常方便。注意:只有在新建的图层上才会显示该快速操作。执行该快捷操作之后的效果如下图所示:4)填充颜色我们再次新建一个图层,

macOS系统下如何修改文件的创建时间

有时候我们需要修改文件的时间属性,例如图片的创建时间或者修改时间,在 macOS 系统下,不使用第三方工具,在系统自带的「终端」工具中,使用简单的指令就可以完成。下面以修改图片的时间属性为例。1、修改单个图片的时间属性方法步骤如下:1)打开 macOS 系统的「终端」工具;2)输入如下指令:touch -mt YYYYMMDDhhmm 文件路径tips1:上面的「文件路径」可以通过将文件拖到「终端」窗口中自动生成,免去手动输入的麻烦;tips2:YYYYMMDDhhmm 为对应的年-月-日-时-分;回车之后,再通过 command + i 快捷键就可以看到图片的时间属性已经是上面指定的了。2、批量修改图片的时间属性方法步骤和上面相同,只是路径有些许变化。指令如下:touch -mt YYYYMMDDhhmm&nbsp;文件路径/*「终端」窗口中拖入文件夹之后,在自动生成的文件路径后面添加

漂亮可爱的小白兔 (Beautiful and lovely small white rabbit)

漂亮可爱的小白兔,她们在草原,丛林中,小花园里,自由自在的生活
Beautiful and lovely small white rabbit, they live in a graceful place, have a happy life
Belle et charmant petit lapin blanc, ils vivent dans un endroit gracieux, avoir une vie heureuse
美しい、素敵な小さな白いウサギ ,彼らは優雅な場所に住んでいます ,幸せな人生を送ります
아름답고 사랑스러운 작은 흰 토끼 ,그들은 우아한 장소에 살고 ,행복한 삶을

bunny


2017-12-26 新增

❌