Normal view

There are new articles available, click to refresh the page.
Today — 4 September 2025Main stream

数字人视频 API 平台调研对比,想听听大家的建议

By: jarl
4 September 2025 at 11:06
jarl:

最近公司有个需求,需要在产品里接入数字人视频相关的 API 。老板的想法是先小规模试运营看看效果,所以前期不太想投入太多资金。我的需求大致如下:

  1. 基础要求:支持不限量或能大量定制数字人 + 声音克隆。
  2. 视频对口型:视频 + 文本 + 定制声音 → 新的视频。
  3. 图生视频:照片 + 文本 + 定制声音 → 新的视频。
  4. 上传营销视频生成:上传现成的营销视频 + 自己的照片 + 自己的音频或文本 + 克隆的声音,生成新视频。(目前只看到阿里通义万相的“通用视频编辑-局部编辑”,0.70 元/秒可以实现,但效果真的不太行)

第 4 点其实已经不抱希望了。至于为什么不考虑自研部署:一方面自己部署太折腾,另一方面算下来应该比直接买服务更贵。


我调研了几个平台,发现一些问题:

  • 阿里

    • 视频口型替换:如果音频长于视频,会用“倒放-正放”交替模式扩展视频时长,结果就是看起来不太流畅。
    • 图生数字人:最长只有 20 秒,实在太短。
    • 图生唱演视频:只适合大头照,照片里一旦有手就容易错乱。
  • 客易云

    • API 对接门槛是 5000 起,前期投入太高。
    • 目前没看到能直接“图生数字人”的能力。
  • 蝉镜

    • 需要专业版及以上才能对接 API ,成本偏高。
    • 声音克隆有不少限制。
  • 字节即梦

    • 数字人 API 还未放开。

参考截图:
https://i.imgur.com/jIsf0dy.png


想问下大家,有没有用过类似的数字人 API ?或者有没有性价比更高、效果更好的平台推荐?

❌
❌