如何高效率高质量利用 LLM 翻译一本文字版 pdf 书籍(几百页)?
SGL: 有一些不错的书籍没有国内译本,鉴于个人英语水平不支持高效率地阅读英文书籍。
因此想要把文字版的 pdf 书籍自己翻译成中文手稿。
目前想象的思路就是:
1. 利用 pdf 工具把所每页都处理成 markdown ,图片提取出来也用 markdown 格式进行排版。
2. 调用 LLM API 逐个文档翻译。
3. 为了便于校对翻译质量,采取一段一段的上英下中的对照式翻译。
上面的方案中唯一不确定性的在于:
1. pdf 解析库是否能力足够高质量的把 pdf 解析成 markdown?
2. 至于 llm 翻译的部分,翻译本身就不需要太长的上下文,就一段一段的慢慢放到后台调 api 并发翻译,然后拼接起来就好了。
因此想要把文字版的 pdf 书籍自己翻译成中文手稿。
目前想象的思路就是:
1. 利用 pdf 工具把所每页都处理成 markdown ,图片提取出来也用 markdown 格式进行排版。
2. 调用 LLM API 逐个文档翻译。
3. 为了便于校对翻译质量,采取一段一段的上英下中的对照式翻译。
上面的方案中唯一不确定性的在于:
1. pdf 解析库是否能力足够高质量的把 pdf 解析成 markdown?
2. 至于 llm 翻译的部分,翻译本身就不需要太长的上下文,就一段一段的慢慢放到后台调 api 并发翻译,然后拼接起来就好了。