rozbo
2023-04-26 11:17:48 +08:00
我觉得楼上各位在整活儿的原因是....
> 本来想自己搞,最近忙看看外包价格多少啦。。。
这种语气让人感觉不太舒服呢。
但实际上如果你自己真的尝试搞过就知道这不是一个随便可用外包的小活儿,作为一个做过类似实现(爬取内容生成字幕 AI 朗读合成视频)的人来说说这里面的技术难点:
1. 网页是强反爬手段的,比如浏览器指纹、ip 、还有字体之类的,如果是是插件可能别的没啥大问题,但字体这个就是一个很麻烦的事情,假如通过 dom 之类的解析,自然得到一串毫无意义的乱码,这种情况下怎么朗读?这种情况下你可能想到人工重新映射字体,但实际上这种映射关系是会变的。唯一可用的方式可能是截图然后 ocr ,不过这种方案也有其他的坑。总之获取文字这一步都没有那么简单。
2. AI 朗读时,你如何知道当前读到哪一句?语音和文字怎么对应?标点符号怎么办?考虑 stream 模式下没有断句,这里可能需要对源文字重新加工,可能要用到一些文字处理方便的知识
3. Azure 接口是收费的,一般可用用 edge 浏览器自带的“朗读”功能实现,这个不要钱,而且简单方便,这里可能要实现一个 rpc 去调用
ps:python 怕是写不了浏览器插件吧