求用 Python 做一个从 PDF 提取生词并翻译的工具的相关思路

2015-04-05 11:24:10 +08:00
 bill9109
本人编程小白…
希望实现的功能是:有GUI,将PDF内所有单词与词典对比,如不在词典中,则翻译,并导出成生词表添加在文末新页。
有类似的项目吗?
有哪些库/API可以帮助完成这些功能呢?
3495 次点击
所在节点    Python
3 条回复
loading
2015-04-05 11:52:18 +08:00
提取文本,按空格和常用符号将词取出(slip)为字符串组,从组中取一个,全换成小写,与你的字典(已学单词?)匹配,然后不在就存到另一个数组。
skadiwea
2015-04-05 12:11:39 +08:00
用Python写过一个类似的,从文本里提取单词,然后排序比对字典,用扇贝的API查询,生成一个单词表。半成品,写得很渣,欢迎来完善。

https://github.com/cdwind/xwords
josephshen
2015-04-05 17:04:56 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/181669

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX