解析 macOS 内置词典并从中提取指定内容的方法探索

2016-08-31 16:04:37 +08:00
 cdwind

最近女朋友在背单词,在我推荐了下试了 macOX 下自带的 New Oxford American Dictionary ,表示十分受用, 于是我就想着是否可以把词典内容,按需求取出,比如语源出处,或者派生词,这样更好去归纳记忆。

其实直觉上,直接解析词典包会比较容易,尝试再三后发现有诸多问题,在此略过,最终尝试找到可以通过私有 API DCSCopyRecordsForSearchString 来获得词典应用展示的 HTML 内容。

简易的用 BeautifulSoup 解析了下写了个类,封装了下单词诸如音标,解释,语源等信息。

到此,大概能满足我用 Python 批量的取得单词中的某项内容的需求, 遂把经过写下来供以后有需要的人参考。 抛砖引玉,简易的代码在 Github ,如果有兴趣请点赞支持或者完善代码。

https://github.com/cdwind/mdict

2480 次点击
所在节点    分享创造
2 条回复
cyio
2016-08-31 16:09:08 +08:00
推荐 扇贝 + vTransit

vTransIt - Chrome 网上应用店 https://chrome.google.com/webstore/detail/vtransit/nilaminkjakoilnafcbdpgoidfobgdfd
cdwind
2016-08-31 16:13:43 +08:00
@cyio 扇贝也很好用 我也在用,这个啊,主要问题是她想把她的单词书里面所有的单词找到词源,如果手动来弄的话太麻烦,所以就想着提取了辞典内容,批量整理出来。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/302946

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX