把英文书籍中符合难度的单词提取出来,然后用树莓派、闲置的屏幕、挂墙上的手机来背单词

2018-08-19 10:48:01 +08:00
 lxrmido

想法

家中有个树莓派一直在跑爬虫,最近淘宝买东西的时候顺手买了个 50 块的 3.5 寸屏幕插上去,然后发现屏幕无法关闭,于是便想拿它来做点什么,反正屏幕的耗电量才 0.5W 。

最近也一直在用薄荷阅读学英语,感觉背单词是学英语里最重要的一环。

于是思路就出来了:

单词从哪里来?

如何生成单词卡片数据?

作品

有了思路之后,做起来还是比较容易的。花了两个晚上把可用的版本做了出来,repo 地址:

https://github.com/lxrmido/WordCards

树莓派运行效果:

界面截图:

然后就是再抽空把需要的其他东西做出来,以及优化了

总结及体会

7225 次点击
所在节点    分享创造
73 条回复
mrfox
2018-09-09 14:22:26 +08:00
lxrmido
2018-09-09 18:06:52 +08:00
@mrfox 修改了下,你试试
mrfox
2018-09-10 03:37:04 +08:00
mrfox
2018-09-12 17:34:02 +08:00
https://imgur.com/a/29BAiBc
有时释义里会遇到乱码,不知何故
这些问号会不会影响分词也不知道
mrfox
2018-09-17 05:01:47 +08:00
终于刷完了示例文章生成的 6K 词,明天试试对新文章的处理
lxrmido
2018-09-17 07:39:28 +08:00
@mrfox 加油
mrfox
2018-09-24 19:28:03 +08:00
中秋快乐~
lxrmido
2018-09-24 20:38:25 +08:00
@mrfox 同乐同乐
mrfox
2018-09-27 18:48:46 +08:00
建议增加一个词义缓出的选项,有时觉得认识实际上是因为已经看到词义了~
mrfox
2018-09-28 03:08:22 +08:00
今天遇到一个词 rails ,中文释义出来是铁路股票,我反复查了各种词典,没发现有股票的含义
回去看 stardict 里的数据,发现它的释义英文是对的,中文就不对了,晕,浪费了不少时间

由此想到,万一是根据这个背了想再改回来可是难了。。。准确还是第一位的

一点建议:
临时的解决办法:界面上在中文解释下也展示英文释义

长远的办法:
1. 这个 EDICT 收词量大,但释义方面如果有不准确的地方建议不采用了就,可以只抽取它的单词表
目前我没找到免费的非常大的单词表,搜索到一个 https://github.com/dwyl/english-words 只有 47 万还不如它大
真正大的都是语料库里的,但是没免费的,实际上只需要单词列表,其他字段可以不要,但是没有放出这样的
这个单词表只用来抽取文章中的单词
2. 释义方面建议采取 https://github.com/ninja33/mdx-server
这样的话就可以自由选用 mdx 词典,甚至可以多词典同时查,这样出来是准确的,毕竟是词典
如果遇到查不到的词就单独处理,像目前生成词表时也会有个别词查不到就报查不到就是了(多半是有问题的词)

谢谢!
mrfox
2018-09-29 18:56:00 +08:00
另外,有些带符号的词似乎分词有问题
比如今天看到的这个
https://imgur.com/a/pzj0ZNT
在 EDICT 里是能查到 wasn't 的
lxrmido
2018-10-07 17:47:22 +08:00
@mrfox
mdx 需要研究一下,目前能找到的 mdx 解析轮子都比较古老了;
分词目前用的是忽略单词里存在符号的策略,确实需要改进;
lxrmido
2018-10-20 11:33:57 +08:00
@mrfox

缓出的选项添加了,最近沉迷加班拖延症越来越严重了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/481114

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX