为做个程序员英语字典,我处理了 StackOverflow 和 HackerNews10 年 5 千万条数据

2019-12-10 20:29:21 +08:00
 kuokyong

有点标题党,不过都说都真实的。英语技能对开发员人员至关重要。所有人都不喜欢背单词,但更惨的是背住的单词发现没怎么用,又慢慢地忘记了。本来计划给自己做个开发人员常用单词表,感觉可能对其它人也有用,所以就发布开源出来。单词解释部分还没完成,后面会逐渐添加。

单词列表托管在 Github 上,一共将近 3000 个。

https://github.com/kkyon/Simple-IT-English

单词主要来自:StackOverflow 和 HackerNews.

Source|Newest Post|Oldest Post|Row Count|Size --------|--------------|---------------|------------|---- HackerNews comments|2015-10-13 08:44:02 UTC|2006-10-09 19:51:01 UTC|8399417|3.41 GB HackerNews stories|2015-10-13 08:44:34 UTC|2006-10-09 18:21:51 UTC|1959809|402.71 MB StackOverflow answers|2019-09-01 05:22:21.463 UTC|2008-08-01 13:16:49.127 UTC|27665009|22.27 GB StackOverflow questions|2019-09-01 05:23:41.743 UTC|2008-08-03 21:38:52.623 UTC|18154493|28.13 GB

5173 次点击
所在节点    程序员
29 条回复
exhades
2019-12-10 20:37:40 +08:00
感谢分享
resist
2019-12-10 21:00:16 +08:00
感谢,太懒了我,有注释就更好了,手动狗头
kuokyong
2019-12-10 21:16:22 +08:00
@resist 后面会添加解释和例子
secondwtq
2019-12-10 21:28:50 +08:00
@kuokyong 嗯,能把单词出现的句子加上会更好
不过这个总觉得很难做 … 一是数据量很大,二是社区不比媒体,很多句子都是网络语言,其实不适合作为例句
kuokyong
2019-12-10 21:33:03 +08:00
@secondwtq 是有点难度,SO 数据量有点大,还有筛选出来句子,需要找个算法排优先级。后面会找时间尝试一下。
SquirrelMAN
2019-12-10 21:33:11 +08:00
很有价值!
jdhao
2019-12-10 21:34:09 +08:00
f1ren2es
2019-12-10 23:09:24 +08:00
支持~
ddzzhen
2019-12-10 23:10:51 +08:00
赞,英语四级卡线路过
cedoo22
2019-12-10 23:12:07 +08:00
赞👍
hannhuan
2019-12-10 23:45:17 +08:00
太好了,第一个单词不是 Abandon。
zhoudaiyu
2019-12-10 23:48:23 +08:00
第一个 aaron 就不认识 doge
ClericPy
2019-12-11 00:17:52 +08:00
不错, 以前想过这些语料可以做什么, 你开了个好头, 也给国外这些主动开源自家数据的站点点赞, 比自己抓省太多时间了, 也避免服务器压力太大

除了列表... 能有其他功能不

1. 词典功能
2. 按热度排序
3. 按逆文本频率+热度排序
4. 常错词
5. 词向量找近义词
6. 生僻词
7. 自造词
8. 共现词
9. 长尾关键词
10. 热点趋势图? 关键词热度变化曲线
11. 词云?
12. 我好无聊
secondwtq
2019-12-11 00:26:04 +08:00
@zhoudaiyu aaron 是人名吧 ... 知名人物如 Aaron Swartz
嘛这也是 ... xref 都出来了,还有 Adobe 公司应该是得名于一条叫 Adobe 的河,我查了下 adobe 本身好像也是单词但是估计这个语料里的 adobe 指的是 adobe 公司 ... 还有 jekyll 啥的
不过这种词总体不多,估计楼主要把频率更少的词也放进去就不好处理了
xiangjian
2019-12-11 00:32:31 +08:00
0726
2019-12-11 00:37:46 +08:00
牛皮哈
KentY
2019-12-11 00:40:32 +08:00
readme 里的英语问题挺多的.
如果得空了改进一下.
wwb721
2019-12-11 09:43:02 +08:00
太棒了,之前做过把 typescript lib 下的 zh-cn 的 diagnostic messages 中的单词切割出来去重,也能学到好多东西。
whisperer
2019-12-11 09:47:31 +08:00
如果能跟 @lijy91 的「一路背单词」合作一下就好了,/t/608958
做成一个单词本方便学习
kuokyong
2019-12-11 10:14:20 +08:00
@whisperer 太棒了。 我试一下联系 @lijy91

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/627750

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX