[开源] 芒果词源助手(微信小程序+Golang 后端), 可以查看单词派生关系, 词根词缀记单词, 原始数据来 etymonline

2018-09-14 12:59:40 +08:00
 chrislon

仓库地址: https://github.com/lonnng/etym

芒果词源助手

基于 https://www.etymonline.com/数据做的一个微信小程序,用于查询词源,并且拓展了功能,查询某个单词时,显示同根词源派生的单词,并且可以选择单词范围( CET-4、CET-6、托福、雅思)等等。

主要目录

  1. cmd/etymd/服务器守护进程
  2. cmd/spider/爬虫程序,从 etymonline 爬取词源信息,并解析其中的词根词缀派生关系,以及使用 google 翻译获取汉语词源,由于 google 翻译有反爬虫设计,所以在pkg/proxy中实现了一个代理池,从公共 HTTP 代理网站拉取 HTTP 代理信息,检测活的代理进行爬取。
  3. cmd/transformer数据处理以及转换,单词翻译使用了https://github.com/skywind3000/ECDICT,需要对原始数据进行处理。
  4. assets资源文件,里面包含各种解析好的资源。
  5. build 编译打包部署到远程服务器相关脚本,build/unpack.sh用于解压必要文件

assets目录

  1. ecdict.json 对应https://github.com/skywind3000/ECDICT中的 ecdict 词典(70w 词条)
  2. stardict.json 对应https://github.com/skywind3000/ECDICT中的 stardict 词典(350 万词条)
  3. etym.jsonetymonline.com 拉取的词条解析后的文件(包含词源翻译)
  4. trans.json 翻译文件
  5. ECDICT.tar.gz 当前使用的https://github.com/skywind3000/ECDICT
  6. etymology-resource.tar.gz 从 etymolone 中爬取的原始数据以及从 google 翻译中爬取的原始数据,可以使用spider重新爬取,也可以直接使用已经爬好的数据玩耍。
  7. 其他文件 cet-4、cet-6 相关的文件都是字典文件,小程序可以选择首页随机单词范围,可以在这些文件中随机

如何使用

由于 github 单文件限制大小 100m, 所有 assets 部分文件进行了压缩, 请先解压文件, 可以使用

sh build/unpack.sh

小程序截图

3482 次点击
所在节点    Go 编程语言
7 条回复
ggmood
2018-09-14 14:15:42 +08:00
小程序搜不到呢
chrislon
2018-09-14 14:32:39 +08:00
服务器到期了就下线了~如果需要可以自己搭
kosmgco
2018-09-17 15:14:25 +08:00
用代码自己搭了一个小程序,不会侵权吧。。。
chrislon
2018-09-17 19:46:49 +08:00
@kosmgco 不会的,你搭起来了吗
kosmgco
2018-09-18 09:56:56 +08:00
@chrislon 对,只有小程序部分,后台的没开
chrislon
2018-09-18 12:28:56 +08:00
@kosmgco 不开后台, 那你运行不起来的
kosmgco
2018-09-18 13:50:52 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/489286

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX