撸了个 163 邮箱查询站。

2016-04-16 21:25:14 +08:00
 guoer
https://163pwd.com

50g 下了一周。
golang+es

求别 D
6487 次点击
所在节点    分享创造
52 条回复
Patrick95
2016-04-18 22:21:13 +08:00
之前在 163password.download 那个站里查到两条数据,在你的站里没查到,估计数据库的泄露时间不一样?
kirisetsz
2016-04-18 22:30:29 +08:00
@abcdabcd987 +1 然后顺势就把代码丢 GitHub 上了……
guoer
2016-04-18 23:12:37 +08:00
@Patrick95 我的数据不太全。目前只导入了 4kw 条
ing
guoer
2016-04-18 23:13:23 +08:00
@abcdabcd987 vps 没那么大空间 😢
qfdk
2016-04-19 01:15:33 +08:00
@abcdabcd987 哈哈哈 🙏感谢一下 我按照您思路写了一下 还是挺好玩的 最后死在 导入数据库了 写了个 java 多线程倒入 后来又想换成 ssdb 哈哈哈
abcdabcd987
2016-04-19 12:44:10 +08:00
@qfdk 啊哈,我也是导入的时候特别慢,试了好多种写入方法都是慢。最后换了个 SSD 的 VPS 瞬间就变快了!
wlh
2016-04-19 14:06:01 +08:00
这个库全的吗?我查了手头的十几个网易邮箱,都没有
Reficul
2016-04-19 15:10:59 +08:00
我也在玩这个,第一个压缩包大概就有 1 亿 5 千多条记录(未去重复)

放到 Redis 内存满了被内核杀掉,目前正在导入 MongoDB

数据格式好乱,分词拆开好麻烦。

另 163password.download 的貌似也不全,部分记录没有明文密码,保存为四列,其中一列貌似是 md5 散列。这类格式在这个网站貌似查不到。

搭车问一下, Golang 中 slice 是不会复制底层数组的,辣么如果把一个[]byte 转换成 string ,这个 slice 的内容会被复制么。
qfdk
2016-04-20 16:07:34 +08:00
@abcdabcd987 感谢你的导入脚本,自己撸了个 GUI 界面的多线程导入,过两天整理好了开源一下。
研究一下 126 的信箱导入 取前 10 个文本的话,导入速度大概 110 s 左右, MacBook 2015 SSD ,因为每次导入的时候要处理数据。思考如何可以更快的导入文本,希望各位同学咱研究一下,最近也在研究 Apache Solr :)
loev139
2016-04-22 21:39:34 +08:00
逗我呢,这速度怎么快,求算法
guoer
2016-04-22 22:05:53 +08:00
@loev139 elastic search
jciba5n4y6u
2016-04-24 08:29:00 +08:00
我还在导入 mysql ,是不是太 low 了?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/271639

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX