52G 的库,用什么办法检索速度最快?

2016-04-04 14:23:34 +08:00
 ifconfig

只导了 126 的数据到 mysql 已经有 10G ,做了索引, like 语法查起来还是很慢。(平均: 45s 设备: 256SSD+i5 ) 要想达到 163password.download 查询的速度,该用什么技术或架构?

9563 次点击
所在节点    MySQL
63 条回复
ifconfig
2016-04-04 20:27:01 +08:00
@strwei 谢谢
micookie1
2016-04-04 20:29:39 +08:00
我忘记密码的终于找回了
strwei
2016-04-04 20:31:07 +08:00
@ifconfig 以前做 bt 搜索网站的时候用的 redis 网站 n G 数据,查找很快
linescape
2016-04-04 20:36:14 +08:00
@dingyaguang117 我查了有我的邮箱但是不是我的密码。。。
ucaime
2016-04-04 21:53:13 +08:00
http://www.03sec.com/usr/uploads/2015/04/2864323021.pdf

03sec 的老文,可以参考,用了 coreseek
ucaime
2016-04-04 21:54:22 +08:00
@jhaohai 谁说无效,正序索引 只要 like 不是%开始还是可以用的
TemporaryID
2016-04-04 23:23:19 +08:00
导入数据: http://pastebin.com/2PyKHPjn
Web 服务: http://pastebin.com/SErx0WNj

用的是 LevelDB
导入后大概 25GB
服务器在 DigitalOcean 上
楼上 @yeyeye 说的对,因为是精确匹配,所以快

还有真的不要 DDoS 我好吗,我真的不是做这个的,只是玩玩 T_T
ffwalle
2016-04-04 23:53:25 +08:00
52g 根本小菜一碟,记得加索引。
ffwalle
2016-04-04 23:59:29 +08:00
哦,看到你说做 like 查询,呵呵,如果真的要快,那做 ngram 吧。。。
powtop
2016-04-05 08:39:04 +08:00
求裤子
xinyewdz
2016-04-05 09:03:02 +08:00
刚查了,密码是四年前的。
wyx
2016-04-05 09:56:24 +08:00
歪个楼,解压密码是啥?
ifconfig
2016-04-05 10:10:02 +08:00
ifconfig
2016-04-05 10:10:12 +08:00
@wyx baidu
wyx
2016-04-05 10:17:42 +08:00
@ifconfig 谢谢
thanksir
2016-04-05 11:04:41 +08:00
靠,我的泄露了
soulteary
2016-04-05 12:27:10 +08:00
@ynyounuo 粗筛选可以在转码前先执行 shasum 简单计算 hash ,然后再做分词。算了一下,大概重复的数据有 438 , 38.62%左右都是重复的。

如果先转码,恐会浪费不少时间(机器多可忽略...)
wwek
2016-04-05 12:53:51 +08:00
没裤子穿,需要裤子
ynyounuo
2016-04-05 15:08:08 +08:00
@soulteary
嗯,学习了,所以大概缩下来有多大呢?
soulteary
2016-04-05 16:03:30 +08:00
mime-type 错误 & 编码可能存在问题的有 3G 左右,有空特殊处理看看。

32G 简单去重后 11G ,其实挺少的,继续筛下估计更少...

@ynyounuo

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/268464

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX