社工库的想法

2014-04-20 11:43:16 +08:00
 fange01
网站可以公开下载的网站泄露的数据库大约有200G。
把这些数据库整理一下,做个社工库,防止被骗子诈骗是个不错的思路。
偶尔搞搞营销也可以。
这些库各种各样,后缀也挺多txt、mdb、sql甚至excel
问题
1.一般个人使用采用什么样的架构搭建
看到比较多的是php+mysql,数据库都导入到mysql重新建立索引
网上也有几个开源的go语言
还有泄露的社工查询网站 搜云的源码和库结构
也有把所有库存放在某个文件夹,通过软件来检索,我想是类似notepad++或者UE这种吧
求推荐,个人使用该如何选择?

2.是个人电脑运行,还是搞个二手服务器放在家里,还是vps

著名的md5查询网站xmd5,汪利辉说自己的服务器是放在家里。
当然我做这个不想公开只是方便自己使用。
数据搞好了放在移动硬盘需要的时候跑一下,靠谱不?

3.整理数据
大量数据库去重,合并,导入,是否有好的思路或者教程

4.现在常用密码都已经被泄露,是否有一种新的机制来代替现有的密码策略。
比如1password之类,大家有什么好的想法?
17796 次点击
所在节点    程序员
22 条回复
Suanlatang
2014-04-20 11:50:57 +08:00
记得以前有这么个网站。。由于数据查询量太大。。关了。。
jun0205
2014-04-20 12:11:09 +08:00
这些数据的整理是一个非常耗时的工作。
vibbow
2014-04-20 12:30:29 +08:00
全存成文本文档,可以用我的这个脚本全文搜索。
https://gist.github.com/vibbow/8569991
Cyrils
2014-04-20 12:37:30 +08:00
如果是公开的话。纯粹是造轮子了。。太多了。。。
hacri
2014-04-20 12:38:54 +08:00
简单的mysql扛不住吧,而且索引检索部分肯定得单独做。试试nosql?
v223344
2014-04-20 12:48:25 +08:00
密码数据方便分享下吗
fange01
2014-04-20 13:27:44 +08:00
@Suanlatang 现在也有很多。
fange01
2014-04-20 13:48:46 +08:00
@vibbow 感谢分享。晚上试试。
fange01
2014-04-20 13:49:41 +08:00
@hacri 嗯,就是想多咨询下大家的一件。
manoon
2014-04-20 21:21:32 +08:00
无聊的时候把那些数据转成MONGODB了。。。以为比其它数据库要轻松很多,结果,呵呵。
a3587556
2014-04-21 01:05:54 +08:00
试试Sphinx
7gong
2014-04-21 08:44:52 +08:00
@manoon 详细说说,我正准备这么干呢,哪个环节出问题了
duoxing
2014-04-21 10:11:04 +08:00
@fange01 比如哪里还有?
isaced
2014-04-22 09:02:18 +08:00
Mongodb可能会很合适。
Zuckonit
2014-04-22 10:44:47 +08:00
@vibbow 可否分享下密码数据, thanks
vibbow
2014-04-22 11:55:50 +08:00
@Zuckonit 现在就留了一个csdn的,平常当模拟数据来源用。
qq2511296
2014-04-22 14:18:39 +08:00
594sgk.com 你是说这个网站麽?
a2z
2014-04-22 20:01:51 +08:00
很多人用elasticsearch,用solr的也不少
the13matrix
2014-04-22 23:27:43 +08:00
php+mysql,上亿条数据,查询时等同于卡死好么。
整理好的社工库以文本方式存储。自己写查询脚本:需要查询的时候,先把整个文件载入内存,以后就在内存里查找。速度比sql语句快10倍不止。

另外,别想拿社工库用做合法用途。拿别人网站的数据用做自己产品,这永远都是不合情不合理不合法的。
manoon
2014-04-24 21:51:57 +08:00
@7gong 但也不是出问题。就是性能上面,没有想象的那么NB。
导数据,花了很长时间。查询的效率也不是非常的快------可能跟机器配置也有关系。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/109281

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX