打算整一个社工库自用,方案求解

2019-03-16 10:21:16 +08:00
 pimin
高中大学时候当过几年脚本小子
后来编程学了点,c/c++/asm,打算做逆向的中途放弃
前两年心血来潮学了一阵 Python,能简单写个 blog 之类

那时候认识一个小兄弟,一直有联系,逢年过节会打电话问候那种;现在也是为人父母了,他灰产接触比较多,有社工库需求,找我帮忙,目标数据量应该在 500G ;

做了下前期工作,目前初步方案是数据索引 elasticsearch,查询用 Python+flask ;自用随便整个页面就可以了;

想咨询下有没有更好的方案,或者这套方案有没有大的短板;
还有就是数据清洗有没有成熟的方案还是只能自己写个脚本导入
11240 次点击
所在节点    问与答
27 条回复
Les1ie
2019-03-16 21:33:49 +08:00
1. 读文件的时候,如果单个文件不到 2 个 G,可以直接读到内存,如果更大,建议用生成器,速度可能会比直接读慢一点,但是不会耗费太多内存。打开文件之前要注意自适应各种不同的字符集、各种字段的缺失
2. es 不要暴露在 0.0.0.0, 另外建议 helper.bulk 批量插入可以明显加速网络 IO
3. 还需要考虑以后数据增加的时候如何复用之前的代码
4. flask 查的时候限制返回长度,不然 boom
h175h32
2019-03-16 22:04:22 +08:00
能给我用用吗
pimin
2019-03-16 22:54:54 +08:00
@Les1ie
谢谢,
1.因为是做给别人用的,最后移交方式应该是硬盘寄给他,所以应该是都导入到 es;
2.es 不会放到公网,查得太严了;
3.裤子字段一般都比较简单,用户名 /明文密码 /密码 hash 值 /来源网站 /姓名 /手机 /泄露时间之类,目标可能是 15 个字段以内,多余字段应该会选择丢弃;
4.返回长度应该会用分页方式解决;不过
haoshuaiwang
2019-05-12 14:11:06 +08:00
咱俩可以交流一下啊 ,目前公布的方案都太少了 ,而且效率感觉一般
先说一下我自己的 ,
I5 4590 16G
我用的 MYSQL 现在大概 300+个表 每个表结构略有不同
目前用 PHP 写了一套简单的查询 模糊查询打开在 5 秒左右
数据大概有 20E 条左右,全部索引完成 600G+
Apol1oBelvedere
2019-10-29 16:13:16 +08:00
@haoshuaiwang 一个泄露站点放在一个表吗?
haoshuaiwang
2020-01-27 02:19:06 +08:00
VKRUSSIA
2020-04-23 11:02:29 +08:00
水表

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/545203

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX