众人拾柴火焰高,一起来开发一个自动化的社交网络信息收集工具吧!

2014-06-11 08:18:32 +08:00
 matrixyuri
这是前几天偶然冒出来的一个点子,主要的想法是:

从前获取一个人的信息的时候,往往是通过某一个社交平台入手,
比如从微博开始,看 ta 的个人资料页面,寻找他绑定过什么应用,寻找经常与他进行交互的人的情况,从这些地方可以推断出这个人所在的城市、工作单位、毕业院校等信息,通过看过往微博还可以大致了解这个人的历程。
从知乎开始通常是看个人资料页面看 ta 是否绑定了微博,然后转入之前的步骤;或者是看 ta 关注的话题、看 ta 回答的最好的话题,也可以大致了解一些 ta 的情况。
其他的社交平台也可以搜刮出不少信息,比如在 V2EX,LinkIn etc.

于是觉得可以做一个自动化的工具,更全面更准确的获取这些信息,通过对一个人的各种社交平台信息的分析,得到关于 ta 的多个关键字和基本信息,还可以获得 ta 的人际圈情况,通过对人际圈里每个人的基本信息提取,可以大致知道目标的很多情况。

详细的想法介绍我都放在了 Github 上。

对于这个程序的想法主要是:

1.大家一起来开发,针对不同社交平台的模块开发出不同的模块,
2.通过统一的数据输入输出约定保证数据格式一致,
3.程序有统一的入口,通过调用模块获取结果,最终统一的展示出来,



已经在 Github 上建好了项目,在 README 里简单阐述了想法,希望能有更多的人一起来玩这个东西,一起把这个事做成。
Github : https://github.com/MatrixYuri/rMap

对于实现语言还没有决定,
本想用 PHP 会比较熟悉,但是 PHP 没有好用的异步以及并发,另外 PHP 也不适合这样运行时间很久的程序。
用 Python 的话,我不是很喜欢 Python 的性能...
Java 同理,虽然它很强大
Go?我觉得不错,性能和功能上都能满足要求,不过我还不太熟练,如果有熟悉 Go 的朋友加入,我想进度会快很多
C/C++ 这...会方便开发吗..

如果大家有建议欢迎提出,晚辈是一只代码仔,会认真参与这个项目的执行,
所以,现在有一个巨好玩的 idea,就差小伙伴们一起来玩了。

欢迎邮件联系 zhang1437 (艾特) gmail.com
10995 次点击
所在节点    分享创造
104 条回复
imn1
2014-06-11 08:23:27 +08:00
不考虑隐私问题么?
viquuu
2014-06-11 08:27:24 +08:00
好可怕的工具~~~
matrixyuri
2014-06-11 08:30:11 +08:00
@imn1 呃,信息来源都是公开的,包括微博、知乎 etc. 大家每天毫无顾忌的把自己的生活 post 上去...就是让大家看的...我觉得应该还好吧,人自个愿意公开...我就是想有个自动化的工具将不同社交网络里的同一个人连起来分析下。

当然你说的很有道理,这很有可能会成为一把双刃剑,怎么样保证好人用的到坏人用不到....
我也不知道,像是 nmap 或者 sqlmap 这样的工具,自称是互联网安全检测工具,实际上被大伙儿拿来找漏洞找注入..我觉得这也是个现象。

这样一把双刃剑我想可以用做对社会热点人物的人肉搜索、鉴别骗纸 etc.

或者咱成立一个组织?这个工具掌握在咱自己手里,遇上网络热点内容了拿来人肉一下,放置被其他人滥用
cevincheung
2014-06-11 08:34:47 +08:00
这必须跟隐私问题挂钩。

就像你说的nmap 、sqlmap等类似的工具的确被很多人用来漏洞注入检测攻击工具。但是总没人把这些东西都整合到一起然后说给别人说 [XXX攻击专用] 吧?ok,即便是有,那这也是属于不一样的概念。你这是纯粹人肉了。

我的资料允许被公众浏览,可是你集中收集资料其中包括我的,我第一个就不愿意啊。

那就好比说,房产商、移动运营商倒卖个人资料属于合法合乎道德的了?
cevincheung
2014-06-11 08:36:32 +08:00
抛开这一切暂且不谈,就单技术上根据什么保证各个不同的平台的数据是属于某一个人的。网络id随意起,重复的不在少数。
sniper1211
2014-06-11 08:37:55 +08:00
有被坏人利用的可能……
“小朋友,你是不是叫XXX啊?你爸爸是YYY吧?你妈妈是ZZZ吧?你家昨天晚上吃的是¥%,对吧?跟我走,带你去吃你最喜欢的***”

细思极恐
faceair
2014-06-11 08:38:23 +08:00
等于把所有社交平台全爬了一遍啊。。。主要是写爬虫和解析,还要考虑抓取频率、反爬虫策略等一堆、数据定期更新和存储。。你先弄个网站的list吧,估计会很繁琐
写爬虫的话用python有很多轮子可以用,或者node效率也会比较高
yangqi
2014-06-11 08:39:20 +08:00
无好感,感觉实际意义不大
zjgood
2014-06-11 08:40:53 +08:00
超级社工库啊。。。
imn1
2014-06-11 08:41:39 +08:00
你要学习授权这个词的法律意思
我发布和你发布是两码子事,虽然都是公开
matrixyuri
2014-06-11 08:48:24 +08:00
@cevincheung
房产商和移动运营商的个人数据应当是保密的,这个泄露是不应该的,这些数据原本就不允许公众访问。

社交平台上的这些内容独立来看都是公开的,但是通过工具聚合起来,这个我不太清楚是否侵犯了隐私,但是看目前互联网人肉的情况,社会热点人物的信息大家默认是忽视隐私的。。。虽然我不认同这样做,但是确实是一个现象。我想这个工具可以在工具开发者内部大家一起决定使用,保护它不会被公众滥用,只有贡献了模块的开发者才可以参与决策。
我想通过这个工具,应当能从民间层面形成一个力量,一方面曝光负面人物的真实信息,另一方面也能用事实提醒公众注意社交平台上的私人信息。

保证帐号是同一个人,这个其实各个社交平台之间都有互相绑定或者都会有蛛丝马迹,比如知乎上很多人绑定了微博,再比如你的v2ex账户里有你的个人主页,个人主页上有你的个人信息。呃..sorry,我不再挖下去了。
这个其实蛮好做的,不过你用了QQ 那个留言按钮和邮箱的邮我功能,这是个门槛 ^_^
刚看了下你的信息,觉得好牛...顺带膜拜下哈~

感谢回复~
missdeer
2014-06-11 08:48:44 +08:00
我以前倒是想过做一个类似的东西,不过是以手机通讯录为中心的,只为通讯录中的每个人绑定他的各种网络服务账号,你可以随时看某个人刚刚在哪个网站说了什么话之类的。比你这个想法要内敛得多,限制得多吧。
后来这个想法说给一妹子听,那妹子说这样会翻脸的,然后……就没有然后了。
imn1
2014-06-11 08:49:35 +08:00
http://www.miit.gov.cn/n11293472/n11293832/n12843926/n13917072/15514067.html
《电信和互联网用户个人信息保护规定》

请参看第二章
cevincheung
2014-06-11 08:56:33 +08:00
@matrixyuri

除此之外,你还可能面临数据安全的考验,毫不夸张地说,你这数据应该要跟银行金融机构有同等的安全防护措施啊。
一旦被美帝拿到资料。。。好可怖啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

不知道gov会不会请你喝茶
lsj5031
2014-06-11 08:56:36 +08:00
DedSec既视感,看这架势天朝也快搭起ctOS了哈哈
cevincheung
2014-06-11 08:56:45 +08:00
@imn1
good
matrixyuri
2014-06-11 08:57:44 +08:00
@imn1
唔..”电信业务经营者、互联网信息服务提供者“,我想使用这个工具的人更多的是普通用户而不是这两者...

我知道台湾这方面法规很严格,国内好像在法律执行方面做的不好,导致大伙儿资料可以被随意访问。

这方面应当是从信息源头上进行限制,比如非好友不能查看个人资料,我想源头上没有限制,获取这样的信息应该还ok吧。

我的想法主要是信息的来源并不是破解私密库或者是使用了什么入侵的手段获取了非公开数据,所有的数据都来源于大家公开的个人资料和发布内容,我一个一个的人工看和用程序进行数据挖掘应该差不多吧...这方面我不是很懂。
matrixyuri
2014-06-11 08:59:39 +08:00
@cevincheung 没啦...数据都是网上公开的,这只是一个爬虫和分析工具,美帝那技术肯定瞧不上咱的...他们人肉那仨中国军官,都是破解了 gmail 才得手的,都用上破 gmail 密码了,换我我才不费心思做个爬虫去爬社交网络呢……相比之下可靠度多低啊...
matrixyuri
2014-06-11 09:00:55 +08:00
@sniper1211 小朋友……应该还不会用微博知乎 v2ex 吧,如果会的话才细思极恐咧~哈哈
matrixyuri
2014-06-11 09:01:34 +08:00
@missdeer 记得有一个很刺激的游戏叫做《挨个介绍你通讯录里的人》

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/116805

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX