众人拾柴火焰高,一起来开发一个自动化的社交网络信息收集工具吧!

2014-06-11 08:18:32 +08:00
 matrixyuri
这是前几天偶然冒出来的一个点子,主要的想法是:

从前获取一个人的信息的时候,往往是通过某一个社交平台入手,
比如从微博开始,看 ta 的个人资料页面,寻找他绑定过什么应用,寻找经常与他进行交互的人的情况,从这些地方可以推断出这个人所在的城市、工作单位、毕业院校等信息,通过看过往微博还可以大致了解这个人的历程。
从知乎开始通常是看个人资料页面看 ta 是否绑定了微博,然后转入之前的步骤;或者是看 ta 关注的话题、看 ta 回答的最好的话题,也可以大致了解一些 ta 的情况。
其他的社交平台也可以搜刮出不少信息,比如在 V2EX,LinkIn etc.

于是觉得可以做一个自动化的工具,更全面更准确的获取这些信息,通过对一个人的各种社交平台信息的分析,得到关于 ta 的多个关键字和基本信息,还可以获得 ta 的人际圈情况,通过对人际圈里每个人的基本信息提取,可以大致知道目标的很多情况。

详细的想法介绍我都放在了 Github 上。

对于这个程序的想法主要是:

1.大家一起来开发,针对不同社交平台的模块开发出不同的模块,
2.通过统一的数据输入输出约定保证数据格式一致,
3.程序有统一的入口,通过调用模块获取结果,最终统一的展示出来,



已经在 Github 上建好了项目,在 README 里简单阐述了想法,希望能有更多的人一起来玩这个东西,一起把这个事做成。
Github : https://github.com/MatrixYuri/rMap

对于实现语言还没有决定,
本想用 PHP 会比较熟悉,但是 PHP 没有好用的异步以及并发,另外 PHP 也不适合这样运行时间很久的程序。
用 Python 的话,我不是很喜欢 Python 的性能...
Java 同理,虽然它很强大
Go?我觉得不错,性能和功能上都能满足要求,不过我还不太熟练,如果有熟悉 Go 的朋友加入,我想进度会快很多
C/C++ 这...会方便开发吗..

如果大家有建议欢迎提出,晚辈是一只代码仔,会认真参与这个项目的执行,
所以,现在有一个巨好玩的 idea,就差小伙伴们一起来玩了。

欢迎邮件联系 zhang1437 (艾特) gmail.com
10781 次点击
所在节点    分享创造
104 条回复
gkiwi
2014-06-11 10:56:17 +08:00
之前收到的一封邮件,当时我就...
ren2881971
2014-06-11 11:00:43 +08:00
@gkiwi 有点吓人。
RIcter
2014-06-11 11:06:43 +08:00
(`・ω・´)同反感这个项目
怎么看都不好呢..(主要是黑我大Python
devon
2014-06-11 11:43:23 +08:00
@qian19876025 可以做数据挖掘呀,应该可以分析出来一些有用的数据。工具可以做善的用途,也可以做恶的用途。以前我也觉得这些是很隐私的,但是,如果我选择了公开这些数据,我觉得就还好。而且,如果身边有朋友能通过这些数据知道我的喜好,能帮助他更好地与我交往,我觉得也是蛮好的。
devon
2014-06-11 11:45:06 +08:00
@TangMonk node-webkit,atom-shell两个都还在试用中,node有时会crash,让人比较郁闷。
kuber
2014-06-11 11:47:02 +08:00
从公开的信息里面提取不算侵犯隐私。其实microformat 里面已经有这方面的标准了,算语意网的一部分
kuber
2014-06-11 11:47:57 +08:00
以前google 的social graph 就是做这个事的。搞了google+ 以后他们放弃了这个项目
matrixyuri
2014-06-11 12:07:16 +08:00
@huang321hp 咱俩想法很相近~特别是关于隐私部分的,握手~~
matrixyuri
2014-06-11 12:09:29 +08:00
@sun019 为啥要和 z&f 竞争...人家做的好又不拿出来给大伙儿用,都偷偷藏着查水表用了
matrixyuri
2014-06-11 12:10:03 +08:00
@ihacku
!!!!

这想法,简直重合度100%,不过我先下手做起来再说~哈哈
matrixyuri
2014-06-11 12:11:43 +08:00
@kuber 酱紫的吗...我觉得可能 google 考虑到隐私问题才放弃的吧...
毕竟这样的一个工具能爬到的内容会相当丰富,

说不定会有热心的开发者做个模块匹配出了1024的账户啊哈哈那就惨了。。。
ayang23
2014-06-11 12:14:53 +08:00
我的第一个想法是如果楼主真能做出来,会引来杀身之祸
matrixyuri
2014-06-11 12:16:31 +08:00
@ayang23

哈哈~~有道理

打枪的不要~有兴趣的我们悄悄滴干活~
TangMonk
2014-06-11 12:27:15 +08:00
我想起了一个新版火狐的视频:
https://webwewant.mozilla.org/en/#video
chenggiant
2014-06-11 12:54:04 +08:00
想法其实不错!支持楼主!
geew
2014-06-11 13:14:58 +08:00
@RIcter 同感 python怎么就性能不行了
icyalala
2014-06-11 13:20:06 +08:00
有点反感LZ这个想法。

就好像明星走在外面,有人不知道躲在哪儿偷拍似的,说直白点就是网络狗仔。
自己玩玩或在小圈内传播还好,当成工具或是服务发布出来,怕是会招来麻烦。


另外,微博、LinkdIn这样的平台里的信息,不是公开的,你需要注册才能浏览,注册时会有各种条例。这其中的个人信息和发布的内容都受到平台的保护。

以新浪微博的注册为例: http://weibo.com/signup/v5/protocol
5.1知识产权:微梦公司提供的网络服务中包含的任何文本、图片、图形、音频和/或视频资料均受著作权、商标和/或其它财产所有权法律的保护,未经相关权利人同意,上述资料均不得在任何媒体直接或间接发布、播放、出于播放或发布目的而改写或再发行,或者被用于其他任何商业目的。
6.1隐私保护:保护用户隐私是微梦公司的一项基本政策,微梦公司保证不会将单个用户的注册资料及用户在使用微博服务时存储在微梦公司的非公开内容用于任何非法的用途,且保证将单个用户的注册资料进行商业上的利用时应事先获得用户的同意。

再另外,还有这一篇扯淡的查水表用的决议: http://news.sina.com.cn/c/2012-12-29/051425921660.shtml
matrixyuri
2014-06-11 13:27:03 +08:00
@icyalala 唔..我是认为,微博里的个人资料页是大家自己写上去的,而且默认是展示给所有人的,不管是关注了还是没关注。所以我觉得这个应该算是公开的吧...因为任何人都可以打开看到。
如果是注册浏览,那其实爬虫所使用的帐号可以随便申请一个...也追究不到。

不过您说的确实是一个隐患,
经过大家的讨论我觉得如果这工具真成了,还是形成一个社区大家共同管理会比较好,放开给大伙儿用可能会有意料之外的后果。

我的本意是希望能通过收集大家在网上自愿公开的信息,在各个社交网络间把同一个人的不同帐号连接起来,共同构成一个人在互联网上的一个样貌。

讨论了这么多,在技术上还没有人愿意参与,感觉大家的焦点在隐私保护方面...其实我一开始是想招募伙伴一起做这个的……楼都歪掉了好伤心...
xinglp
2014-06-11 13:53:28 +08:00
@cevincheung 北外那个twitter上发基站贴的那个女的可能就是通过这种途径找到的。不然你想想这种东西除了老大哥别人谁会有兴趣,没有其它商业方面的驱动。
algo31031
2014-06-11 14:36:14 +08:00
@gkiwi 话说我刚才也收到一封...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/116805

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX