众人拾柴火焰高,一起来开发一个自动化的社交网络信息收集工具吧!

2014-06-11 08:18:32 +08:00
 matrixyuri
这是前几天偶然冒出来的一个点子,主要的想法是:

从前获取一个人的信息的时候,往往是通过某一个社交平台入手,
比如从微博开始,看 ta 的个人资料页面,寻找他绑定过什么应用,寻找经常与他进行交互的人的情况,从这些地方可以推断出这个人所在的城市、工作单位、毕业院校等信息,通过看过往微博还可以大致了解这个人的历程。
从知乎开始通常是看个人资料页面看 ta 是否绑定了微博,然后转入之前的步骤;或者是看 ta 关注的话题、看 ta 回答的最好的话题,也可以大致了解一些 ta 的情况。
其他的社交平台也可以搜刮出不少信息,比如在 V2EX,LinkIn etc.

于是觉得可以做一个自动化的工具,更全面更准确的获取这些信息,通过对一个人的各种社交平台信息的分析,得到关于 ta 的多个关键字和基本信息,还可以获得 ta 的人际圈情况,通过对人际圈里每个人的基本信息提取,可以大致知道目标的很多情况。

详细的想法介绍我都放在了 Github 上。

对于这个程序的想法主要是:

1.大家一起来开发,针对不同社交平台的模块开发出不同的模块,
2.通过统一的数据输入输出约定保证数据格式一致,
3.程序有统一的入口,通过调用模块获取结果,最终统一的展示出来,



已经在 Github 上建好了项目,在 README 里简单阐述了想法,希望能有更多的人一起来玩这个东西,一起把这个事做成。
Github : https://github.com/MatrixYuri/rMap

对于实现语言还没有决定,
本想用 PHP 会比较熟悉,但是 PHP 没有好用的异步以及并发,另外 PHP 也不适合这样运行时间很久的程序。
用 Python 的话,我不是很喜欢 Python 的性能...
Java 同理,虽然它很强大
Go?我觉得不错,性能和功能上都能满足要求,不过我还不太熟练,如果有熟悉 Go 的朋友加入,我想进度会快很多
C/C++ 这...会方便开发吗..

如果大家有建议欢迎提出,晚辈是一只代码仔,会认真参与这个项目的执行,
所以,现在有一个巨好玩的 idea,就差小伙伴们一起来玩了。

欢迎邮件联系 zhang1437 (艾特) gmail.com
10781 次点击
所在节点    分享创造
104 条回复
devon
2014-06-11 09:22:56 +08:00
@matrixyuri 模块间,模块与总系统间的数据通信定义好就好。这样,每个人都可以用自己熟悉的语言来写自己需要的模块。

系统有点像一个IFTTT,不过IFTTT是以我为中心,这个是以某个用户为中心,相当于,某个用户在weibo上发了条,自动存储到中心数据中;在blog上发布了一个新文章,同样的存储到这个中心数据中。
matrixyuri
2014-06-11 09:25:33 +08:00
@sammo 唔..好像有点像。

看看人家FriendFeed这意图,同志们...我觉得这个项目的说明可以包装下,哈哈
TangMonk
2014-06-11 09:26:01 +08:00
nodejs搞起
devon
2014-06-11 09:28:09 +08:00
@TangMonk 用nodejs是个不错的选择。
matrixyuri
2014-06-11 09:28:30 +08:00
@devon 唔,我最初的设想还没有自动存储。

是想程序执行一次,将用户的过往社交数据尽可能多的提取、分析,然后得到关键词和个人信息结果供参考。

如果是用户发一个微博就提取过来....似乎没有推送,得实时去爬,那要是目标多的话……会比较可怕...
devon
2014-06-11 09:31:47 +08:00
@matrixyuri 如果这样的话,node-webkit + nodejs,存储也做到本地。做成一个工具软件用。先不做数据关联,让用户自己去建要关注的帐号,以及这个帐号下属的一系列社交应用/feed。这样的话,就简单很多了。从简单着手。
qian19876025
2014-06-11 09:33:36 +08:00
扯了半天 就是个社工库 人口流动跟踪 不过也是 这年代东西只要上网 毛线隐私啊

与其爬社交网络不如直接查户口算球
devon
2014-06-11 09:35:18 +08:00
@qian19876025 户口查不出来一个人的喜好,兴趣,社交活动.......
TangMonk
2014-06-11 09:39:00 +08:00
@devon 我追随你,反正最近也在学nodejs, 也好练练手,不过我觉得node-webkit 没有 atom-shell好。
Akiyori
2014-06-11 09:39:50 +08:00
Spokeo
qian19876025
2014-06-11 09:52:53 +08:00
@devon 社交网络你就能查到喜好?
如果真想查喜好 我看只有一种站最真实 那就是黄站上的数据
社交网络能查到的是人的圈子 人脉关系

看来要对付这种想了解人隐私 只能直接加密聊天和 不上社交网了
url
2014-06-11 09:56:23 +08:00
我开始对楼主讨厌了,楼主的想法超出了我的底线
idcspy
2014-06-11 09:59:08 +08:00
上次见过类似这个系统,友拓,利用人人等sns的公开信息,已经被雅虎收购了。
huang321hp
2014-06-11 10:02:18 +08:00
大数据原理类似?和隐私无关,只是自动执行信息采集的工具,不涉及hacker,所有采集的内容都来自公开的信息源,由软件自动聚合在一起,执行的效率比手工快很多。

* 已通过iPhone通讯录查到多枚熟人注册的“小号微博”,这个从现实角度来说不算隐私吧?

* 要考虑被社交网络屏蔽&封杀的可能。
iyoood
2014-06-11 10:03:00 +08:00
楼主其实只是想拿到他女神手机号而已:^
sun019
2014-06-11 10:31:40 +08:00
人肉搜索 还是手动的好吧 自动的话杀伤力太大
而且你在怎么开发也没有 z&f那套强啊
addbook
2014-06-11 10:41:42 +08:00
此项目可以有,主要是看你怎么用,实际上夸平台的数据采集会很全面,可以更加全面的分析用户特点,某些情况可以做到比搜索引擎的数据分析更精确的用户特点分析,因为按照楼主说的方法是没有遵循robot.txt的意思;实际上很多有用的信息都具有较强的反爬虫机制,无用的信息反而喜欢让搜索引擎去爬。
ren2881971
2014-06-11 10:50:29 +08:00
just for fun 又没有犯法 又没有伤害谁。
支持楼主。
ihacku
2014-06-11 10:50:41 +08:00
XDash
2014-06-11 10:53:28 +08:00
Hail Hydra!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/116805

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX