众人拾柴火焰高,一起来开发一个自动化的社交网络信息收集工具吧!

2014-06-11 08:18:32 +08:00
 matrixyuri
这是前几天偶然冒出来的一个点子,主要的想法是:

从前获取一个人的信息的时候,往往是通过某一个社交平台入手,
比如从微博开始,看 ta 的个人资料页面,寻找他绑定过什么应用,寻找经常与他进行交互的人的情况,从这些地方可以推断出这个人所在的城市、工作单位、毕业院校等信息,通过看过往微博还可以大致了解这个人的历程。
从知乎开始通常是看个人资料页面看 ta 是否绑定了微博,然后转入之前的步骤;或者是看 ta 关注的话题、看 ta 回答的最好的话题,也可以大致了解一些 ta 的情况。
其他的社交平台也可以搜刮出不少信息,比如在 V2EX,LinkIn etc.

于是觉得可以做一个自动化的工具,更全面更准确的获取这些信息,通过对一个人的各种社交平台信息的分析,得到关于 ta 的多个关键字和基本信息,还可以获得 ta 的人际圈情况,通过对人际圈里每个人的基本信息提取,可以大致知道目标的很多情况。

详细的想法介绍我都放在了 Github 上。

对于这个程序的想法主要是:

1.大家一起来开发,针对不同社交平台的模块开发出不同的模块,
2.通过统一的数据输入输出约定保证数据格式一致,
3.程序有统一的入口,通过调用模块获取结果,最终统一的展示出来,



已经在 Github 上建好了项目,在 README 里简单阐述了想法,希望能有更多的人一起来玩这个东西,一起把这个事做成。
Github : https://github.com/MatrixYuri/rMap

对于实现语言还没有决定,
本想用 PHP 会比较熟悉,但是 PHP 没有好用的异步以及并发,另外 PHP 也不适合这样运行时间很久的程序。
用 Python 的话,我不是很喜欢 Python 的性能...
Java 同理,虽然它很强大
Go?我觉得不错,性能和功能上都能满足要求,不过我还不太熟练,如果有熟悉 Go 的朋友加入,我想进度会快很多
C/C++ 这...会方便开发吗..

如果大家有建议欢迎提出,晚辈是一只代码仔,会认真参与这个项目的执行,
所以,现在有一个巨好玩的 idea,就差小伙伴们一起来玩了。

欢迎邮件联系 zhang1437 (艾特) gmail.com
10781 次点击
所在节点    分享创造
104 条回复
cevincheung
2014-06-11 09:02:40 +08:00
@matrixyuri
你理解错了哦。用户不是软件或系统的始作俑者哦。你做了数据存储、收集、维护。单凭这三点你就依然是一个“营业者”了哦。这个条规很适用的哦。
cevincheung
2014-06-11 09:04:31 +08:00
别想这些有的没的了。做这些你还不如做一个 [基于P2P的自动翻墙工具] 来的实在。而且你还是 [互联网的救世主] 。这多屌。google的uproxy还不知道后年马月才出现。看好你哦。
az402
2014-06-11 09:05:33 +08:00
黑镜 。。
xinglp
2014-06-11 09:06:53 +08:00
@viquuu
@cevincheung
看起来楼主像是要做更牛逼舆情监督系统,然后卖给government,大家以后不要乱说话了
matrixyuri
2014-06-11 09:08:12 +08:00
@cevincheung
啊..酱的吗,我都没获利也没得到啥好处...

那好吧...被你们说的这么恐怖,我自个默默做好了..
怪不得黑客的工具很多都是写了自己用..本想着做个大伙儿都能参与的项目,被说成这样..

有兴趣参与的可以继续联系我....
没人一起的话,我就一个人慢慢打磨它好了。

哀怨中..
devon
2014-06-11 09:08:22 +08:00
工具是很好,很久以前想过。确实有一点隐私问题,不知道法律上是怎么界定的。

Python,Ruby做爬虫都很方便啊,前期性能根本不是问题。最好是把总体架构设计好,各个模块可替换,可用不同的语言去写,这样,参与的人数会更多。而且,有性能问题时,随时替换掉一个模块就好了。其实也不一定需要爬虫,各大社交网站都提供API的吧。

全部使用用户自愿公开的数据来做,先打通各个社交平台的API(这可以形成一个项目,用于其它用途),然后可考虑如果将这些数据聚合一下。
cevincheung
2014-06-11 09:08:24 +08:00
@xinglp
果然水很深
matrixyuri
2014-06-11 09:09:40 +08:00
@xinglp 舆情监督系统?俺们系有个老师做这个咧,不过他针对的是全部新浪微博的微博数据进行分析,最终可以得到某一时间段内的热点问题,从哪里开始经过怎样的传播最终影响了多少人。

我没这理想啦..就是懒的手动人肉而已……就酱
yangff
2014-06-11 09:11:14 +08:00
其实这个系统已经有了。。
binux
2014-06-11 09:11:32 +08:00
你们想的太简单了,关联才是最难的。
xinglp
2014-06-11 09:11:32 +08:00
@matrixyuri 你们系还真有搞这方面的啊,是不是最近接到大单了
matrixyuri
2014-06-11 09:13:19 +08:00
@devon
嗯嗯,我目前的想法也是整体架构很重要,一开始就要有一个考虑长远的规范,保证整体架构长期不用变动就可以支持很多功能。

api 一般有频率限制,我觉得直接爬页面简单粗暴点..当然 api 的数据格式会比较干净,方便提取。

唔,这样看来,如果各个模块用不同语言写的话,需要涉及到语言中间的协同,这一点我还不是很懂,需要进一步学习~~不过谢谢您~!
CRight
2014-06-11 09:13:29 +08:00
You are being watched.
The government has a secret system--a machine that spies on you every hour of every day.
matrixyuri
2014-06-11 09:14:23 +08:00
@xinglp 那老师好像搞了有几年了吧,至少一年多了。

不太清楚有没有项目诶...我觉得可能性不大,估计他想先做出来然后再找项目?
反正他没和我说过这东西有谁资助他……可能是某个大项目里边的子课题吧~
matrixyuri
2014-06-11 09:15:17 +08:00
@CRight 哈哈,然后不定时的丢个社保号出来给见义勇为的勇士吗~~:)

不知道你有没有看懂这个梗……美剧《疑犯追踪》
emric
2014-06-11 09:17:32 +08:00
@matrixyuri 在中华人民共和国境内提供电信服务和互联网信息服务过程中收集、使用用户个人信息的活动,适用本规定。
欸, 本身就是违法的..
matrixyuri
2014-06-11 09:19:30 +08:00
@yangff 我也觉得..就是没找到。

估计有的话,也会考虑到楼上几位的法律问题而保密的吧...
说起来还可能确实造成些法律问题呢..

我现在的想法是限制在代码贡献者内使用,作为一个工具大家商议决定对谁使用。
保证它只会被用于网络负面人物,不知道这样会有啥问题……

囧,代码还一个字没有呢就出来这么多技术无关问题...
matrixyuri
2014-06-11 09:19:54 +08:00
@emric 唉 ... 真是让人伤脑筋
devon
2014-06-11 09:20:02 +08:00
@CRight 系统就是要具备这个效果,哈哈。
sammo
2014-06-11 09:21:49 +08:00
类似 FriendFeed (2011 年被广泛讨论的聚合社交应用 via http://www.zhihu.com/topic/19557142 ) ?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/116805

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX