众人拾柴火焰高,一起来开发一个自动化的社交网络信息收集工具吧!

2014-06-11 08:18:32 +08:00
 matrixyuri
这是前几天偶然冒出来的一个点子,主要的想法是:

从前获取一个人的信息的时候,往往是通过某一个社交平台入手,
比如从微博开始,看 ta 的个人资料页面,寻找他绑定过什么应用,寻找经常与他进行交互的人的情况,从这些地方可以推断出这个人所在的城市、工作单位、毕业院校等信息,通过看过往微博还可以大致了解这个人的历程。
从知乎开始通常是看个人资料页面看 ta 是否绑定了微博,然后转入之前的步骤;或者是看 ta 关注的话题、看 ta 回答的最好的话题,也可以大致了解一些 ta 的情况。
其他的社交平台也可以搜刮出不少信息,比如在 V2EX,LinkIn etc.

于是觉得可以做一个自动化的工具,更全面更准确的获取这些信息,通过对一个人的各种社交平台信息的分析,得到关于 ta 的多个关键字和基本信息,还可以获得 ta 的人际圈情况,通过对人际圈里每个人的基本信息提取,可以大致知道目标的很多情况。

详细的想法介绍我都放在了 Github 上。

对于这个程序的想法主要是:

1.大家一起来开发,针对不同社交平台的模块开发出不同的模块,
2.通过统一的数据输入输出约定保证数据格式一致,
3.程序有统一的入口,通过调用模块获取结果,最终统一的展示出来,



已经在 Github 上建好了项目,在 README 里简单阐述了想法,希望能有更多的人一起来玩这个东西,一起把这个事做成。
Github : https://github.com/MatrixYuri/rMap

对于实现语言还没有决定,
本想用 PHP 会比较熟悉,但是 PHP 没有好用的异步以及并发,另外 PHP 也不适合这样运行时间很久的程序。
用 Python 的话,我不是很喜欢 Python 的性能...
Java 同理,虽然它很强大
Go?我觉得不错,性能和功能上都能满足要求,不过我还不太熟练,如果有熟悉 Go 的朋友加入,我想进度会快很多
C/C++ 这...会方便开发吗..

如果大家有建议欢迎提出,晚辈是一只代码仔,会认真参与这个项目的执行,
所以,现在有一个巨好玩的 idea,就差小伙伴们一起来玩了。

欢迎邮件联系 zhang1437 (艾特) gmail.com
10781 次点击
所在节点    分享创造
104 条回复
Akagi201
2014-06-11 14:57:03 +08:00
用go的话, 加我一个, qq: 1413031398
matrixyuri
2014-06-11 15:00:57 +08:00
@Akagi201 已收下 QQ,具体的实现语言和架构还在思考和讨论~
欢迎提出想法建议哈~~
algo31031
2014-06-11 15:17:15 +08:00
直接主动去抓的话, 怎么都感觉不好

或者可以可以换个思路

各大网站基本都有开放平台api. 觉得还是要让用户先注册然后向用户申请授权.只抓取有授权的

刚才看了下61楼那邮件的站, 似乎就是做这个的

但即便是这样,从被抓那人角度看, 还是觉得不放心: "你抓我一堆数据要做什么? 万一你把抓来的数据泄露了咋办?" 如果被抓数据的认识我, 第一感觉就是那2个问题

细思极恐
XadillaX
2014-06-11 15:17:27 +08:00
我想说的是,很多网络小白,会经常不经意把隐私信息留在网络上,也许是非常不起眼的地方,而且一般人也不会去注意。但是这个时候突然来了个有心人,把他在网上所有的痕迹捞出来呢?就相当于泄露了不该泄露的东西啊。
matrixyuri
2014-06-11 15:32:18 +08:00
@algo31031
@XadillaX

唔,资料是用户自己填的...是公开的,这个工具要做的只是收集起来,然后分析一下。

我觉得有点像这样的情景:
一个人从小到大说了好多话,有一个录音机在旁边全都录下来,于是通过这个录音可以分析出这个人的交际圈、交互最多的好友之类的信息,当然也可能会分析出家地址、公司等等没有明说的信息。

我觉得大家在互联网上发布了内容,不管是微博还是帖子,都要想到这些是完全公开在互联网上的,任何一个人都有能力看得到,进而有技术的人会想到设计工具来爬取这些。

感觉纠结的一点在于,单个帖子微博是公开的无所谓,使用工具规模化的提取、分析这些公开信息,得到的这个结果,到底算不算是公开合法的呢?
因为你的隐私不是我窃取到的,是通过你的网络印记统计出来的,甚至可能只是简单的关键词统计就能得到有价值的结果。

我主张结果依然是合法的,这个工具是允许设计和运行的,但同时这个程序结果应该限定一个查看范围,不能肆意公开在互联网上,毕竟这样的结果相当于极大的缩短了社工时间。
如果有这样的工具,社会调查、企业招聘等等,可以很全面的得到候选人的互联网信息,想比起自我介绍,我觉得用这个工具更能评价出一个人在互联网上的样貌。
algo31031
2014-06-11 15:36:49 +08:00
@matrixyuri 参看13楼, "我主张结果依然是合法的" 《电信和互联网用户个人信息保护规定》似乎不这么认为

第九条 未经用户同意,电信业务经营者、互联网信息服务提供者不得收集、使用用户个人信息。

  电信业务经营者、互联网信息服务提供者收集、使用用户个人信息的,应当明确告知用户收集、使用信息的目的、方式和范围,查询、更正信息的渠道以及拒绝提供信息的后果等事项。

  电信业务经营者、互联网信息服务提供者不得收集其提供服务所必需以外的用户个人信息或者将信息用于提供服务之外的目的,不得以欺骗、误导或者强迫等方式或者违反法律、行政法规以及双方的约定收集、使用信息。

  电信业务经营者、互联网信息服务提供者在用户终止使用电信服务或者互联网信息服务后,应当停止对用户个人信息的收集和使用,并为用户提供注销号码或者账号的服务。

  法律、行政法规对本条第一款至第四款规定的情形另有规定的,从其规定。
matrixyuri
2014-06-11 15:45:35 +08:00
@algo31031
我觉得这事儿可以这么解决,用户来注册 rMap,然后告知 ta 我们会提取与 ta 相关的主流社交网站信息进行分析,得到的结果呈现给 ta 自己看,另外可以给 ta 一个链接分享给别人看。

这样的话,有一个告知的步骤,另外结果的分享完全是用户主动自愿的。

这样我觉得应该完美解决这个问题了....吧
kuber
2014-06-11 15:49:51 +08:00
我觉得关于隐私有点误解。如果是未经得用户同意公开出来的信息,抓取并作商业应用是不合法的。如果是经过同意,甚至是用户主动公开的,能用来为用户提供更好的服务则不是。
语义网是个很早就开始的东西了,你可以microformat 来定义你的个人信息放在你自己的网页上(以及一些国外主流的服务上),让机器来读取你的信息。从这一点来说和rss 跟Rich Snippets 是一样的东西。Twitter, Flickr,facebook 都支持它。所以理论上你可以做到不过主要是对美国人。
有兴趣的人可以看看这个四年前的demo: http://www.identengine.com/
这个作者关于microformat的博客也值得一看: http://www.glennjones.net/articles
kuber
2014-06-11 15:54:50 +08:00
以前我也写过一个demo,给我一个社交网站账号(人人,微博,twitter,博客,甚至你的邮件地址),我可以找到你的其他社交网站上的账号(人人,微博,博客,twitter,flickr等等),并且抓取上面的内容。
当时的应用场景是聚合你的信息流,类似friendfeed或者about.me
matrixyuri
2014-06-11 15:55:44 +08:00
@kuber 感谢!好贴合的干货!认真阅读ing..
sammo
2014-06-11 16:37:31 +08:00
我认为本楼里说的是两个东西,均不涉及隐私问题。
第1个是类似 ifttt 的服务,可以在用户授权的情况下,从被授权的网站提取信息,组织于一个页面上。这个页面可以让我看到我和围脖好友的互动,看到我在豆瓣写过的书评,看到我在知乎写过的答案,看到我在某音乐网站听过的歌曲,总之,包含我在互联网上的足迹 —— 前提是,我给它授权,且网站有开放API。
这样的消息呈现,是 API 内容的大聚合。实际上这(可以)是在授权之后由根网站的开放 API 的实现自动推送[ 参见 FriendFeed ]

第2个是也是收集并展示一个人在各个网站上的足迹,只是这不是经过授权的,而是纯抓取。由一系列(能绕过网站抓取限制)抓取规则组成,这是可以实现的。
这样的消息呈现,是爬虫信息的大聚合。

对于第2个,看似是有隐私问题,但实际上是不存在的 —— 因为爬虫无法超越被爬网站隐私规则,爬虫收集到的是公开的拼图。
对于第1个,更是没有隐私问题,因为你可以选择不授权或根本不用这个服务。
-*-

搭车,我对于第1个这样类似 ifttt 的 搭建于 API 授权的服务十分赞同,即在授权的情况下,从不同的社交网络拉取我在那上发布过的信息,这是合理的。

联想 google+ 的圈子,体现出了网络上的不同的人的不同身份(例如 一个精力分散的人可以是虎扑上的体育迷,也可以同时爱在豆瓣上写新书书评或在v社分享发现,或在艾尼墨分享动画,在某网站分享摄影作品)。而这样的服务,相当于把虎扑网豆瓣v社艾尼墨等 *垂直领域的bbs* (而不只是 google+ 上的球迷圈子、新书推荐圈子)联系了起来,节点就是人。
———— 这个服务呈现的,(比任何一个垂直领域bbs呈现的)更加趋近于一个真实的人?

如果这个服务,有自己的网站(即所有使用这个服务的人的信息,都聚合在此),再匹配一个赏心悦目的页面设计的话....
另:
1 这个服务是信息的搬运工,所以可能比垂直领域bbs省去了 “ 网站运营 ” 这么个职位
2 因为在做大之后,可能会和垂直领域bbs竞争,极可能导致这些bbs直接关闭对这个服务的API提供,所以这个东西最好最终会开源 非盈利
caomu
2014-06-11 16:50:19 +08:00
caomu
2014-06-11 17:00:03 +08:00
@sammo 第一个这个类似FF的,我记得国内好像有类似的,有人网,不过好像也死了。 http://www.36kr.com/p/29435.html

关于这个需求,我也有两个方面的需求。一个是一站聚合各站好友的时间线,不必微博豆瓣到处跑。一个是一站聚合我的时间线,可按权限显示不同内容,让我的好友不必到处跑。
然后是数据挖掘和热点挖掘功能,自动推送用户需要的信息,而不是沉溺在信息汪洋之中。
chens
2014-06-11 17:21:39 +08:00
我觉得应该先抛开隐私道德层面的东西,楼主这个想法非常好,用程序来实现社交搜索中采集+匹配的工作,挺有挑战的。
icloudnet
2014-06-11 19:48:47 +08:00
首先这个在美英等发达国家是不允许的
这是隐私侵犯,就跟肖像权一样,人家可以露脸,但是你不可以拿来用

这也是Google允许欧洲可以删除隐私的事

虽然在中国这个没问题,几年前被投诉到FBI过,自此开始才重视隐私条款
所以我们做的英文网站特注意隐私条款和term of use。

当然,你要是在中国做,没话说。
matrixyuri
2014-06-11 23:07:33 +08:00
@icloudnet
酱紫的吗...

我后来的想法是用户授权,提供 ta 自己的邮箱或者昵称 blabla 的基础信息,然后这个工具绘制出 ta 在互联网上的足迹社交圈之类,这样算是用户自愿的,我觉得应该没问题。

可以通过邮箱验证来确定这个用户是这个邮箱的所有者。
reverland
2014-06-12 00:14:41 +08:00
maltego?
WildCat
2014-06-12 01:58:37 +08:00
@gkiwi 我也有收到!
matrixyuri
2014-06-12 07:56:49 +08:00
@reverland
呃...有点类似,我想rMap 应当更注重社交网络平台的内容获取和分析,得到的结果更倾向于对一个人的描述词
sunjourney
2014-06-12 09:18:49 +08:00
http://thepast.me/
符合LZ的要求不?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/116805

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX