如何爬去yahoo! answer的所有问答数据?

2013-08-22 09:21:39 +08:00
 yue5805880
主要做数据挖掘来用。大致的需求如下:

1. 要抓去到所有Yahoo!answer的所有问答数据。
2. 对于每个用户,希望能够获取到该用户在facebook上面的数据(如果该用户使用已将yanghoo mail 账号与facebook绑定,也就是说,该用户使用facebook登陆)。
3. 可以直接爬,也可以使用api.

求各种爬虫大神小神帮帮忙。。。。提供一下思路。。。
2966 次点击
所在节点    问与答
2 条回复
devon
2013-08-22 10:22:00 +08:00
1,找找有没有综引页,那种按问题分类,或者按字母排序的页面。如果有,从索引页开始爬起,分析索引页中的具体answer页面,再抓具体的页。
2,从具体的内容页分析用户名,到fb中去取数据。

这么大的数据量,需要很大的存储空间。还需要注意:

1,跑多线程,这么大量,需要很多线程才能加快抓的速度。
2,不要抓太快,可能会被封,具体的速度,需要用脚本去测试一下。
3,有可能需要很多IP地址,从不同的IP地址去爬。

细节很多,在做的过程中去摸索。
yue5805880
2013-08-22 17:05:09 +08:00
@devon 谢谢你的思路。但从具体的内容页分析用户名,到fb中去取数据这一步。 这是如何做到的? 如何保证此用户和fb上的用户是一个用户呢? yahoo answer 和fb都是使用email来登陆的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/79835

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX