想利用爬虫做一个豆瓣小组发帖搜索引擎，讨论下可行性

打算做一个针对豆瓣小组发帖内容的搜索引擎：定向一些热门活跃小组（八卦组，逼组还有你懂的），根据用户名称，标题 /内容和话题回复进行搜索，搜索结果的每一项需要包含：标题，内容概要以及话题的前几张图片（如果带有图片的话）。

初步设想是用 nodejs （或者 python ）去定时爬数据，爬虫程序挂在云上，爬下来的数据包含图片都存在 MongoDB 里。因为豆瓣小组的 API 本身是开放的（详见 https://www.douban.com/group/topic/33507002/ ）。

针对某个小组的话题列表，话题内容以及话题回复都是可以通过 API 获取到的。所以使用 API 爬数据而不是获取网页页面解析数据。

那么问题来了，跑这样一个程序需要多大内存以及硬盘空间？以上方案是否合理？第一次做爬虫程序，请指教。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.