本人菜鸟,长期潜伏v2ex,发言少,近期学python,学到爬虫这块,脑洞一开,准备做个小玩意,求指点。
总体思路:通过互刷积分,获取大量百度文库积分,用来下载文库收费内容,当下载数量超过10w后建站提供下载。
设想步骤:
1、互刷文库积分,用来下载收费内容
2、用火车头采集所有类别中收费内容,按下载量顺序采集
3、用python写爬虫,读步骤2中的文库列表,下载文库内容归档
4、建站提供下载
新手啥不懂,纯瞎想,求指点,求轻喷。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.