第一帖:学爬虫爬文库,下载文库,总量初步准备 10w 级别,说思路,求指点

2015-05-27 11:05:23 +08:00
 leozy2014

本人菜鸟,长期潜伏v2ex,发言少,近期学python,学到爬虫这块,脑洞一开,准备做个小玩意,求指点。

总体思路:通过互刷积分,获取大量百度文库积分,用来下载文库收费内容,当下载数量超过10w后建站提供下载。

设想步骤:
1、互刷文库积分,用来下载收费内容
2、用火车头采集所有类别中收费内容,按下载量顺序采集
3、用python写爬虫,读步骤2中的文库列表,下载文库内容归档
4、建站提供下载

新手啥不懂,纯瞎想,求指点,求轻喷。

4261 次点击
所在节点    问与答
13 条回复
professorz
2015-05-27 11:21:05 +08:00
互刷文库积分怎么做到
leozy2014
2015-05-27 11:38:20 +08:00
@professorz 有软件自动化,具体搜一下,见到过,忘记名字了
lincanbin
2015-05-27 11:53:41 +08:00
先找好律师,问问如果被版权所有人告了,会赔多少,掂量一下成本。
leozy2014
2015-05-27 11:59:43 +08:00
@lincanbin 谢谢提醒
alp
2015-05-27 12:49:31 +08:00
手机版下载不需要积分的
zhaoxiting1997
2015-05-27 13:56:50 +08:00
对于不长的文档不用积分直接通过类似截图一样的方法制成PDF不是更简单。过多刷积分估计会被封。只有一下长的文档或者电子书才要用积分下载。应该做一个函数算一下。还有有些文档有完全相同的免费或便宜的文档,应当建文档名再搜索一次,根据页数和大小判断。
另:建议选用合适位置的vps,忽略dcma的,并且加密好做好网盘备份。
leozy2014
2015-05-27 15:20:28 +08:00
@alp 还有个思路就是便携个手机程序,爬取下载到手机再导出。。。仅设想。。。
leozy2014
2015-05-27 15:22:23 +08:00
@zhaoxiting1997 这都是具体细节算法了,另外dcma是啥嘛?
zhaoxiting1997
2015-05-27 16:32:07 +08:00
@leozy2014 数字千年版权法。美国vps收到DCMA版权投诉,核实后会封号
gamecreating
2015-05-27 16:47:21 +08:00
不用担心盗版..别人告你的时候 你已经赚HI了...你如果没赚钱 他也懒得告你...
这就是中国现状.
alp
2015-05-27 17:04:04 +08:00
@leozy2014 找到手机接口就可以了,为啥非要手机下载呢。之前弄过百度文库1.0的接口。不知道还能不能用
leozy2014
2015-05-27 19:12:03 +08:00
@alp 对哦,我那是笨办法嘛。
wondervendor
2016-04-18 01:59:33 +08:00
还不如直接共享这些账号

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/194048

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX