你们一般都爬些什么?

2017-07-17 22:53:39 +08:00
 julyclyde
我看很多人都从爬虫入手学习 python 啊,可是在我的认识里,基本上是个网站都有各种防爬措施了吧,那你们到底在爬什么呢?如何区分是自己的程序有问题还是被对方给防御了?
10118 次点击
所在节点    Python
60 条回复
kangu
2017-07-18 17:10:13 +08:00
@ikeeper 哈哈哈哈,好主意,同 mark !!
af463419014
2017-07-18 18:30:17 +08:00
爬 V2EX 的文章,看这些文章哪些被删了,哪些被移动了,什么时间操作的
然后可以给 livid 统计一下他的工时
mnhkahn
2017-07-18 18:32:42 +08:00
豆瓣害羞组
sxm
2017-07-18 18:42:20 +08:00
@lxml 前不久用 PHP 爬过,3 大类的车牌差不多 34 万+,磁力 85 万+,各类图片 1 千万+(下载下来 4 百多 G,开了 30 个 PHP 进程来抓,花了 1 天多)
a68UkLHpycW7ImyV
2017-07-18 18:52:55 +08:00
@myself659410 用的哪的接口啊?
Kalv8n
2017-07-18 19:04:17 +08:00
hentai 网站,不过看腻了又不想玩了
yu099
2017-07-18 20:29:44 +08:00
@sxm 数据还是很容易拿的,就是难以筛,好坏要是能用机器学习筛出来的话。
OpenJerry
2017-07-18 21:34:57 +08:00
mark
gulangyu
2017-07-18 21:52:45 +08:00
豆瓣害羞组爬虫已写好,高速运行中... 多谢科普!
stzz
2017-07-18 23:08:36 +08:00
靠,本来自制力就弱,结果不小心点开这个帖子
今天鸡儿又没得放假了😢
mingyun
2017-07-18 23:32:10 +08:00
@janxin mark 了
ddjian
2017-07-19 08:41:06 +08:00
mark 了 谢谢各位!
wqqdhero
2017-07-19 09:54:00 +08:00
mark 感谢各位司机
myself659410
2017-07-19 10:00:47 +08:00
@wlbcs 强行爬取
linus3389
2017-07-19 10:22:35 +08:00
pixiv
icerwinter
2017-07-19 12:09:33 +08:00
A 级通缉令的数据
niuoh
2017-07-19 15:48:47 +08:00
推荐一个 http 代理网站 http://www.ip-chi.net
tumbzzc
2017-07-19 17:26:16 +08:00
tumblr、1024、各种视频网站,应有尽有
sunwei0325
2017-07-19 22:01:53 +08:00
给老司机们跪了
Mavious
2017-07-25 22:34:54 +08:00
在线学习,20 分钟要确认一次在线。机器代挂机。
对搜罗各种数据没有兴趣。只是拿来辅助人工而已。偷偷懒。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/376024

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX