爬虫与反爬虫的问题

2016-08-05 10:02:21 +08:00
 harry890829

一直听说爬虫和反爬虫技术,这段时间也在看 csrapy 框架,不过这次问的不是代码相关.

一个网站为什么需要反爬虫呢?

我们爬虫主要不就是仿造浏览器访问页面,然后收集页面么?

如果网站上有广告,有一批爬虫在一直扫,这样不能带来广告收益么?

如果有爬虫在爬,也能把网站的流量数据升上来吧。

不过一些有实体收益、服务的网站除外,比如宝,东这类,毕竟爬虫会影响网站效率,不过一般的资讯网站呢?

2265 次点击
所在节点    问与答
10 条回复
gimp
2016-08-05 10:30:13 +08:00
1 , 原创数据 /文章,小说类网站防爬,目的显而易见,航班 /金融类数据,有些也都是花钱买来,整理出来的。当然不希望别人爬,再者,爬虫太多后消耗服务器资源
2 ,爬虫本质就是获取页面指定数据
3 ,网站上有广告,需要爬虫支持渲染 js 才行,比如 selenium+浏览器
4 ,现在的 web 站我觉得已经不是靠流量的时代了,广告展示的收益很小,网站红火需要有真实的用户去存留,消费
5 ,如果是原创资讯网站,自己写的文章,被别人自动采集,自动修改内容发布,这样一键操作,不仅被盗取劳动果实,对 SEO 也有很大影响,就像自己写完博客,搜索标题关键字,到了采集站...
sheep3
2016-08-05 10:42:41 +08:00
1, 爬虫并不能对你的网站有什么广告收益
2, 爬虫其实就是在偷数据
3, 服务器受不了
harry890829
2016-08-05 10:49:51 +08:00
@gimp
@sheep3
原来爬虫并不能创造广告收益啊,那流量也没什么用么?
qiayue
2016-08-05 10:56:39 +08:00
所谓的流量必须是真实的流量才有广告价值,因为真实的用户才有可能对你的广告感兴趣,进而点击广告。
当然上面说的是按照点击计算的广告,也有按照时间计算的广告。
一般小网站流量不多,放 Adsense 或者百度广告联盟,都是按点击计算居多,也有少部分按照效果计费。
大网站或者强势的媒体,他们一般是按时间付费,包月包年之类的。比如 V2EX 就是按日收费。
sheep3
2016-08-05 12:38:23 +08:00
@harry890829 爬虫那几个 ip 有什么用?

还有,站在 SEO 的角度,这种对 SEO 也没有什么用
harry890829
2016-08-05 14:46:47 +08:00
@sheep3
@qiayue
好吧,多谢两位
3dwelcome
2016-08-05 20:05:32 +08:00
楼主不知道流量是要花钱的嘛。
harry890829
2016-08-05 20:24:48 +08:00
@3dwelcome 啊啊?我一直以为网站的流量高了能赚钱啊……
InFaNg
2016-08-23 21:26:59 +08:00
如果你被 cc 了,流量不少啊,但是并不能赚钱
wulin76
2017-07-28 00:00:33 +08:00
如何判断流量的真实性呢?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/297286

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX