大家如何看待爬虫和爬虫教程近日被推到风口浪尖这种现象？

最近发现关于爬虫的教程和实战如雨后春笋一样疯狂涌现。但据我了解，首先爬虫这个技术是几年前甚至更早以前就已经出现了，而且爬虫本身的技术天花板并没有多高把，但是为何最近开始这么热门？同时又有一些技术大 V 的回答和专栏中对爬虫的评价并不友好，是厌恶爬虫还是厌恶这种技术被捧到风口浪尖？题主也有过一些简单操作爬虫的经验，看到爬虫在风口浪尖上，想到这样的行为会不会使互联网公司开始加大反爬虫的力度，有没有可能做到彻底的禁止爬虫行为呢？希望大家可以不吝赐教，非常感谢。

justtery

2017-04-18 23:01:10 +08:00

没事，你放心，教程用什么写的你还不知道麽？最初的时候还学习爬虫的时候看教程就是 urlib2 然后我就找到了 requests 库，教程用的 bs4 我就发现了 pyquery 啊哈哈，教程中是 python2.7 的版本，我用的 python3

Miksztowi

2017-04-18 23:09:57 +08:00

@justtery pyquery 好用吗？我第一次听到这个库，哥们有什么使用心得吗？

IanPeverell

2017-04-18 23:12:39 +08:00

爬虫技术天花板其实很高的，只是你没看到而已，大多数教程都是入门级别的，所以在看了这么多入门教程之后我也觉得烦闷了，一点新意都没有，千篇一律将框架使用方法，将怎么一点一点由 requests 入手到是用 scrapy 或者 pyspider 的，然而对于高级一点的比如 scrapy 的 downloadmiddleware 等内容则是只字未提，作者自己可能甚至连 scrapy 或者 pyspider 的构架都不甚了解就写一个教程去了，这种教程再多也是没有什么意义的，都是一样的

然而对于反爬虫和反反爬虫肯定是不断迭代的，彻底打败对方也是很难的

Zzzzzzzzz

2017-04-18 23:23:25 +08:00

没有风口浪尖，一直这样，技术领域叫爬虫，关于 nutch 之类的书不停出了十几年，豆瓣的人几年前就吐嘈过他们网站是每个练爬虫的必爬的. 非技术领域叫采集, 十四五年前开始就是动易、 dede 、 phpcms 这些文章系统的标准功能，还有 NC 、火车头之类的专用程序，懂个 html 学个基本正则使用就能上手

python 圈子尤其火是因为从协程库到抓取库到 parser 库一个都不缺, 而且还有个行业老大哥叫 google

gouchaoer

2017-04-18 23:24:39 +08:00

@IanPeverell 爬虫天花板真的不高，我是高级爬虫开发工程师，做着做着就发现基本上数据都能搞到了，完善了一些基础组件之后发现没啥可做的了。。。最后干脆研究 chromium 内核玩了

gouchaoer

2017-04-18 23:29:57 +08:00

@Zzzzzzzzz google 的爬虫又不是 py 写的。。。 py 的抓取框架一大堆，但某些基础组建质量真不咋样， py 火不是因为它好而是因为它就是火，就跟 laravel 火不是因为它优雅而是因为它就是火。。。。

Miksztowi

2017-04-18 23:54:43 +08:00

@gouchaoer 都能搞到吗？电商这种反爬虫比较厉害的规则怎么制定呢？能不能分享下你的经验或者给个思路？非常感谢。

Miksztowi

2017-04-18 23:55:33 +08:00

@gouchaoer 如何结构化的整站获取电商或者博客这种？我觉得反爬虫是真的头很痛啊 QAQ

laike9m

2017-04-18 23:57:59 +08:00

@gouchaoer Google 最开始的爬虫是 py 写的

知乎 Python 区的风气其实就是被那么几个账号带坏了，人的问题是主要的，题材的问题是次要的。

Miksztowi

2017-04-18 23:58:59 +08:00

@laike9m 这里的带坏是什么个意思？大量传播入门级教程还是说过大的鼓吹爬虫？

Miksztowi

2017-04-19 00:00:12 +08:00

@IanPeverell 是的，但是教程本身也是由作者花了心血的，可能对很多人提供不了帮助，但是为何会去抵触呢？

actto

2017-04-19 00:01:34 +08:00

因为大数据啊！不收集数据，怎么分析数据。
另外就是信息现在生产的地方太多，各种门户，各个微信公众号，各个微博，等等都是有价值信息的生产者，第一时间收集，并做价值分析，高于一定的值，则交由人工处理。。

laike9m

2017-04-19 00:02:19 +08:00

@Miksztowi 靠爬虫博取关注然后把人拉进微信群开班收费

laike9m

2017-04-19 00:03:26 +08:00

@Miksztowi 那些文章，代码缩进都没有的，一看就是不知道从哪抄的文章，自己都没看过一遍，这种都不批判的话，那也太客气了。

bdbai

2017-04-19 00:29:47 +08:00

为什么楼上全都钦定 py 呢？其实 Nodejs 也不错的，原生异步，有类似 jQuery 那样的 DOM 处理库，顶多自己组合一下就有了。

bombless

2017-04-19 00:52:59 +08:00

首先这是 py 节点其次本来 v2 主要就是粉 py ，毕竟网站就是 py 写的， 233

binux

2017-04-19 02:33:00 +08:00

爬虫工程师这个职位的天花板可以说并不高，因为到上面之后，有的人变成了算法工程师，有的人变成浏览器引擎工程师等等。
但是就国内对爬虫工程师的需求来说， 99%的都是只限于对特定网站的配模板和简单的数据清洗。这些工作都是非常初级的，他们也是这些教程面向的目标。

真到了 top 1%，其实全国并没有多少人，而且大部分都不是「爬虫工程师」出身，他们虽然对于页面渲染，甚至 HTTP 协议不甚熟悉，但是算法，工程能力会更好。至于用什么编程语言根本就不是问题，甚至解析的对象也不限于 HTML ，这不过是很平常的又一个工程问题罢了。

crab

2017-04-19 07:59:31 +08:00

爬虫是 Python 的入门吧。像 ASP PHP 写留言板。

klxq15

2017-04-19 07:59:53 +08:00

爬虫并不是最重要的一环吧，只能说是最基础的一环，分析数据的方法才是重要的

justtery

2017-04-19 08:04:57 +08:00

@Miksztowi 不知道你 jQuery 用的怎么样，如果你熟悉 jQuery 的选择器的话，那就是妥妥的好用。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/355750

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.