大家如何看待爬虫和爬虫教程近日被推到风口浪尖这种现象?

2017-04-18 22:54:50 +08:00
 Miksztowi

最近发现关于爬虫的教程和实战如雨后春笋一样疯狂涌现。但据我了解,首先爬虫这个技术是几年前甚至更早以前就已经出现了,而且爬虫本身的技术天花板并没有多高把,但是为何最近开始这么热门? 同时又有一些技术大 V 的回答和专栏中对爬虫的评价并不友好,是厌恶爬虫还是厌恶这种技术被捧到风口浪尖? 题主也有过一些简单操作爬虫的经验,看到爬虫在风口浪尖上,想到这样的行为会不会使互联网公司开始加大反爬虫的力度,有没有可能做到彻底的禁止爬虫行为呢? 希望大家可以不吝赐教,非常感谢。

7495 次点击
所在节点    Python
43 条回复
justtery
2017-04-18 23:01:10 +08:00
没事,你放心,教程用什么写的你还不知道麽?最初的时候还学习爬虫的时候看教程就是 urlib2 然后我就找到了 requests 库,教程用的 bs4 我就发现了 pyquery 啊哈哈,教程中是 python2.7 的版本,我用的 python3
Miksztowi
2017-04-18 23:09:57 +08:00
@justtery pyquery 好用吗?我第一次听到这个库,哥们有什么使用心得吗?
IanPeverell
2017-04-18 23:12:39 +08:00
爬虫技术天花板其实很高的,只是你没看到而已,大多数教程都是入门级别的,所以在看了这么多入门教程之后我也觉得烦闷了,一点新意都没有,千篇一律将框架使用方法,将怎么一点一点由 requests 入手到是用 scrapy 或者 pyspider 的,然而对于高级一点的比如 scrapy 的 downloadmiddleware 等内容则是只字未提,作者自己可能甚至连 scrapy 或者 pyspider 的构架都不甚了解就写一个教程去了,这种教程再多也是没有什么意义的,都是一样的

然而对于反爬虫和反反爬虫肯定是不断迭代的,彻底打败对方也是很难的
Zzzzzzzzz
2017-04-18 23:23:25 +08:00
没有风口浪尖, 一直这样, 技术领域叫爬虫, 关于 nutch 之类的书不停出了十几年, 豆瓣的人几年前就吐嘈过他们网站是每个练爬虫的必爬的. 非技术领域叫采集, 十四五年前开始就是动易、 dede 、 phpcms 这些文章系统的标准功能, 还有 NC 、火车头之类的专用程序, 懂个 html 学个基本正则使用就能上手

python 圈子尤其火是因为从协程库到抓取库到 parser 库一个都不缺, 而且还有个行业老大哥叫 google
gouchaoer
2017-04-18 23:24:39 +08:00
@IanPeverell 爬虫天花板真的不高,我是高级爬虫开发工程师,做着做着就发现基本上数据都能搞到了,完善了一些基础组件之后发现没啥可做的了。。。最后干脆研究 chromium 内核玩了
gouchaoer
2017-04-18 23:29:57 +08:00
@Zzzzzzzzz google 的爬虫又不是 py 写的。。。 py 的抓取框架一大堆,但某些基础组建质量真不咋样, py 火不是因为它好而是因为它就是火,就跟 laravel 火不是因为它优雅而是因为它就是火。。。。
Miksztowi
2017-04-18 23:54:43 +08:00
@gouchaoer 都能搞到吗?电商这种反爬虫比较厉害的规则怎么制定呢?能不能分享下你的经验或者给个思路?非常感谢。
Miksztowi
2017-04-18 23:55:33 +08:00
@gouchaoer 如何结构化的整站获取电商或者博客这种?我觉得反爬虫是真的头很痛啊 QAQ
laike9m
2017-04-18 23:57:59 +08:00
@gouchaoer Google 最开始的爬虫是 py 写的

知乎 Python 区的风气其实就是被那么几个账号带坏了,人的问题是主要的,题材的问题是次要的。
Miksztowi
2017-04-18 23:58:59 +08:00
@laike9m 这里的带坏是什么个意思?大量传播入门级教程还是说过大的鼓吹爬虫?
Miksztowi
2017-04-19 00:00:12 +08:00
@IanPeverell 是的,但是教程本身也是由作者花了心血的,可能对很多人提供不了帮助,但是为何会去抵触呢?
actto
2017-04-19 00:01:34 +08:00
因为大数据啊!不收集数据,怎么分析数据。
另外就是信息现在生产的地方太多,各种门户,各个微信公众号,各个微博,等等都是有价值信息的生产者,第一时间收集,并做价值分析,高于一定的值,则交由人工处理。。
laike9m
2017-04-19 00:02:19 +08:00
@Miksztowi 靠爬虫博取关注然后把人拉进微信群开班收费
laike9m
2017-04-19 00:03:26 +08:00
@Miksztowi 那些文章,代码缩进都没有的,一看就是不知道从哪抄的文章,自己都没看过一遍,这种都不批判的话,那也太客气了。
bdbai
2017-04-19 00:29:47 +08:00
为什么楼上全都钦定 py 呢?其实 Nodejs 也不错的,原生异步,有类似 jQuery 那样的 DOM 处理库,顶多自己组合一下就有了。
bombless
2017-04-19 00:52:59 +08:00
首先这是 py 节点其次本来 v2 主要就是粉 py ,毕竟网站就是 py 写的, 233
binux
2017-04-19 02:33:00 +08:00
爬虫工程师这个职位的天花板可以说并不高,因为到上面之后,有的人变成了算法工程师,有的人变成浏览器引擎工程师等等。
但是就国内对爬虫工程师的需求来说, 99%的都是只限于对特定网站的配模板和简单的数据清洗。这些工作都是非常初级的,他们也是这些教程面向的目标。

真到了 top 1%,其实全国并没有多少人,而且大部分都不是「爬虫工程师」出身,他们虽然对于页面渲染,甚至 HTTP 协议不甚熟悉,但是算法,工程能力会更好。至于用什么编程语言根本就不是问题,甚至解析的对象也不限于 HTML ,这不过是很平常的又一个工程问题罢了。
crab
2017-04-19 07:59:31 +08:00
爬虫是 Python 的入门吧。像 ASP PHP 写留言板。
klxq15
2017-04-19 07:59:53 +08:00
爬虫并不是最重要的一环吧,只能说是最基础的一环,分析数据的方法才是重要的
justtery
2017-04-19 08:04:57 +08:00
@Miksztowi 不知道你 jQuery 用的怎么样,如果你熟悉 jQuery 的选择器的话,那就是妥妥的好用。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/355750

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX