请各位大佬，如何成为一个合格的爬虫工程师？

先说一下小弟背景：非科班出身，刚接触用 Pyhton 写爬虫两个月左右。最近接到的任务是爬取淘宝商品列表上的信息，被各种反爬搞的焦头烂额，对于前端知识极度匮乏的我，终于体会到只有后端知识是远远不能成为一个合格的爬虫工程师，所以在此向各位大佬请教一条前端知识的学习路线。首先最起码能分析出对方的反爬手段，接着就是如何反反爬。老弟我在此先感谢大家的献言献计。

wersonliu9527

2019-01-29 15:23:04 +08:00

哎，我就是爬虫的，前端 java 都略懂。一般公司都搭好扩展好爬虫框架，每天写点解析，也有爬淘宝部分商品的需求
对于我这种菜鸟，pc 淘宝网页很难搞，浏览商品都要登录，app 抓包更是头大。最后通过 https://h5.m.taobao.com 这个找到接口取到了需要的数据

szetrov

2019-01-29 15:52:27 +08:00

@locoz 我勒个去这是用什么做的混淆诶，怎么有进制还有其他编码

37Y37

2019-01-29 16:03:37 +08:00

就中国目前的法律来说，爬虫都是违法的。。。

binux

2019-01-29 16:05:06 +08:00

@37Y37 少来这种把前提统统去掉，直接压缩到爬虫都是违法的

penghong

2019-01-29 17:09:35 +08:00

爬虫没有前途

37Y37

2019-01-29 18:24:35 +08:00

@binux 开始你的表演，把前提给补上

Kylin30

2019-01-29 18:32:23 +08:00

小偷公司？

locoz

2019-01-29 20:51:15 +08:00

@szetrov #22 这是阿里的

locoz

2019-01-29 20:57:22 +08:00

@37Y37 #26 前提有很多，数据的版权问题、数据的用途、部分数据对源站点是否重要（比如原创视频、电商网站的价格、景点 /票务类网站的余票 /价格信息）、用户协议中是否有标明禁止爬虫采集 /逆向工程等都可以影响爬虫的违法与否

locoz

2019-01-29 21:09:48 +08:00

@37Y37 #27 顺便再举两个例子：
比如你做了个网站，搜索引擎来爬你，你觉得违法的话那你的网站就不要让人家索引了呗，自己想办法导用户去；
比如你控制着任天堂的 eshop，有人来爬不同地区的游戏价格，然后做了个比价网站给其他玩家用来参考，不管你觉得违不违法你都不一定会去管，因为根本不影响你的利益，有了这网站之后一部分玩家还会买游戏买得更欢，你收厂商的授权费和抽成还是一样的收，皆大欢喜。

locoz

2019-01-29 21:10:51 +08:00

@locoz #30 楼层数打错了 #27 -> #26

richangfan

2019-01-29 21:21:47 +08:00

爬虫从入门到入狱

forget166

2019-01-29 22:50:37 +08:00

阿里系网站正一五时花六时变，没有一定量的代理 ip 和账号，第一关你就出局了

37Y37

2019-01-30 09:30:30 +08:00

@locoz 学到了大佬，其实是未经授权的爬取应该都是违法的，这里不讨论数量，既然是需要爬虫去爬了数量肯定不会少，不管对方有没有告就法律层面来说就是违法的

locoz

2019-01-30 10:36:48 +08:00

@37Y37 #34 那你认为人肉爬虫违法吗？就是招一群实习生去 1688 上复制粘贴商品信息，然后上传到自家平台上的，这种公司我是见过的，从技术层面上来说这也是爬虫，只不过是人来做采集入库这个操作而已，但阿里并没有给过什么授权。
如果要说这事情违法的话，在律条里也找不出哪条能定罪的，毕竟人家只是从 1688 上复制粘贴到另一个地方，也没侵犯阿里的什么权益，最终货源还是走 1688 上去采购。
如果按“未经授权的爬取应该都是违法的”这种方式来说这公司是违法了的话，那是不是所有人在复制粘贴淘宝上的商品信息到微信上之前还要问一下阿里同不同意了呢？是不是当今社会上的几乎所有人都已经违法了呢？

37Y37

2019-01-30 11:43:31 +08:00

@locoz 你这就抬杠了，人肉爬都整出来了

locoz

2019-01-30 11:45:55 +08:00

@37Y37 #36 没抬杠，这是我见过的实际情况，确实存在这样的公司，人家就是招实习生人肉爬的。

binux

2019-01-30 15:56:14 +08:00

@37Y37 为了防止你耍赖满地打滚，你说的是所有，那我是不是指出一条合法的爬虫就可以了？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/531392

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.