爬虫这一行太难了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3155 天前的主题，其中的信息可能已经有所发展或是发生改变。

不干这一行不知道，现在我看到爬虫两个字就想吐
这玩意儿蛋疼的是需要去维护
看友商能搞为啥你不能搞？
维护代理之麻烦
你不知道哪里暴露了自己是爬虫，因为暴漏点太多了
你就想如果我是后台我怎么反你最釜底抽薪
那些用 scrapy 爬个图片爬个逼乎爬个京东评论啥的看到就烦

你们不知道我以前是个 php 后台，熟练的业务我可以飞快的搞，都是套路。。。可是自从入了爬虫坑，我 tm 从 py 到 php，自己写策略，因为根本没有可以参考的，自己编译 selenium 驱动，资源泄露，编译 chromedriver 因为绕不开 bug，搞安卓，写 chrome 扩展，自己猜友商怎么做代理方案复制，还搞出来了一些很 cool 的东西然而没暖用。。。znm 没有套路，太难了

友商

PHP

套路

暴漏点

39 条回复 • 2017-05-19 17:10:29 +08:00

gouchaoer

2017-05-11 23:18:30 +08:00 via Android

某合作的友商喜欢用 QQ，我也喜欢用 qq，他们太好了，业务熟练，问的问题很好，质疑的好，比不上别人

simple2025

2017-05-12 00:57:33 +08:00 via iPhone

大神教我写爬虫 a

binux

2017-05-12 01:08:29 +08:00

chrome headless 模式可以用了。直接用呗，还要什么编译。
限于工作限制，不能自己搞，不过我可以教你

geelaw

2017-05-12 01:57:09 +08:00 via iPhone

WebDriver 啊

WildCat

2017-05-12 02:37:12 +08:00 via iPhone

@binux 前辈，在伦敦找工作有什么经验可以分享吗

binux

2017-05-12 03:32:34 +08:00

@WildCat #5 我都是想去哪就直接投的。。

GoBeyond

2017-05-12 05:58:37 +08:00 via Android

scrapy 爬怎么了？

lulinux

2017-05-12 07:32:44 +08:00

看到楼主这样的自言自语就烦

murmur

2017-05-12 07:51:20 +08:00

都抛弃 phantom 了。。

lekai63

2017-05-12 08:20:17 +08:00 via iPhone

所以 php 成最烦的语言？！

2017-05-12 08:36:19 +08:00 via Android

难才有市场。。

Messiahhh

2017-05-12 08:51:52 +08:00 via Android

对爬虫的进攻比防守要难很多……

panyanyany

2017-05-12 09:05:20 +08:00

我用代理池去爬淘宝感觉还是可以的，只要控制好一个 ip 一小时内只爬几个页面，就很少被 ban。由于代理池里有 1k+个可用 ip，所以爬取效率目前来说可以接受。

twm

2017-05-12 09:20:07 +08:00 via iPhone

技术没啥难的难的是斗智斗勇

gouchaoer

2017-05-12 09:24:44 +08:00 via Android

@binux 你会 chromium 二次开发么？我不想搞爬虫了，能带带我么？

gouchaoer

2017-05-12 09:27:21 +08:00 via Android

@twm 我觉得你说得对，爬虫太没技术含量了，可斗智斗勇我不行啊，我没勇气又懒，人也笨

dongxiaozhuo

2017-05-12 09:33:29 +08:00 via iPhone

@gouchaoer 爬虫的烦恼两件事：突破反爬，解析页面。前者基本等于：你猜，后者等于富士康员工。

MrFireAwayH

2017-05-12 09:44:23 +08:00 via Android

@binux 活捉跳蚤巨巨😱

broono

2017-05-12 09:53:04 +08:00 via Android

@dongxiaozhuo 卧槽了简直吐出了我的心声。目前在做 PY 爬虫 996 开发维护，有的还要自己封装成接口给人用做实时在线查询啊了个去，一个注册查询的接口要请求一两百个站真是感觉体力不支。
对了，不知道富土康招不招人😂

fuxkcsdn

2017-05-12 10:05:36 +08:00 via iPhone

特意去翻了你的发帖记录，没错，你不就是在 v2 上发过 2 篇爬虫分享文章的作者嘛😳遇到瓶颈了？

sniffles

2017-05-12 10:06:56 +08:00

@dongxiaozhuo 强拍这条，大实话

yangxiongguo

2017-05-12 10:32:41 +08:00

最近在研究 Chrome Headless，有木有交流群之类的

herozzm

2017-05-12 11:07:47 +08:00 via Android

@dongxiaozhuo 前者你猜就是去猜解网站的反爬策略，后者解析页面就是写各种正则，匹配规则，体力活

soulmine

2017-05-12 11:19:15 +08:00

一把辛酸泪坑是数不清的

soulmine

2017-05-12 11:20:14 +08:00

@herozzm 前面也是体力活斗智斗勇猜反爬限速你要去测阈值

suliuyes

2017-05-12 12:11:52 +08:00

@herozzm 为什么一定要写正则？选择器和 xpath 也很好用啊。用正则超级累。

herozzm

2017-05-12 12:55:04 +08:00 via Android

@suliuyes 有些

herozzm

2017-05-12 12:58:10 +08:00 via Android

@suliuyes 有些场景必须正则，还有 json 的，xpath 和类 jquery 选择器不如正则方便，没有 class，没有 id，没有属性，藏的很深的 node

cxh116

2017-05-12 14:17:47 +08:00 via Android

@panyanyany 请问代理池的 ip 是采集的？还是购买的？还是自己扫的？

panyanyany

2017-05-12 15:36:47 +08:00

@cxh116 #29 以前买过 ip，但感觉有效 ip 太少，现在主要是采集为主，采集回来还要验证一下，有效 ip 虽然也不多，但好在是免费的

gulullu

2017-05-12 15:38:48 +08:00

znm。。。。陕西人？

akafeng

2017-05-12 15:39:46 +08:00

推荐一款云爬虫产品: https://www.zaoshu.io
我不是广告, 个人用过, 感觉很不错, 鼠标点一点就好了

crab

2017-05-12 15:42:10 +08:00

@binux 你博客证书到期了。

binux

2017-05-12 15:50:37 +08:00 via Android

@gouchaoer 调接口就够了，没必要源码层面二次开发

gouchaoer

2017-05-12 16:45:28 +08:00

@chinafeng 我看你搞了这么久，赚钱了么？能拉上我么

akafeng

2017-05-12 17:16:08 +08:00

@gouchaoer #35 什么东西 ?

looplj

2017-05-12 18:19:11 +08:00

其实现在的爬虫已经没什么技术难度了，有的只是资源问题。
不管怎么样，只要浏览器端能看见的，都能够爬到，像百度指数那种最麻烦的都能用 OCR 做。只是速度慢点。
其实什么策略都是没什么用的，有策略，速度就曼了，没什么用。
所以，就是堆 IP，或者帐号而已。
做到后面就没啥了，就是一些规则+流程而已

TonyG

2017-05-19 16:55:26 +08:00

@gouchaoer 之前看过你的 PHP 爬虫文章，感觉写的太好了。又看到这篇，感觉唏嘘，这个方向确实太考验人了。你说都是自己编译 selenium, chromedriver，是现成的包有什么问题吗？另外现在有类似 Laravel Dusk 这种测试方案是否有用于爬虫的可能呢？

gouchaoer

2017-05-19 17:10:29 +08:00

@TonyG 你以为我想编译啊，出了 bug 绕不开只有上咯。。。。我 laravel 黑