爬虫这一行太难了

2017-05-11 23:14:58 +08:00
 gouchaoer
不干这一行不知道,现在我看到爬虫两个字就想吐
这玩意儿蛋疼的是需要去维护
看友商能搞为啥你不能搞?
维护代理之麻烦
你不知道哪里暴露了自己是爬虫,因为暴漏点太多了
你就想如果我是后台我怎么反你最釜底抽薪
那些用 scrapy 爬个图片爬个逼乎爬个京东评论啥的看到就烦

你们不知道我以前是个 php 后台,熟练的业务我可以飞快的搞,都是套路。。。可是自从入了爬虫坑,我 tm 从 py 到 php,自己写策略,因为根本没有可以参考的,自己编译 selenium 驱动,资源泄露,编译 chromedriver 因为绕不开 bug,搞安卓,写 chrome 扩展,自己猜友商怎么做代理方案复制,还搞出来了一些很 cool 的东西然而没暖用。。。znm 没有套路,太难了
7925 次点击
所在节点    分享发现
39 条回复
sniffles
2017-05-12 10:06:56 +08:00
@dongxiaozhuo 强拍这条,大实话
yangxiongguo
2017-05-12 10:32:41 +08:00
最近在研究 Chrome Headless,有木有交流群之类的
herozzm
2017-05-12 11:07:47 +08:00
@dongxiaozhuo 前者你猜就是去猜解网站的反爬策略,后者解析页面就是写各种正则,匹配规则,体力活
soulmine
2017-05-12 11:19:15 +08:00
一把辛酸泪 坑是数不清的
soulmine
2017-05-12 11:20:14 +08:00
@herozzm 前面也是体力活 斗智斗勇猜反爬 限速你要去测阈值
suliuyes
2017-05-12 12:11:52 +08:00
@herozzm 为什么一定要写正则?选择器和 xpath 也很好用啊。用正则超级累。
herozzm
2017-05-12 12:55:04 +08:00
@suliuyes 有些
herozzm
2017-05-12 12:58:10 +08:00
@suliuyes 有些场景必须正则,还有 json 的,xpath 和类 jquery 选择器不如正则方便,没有 class,没有 id,没有属性,藏的很深的 node
cxh116
2017-05-12 14:17:47 +08:00
@panyanyany 请问代理池的 ip 是采集的?还是购买的?还是自己扫的?
panyanyany
2017-05-12 15:36:47 +08:00
@cxh116 #29 以前买过 ip,但感觉有效 ip 太少,现在主要是采集为主,采集回来还要验证一下,有效 ip 虽然也不多,但好在是免费的
gulullu
2017-05-12 15:38:48 +08:00
znm。。。。陕西人?
chinafeng
2017-05-12 15:39:46 +08:00
推荐一款云爬虫产品: https://www.zaoshu.io
我不是广告, 个人用过, 感觉很不错, 鼠标点一点就好了
crab
2017-05-12 15:42:10 +08:00
@binux 你博客证书到期了。
binux
2017-05-12 15:50:37 +08:00
@gouchaoer 调接口就够了,没必要源码层面二次开发
gouchaoer
2017-05-12 16:45:28 +08:00
@chinafeng 我看你搞了这么久,赚钱了么?能拉上我么
chinafeng
2017-05-12 17:16:08 +08:00
@gouchaoer #35 什么东西 ?
ZSeptember
2017-05-12 18:19:11 +08:00
其实现在的爬虫已经没什么技术难度了,有的只是资源问题。
不管怎么样,只要浏览器端能看见的,都能够爬到,像百度指数那种最麻烦的都能用 OCR 做。只是速度慢点。
其实什么策略都是没什么用的,有策略,速度就曼了,没什么用。
所以,就是堆 IP,或者帐号而已。
做到后面就没啥了,就是一些规则+流程而已
TonyG
2017-05-19 16:55:26 +08:00
@gouchaoer 之前看过你的 PHP 爬虫文章,感觉写的太好了。又看到这篇,感觉唏嘘,这个方向确实太考验人了。你说都是自己编译 selenium, chromedriver,是现成的包有什么问题吗?另外现在有类似 Laravel Dusk 这种测试方案是否有用于爬虫的可能呢?
gouchaoer
2017-05-19 17:10:29 +08:00
@TonyG 你以为我想编译啊,出了 bug 绕不开只有上咯。。。。我 laravel 黑

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/360742

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX