写完爬虫后,对方网站改版后如何第一时间知晓?

2016-09-23 11:30:24 +08:00
 pc10201
比如用 scrapy 写了一个爬虫,用 xpath 写了规则获取信息,然后放在服务器欢快的执行了

但如果对方网站改版了,如何第一时间感知到呢?

想到的办法:
1.跟 sentry 结合,报错了发邮件通知
2.用 log 记录,然后用 elk 来处理

有更好或者更优雅的解决办法吗?
4287 次点击
所在节点    Python
14 条回复
yongzhong
2016-09-23 11:33:50 +08:00
有用截图进行分析的
Magic347
2016-09-23 11:36:23 +08:00
没有所谓的优雅方案,数据采集永远都是脏活累活,而且属于暗网技术。
alwayshere
2016-09-23 11:42:39 +08:00
v2ex 政治观点是爬虫都是可耻卑鄙的,你发错地方了
knightdf
2016-09-23 11:54:23 +08:00
叫他们站长给你打个电话
viko16
2016-09-23 11:55:40 +08:00
等报错邮件不就好了么?
qwer1234asdf
2016-09-23 12:36:56 +08:00
看下日志不就知道了
id4alex
2016-09-23 14:05:13 +08:00
exception 发邮件
killerv
2016-09-23 14:25:29 +08:00
这个,采集出错就知道了,或者出错发邮件提醒之类的。没有好办法,而且网站改版的频率不会很高……
mutoulbj
2016-09-23 15:53:30 +08:00
我也觉得是等出错报警吧。改版也不是一定会影响爬虫。
araraloren
2016-09-23 15:55:58 +08:00
~~找一个木马打入对方内部,然后告诉你
ytmsdy
2016-09-23 16:19:45 +08:00
打 log ,记录连续错误次数,如果次数过多停止,发邮件。
Jakesoft
2016-09-23 16:36:09 +08:00
叫他们给你写接口
wizardforcel
2016-09-24 11:34:17 +08:00
如果对方有 JSON 接口,我宁可花点时间反编译也不用 HTML 的。
ooh
2016-09-25 03:43:02 +08:00
要求改版必须经过你的签字同意才允许

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/308388

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX