首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX 提问指南
广告
V2EX
›
问与答
怎么监控网站的结构
shsf4
·
2015-06-11 14:18:33 +08:00
· 1927 次点击
这是一个创建于 3446 天前的主题,其中的信息可能已经有所发展或是发生改变。
我现在遇到的问题是,我第一次爬取了一个网页上面的指定内容,然后我下次再想爬取,我怎么确定这个网站的结构是否变化了。
结构
网站
监控
3 条回复
•
2015-06-11 14:42:11 +08:00
1
mhycy
2015-06-11 14:23:19 +08:00
判断抓取信息是否符合预期
2
shsf4
OP
2015-06-11 14:39:19 +08:00
@
mhycy
如果有1000个网站,这样不是需要每个网站人为去判断么,我需要的是用程序来监控。
3
mhycy
2015-06-11 14:42:11 +08:00
@
shsf4
如果是固定站点的爬虫必定是写爬虫的时候预先加入判断的。
你的爬虫如果是通用爬虫的话,爬虫本身就应该具有适应架构变化的能力。
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
2577 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms ·
UTC 10:45
·
PVG 18:45
·
LAX 02:45
·
JFK 05:45
Developed with
CodeLauncher
♥ Do have faith in what you're doing.