关于爬虫,现在有没有技术可以实现,不请求连接,而能知道目标网站是否更新的技术?

2018-05-31 20:12:29 +08:00
 jakeyfly

增量爬取,肯定要先读取页面,或接口,才能知道目标源是否更新。我觉得这就像一个黑洞一样,你不把头伸进去,是不会知道里面情况是否变化的。 可我一直发现有人吹,可以在不请求的情况下,得知目标网站是否变化? 实在想不通其中原理,求大佬们解惑。

1800 次点击
所在节点    问与答
18 条回复
wintercoder
2018-05-31 20:14:00 +08:00
对方调你接口,然而这是不太可能的
xiaoke0718
2018-05-31 20:15:02 +08:00
用 Python
whoami9894
2018-05-31 20:24:49 +08:00
要不问问吹的那个人怎么做到的
Kendall
2018-05-31 20:30:45 +08:00
访问 archive 或者 Google 的缓存页面?
jakeyfly
2018-05-31 20:38:30 +08:00
@Kendall。。。缓存怎么可能有实时信息
Foolt
2018-05-31 20:47:44 +08:00
原理很简单,只要敢吹,什么都有可能。
jiangnanyanyu
2018-05-31 20:52:17 +08:00
去他们公司工作
LukeChien
2018-05-31 20:55:20 +08:00
静态页面用 head 方法读响应头的 etag,可以节约流量。部分情况下有效。
opengps
2018-05-31 20:58:03 +08:00
可以啊,变相实现,请求百度的快照#######
a7a2
2018-05-31 21:11:32 +08:00
这些都是你自己写代码实现的一部分。。。

每次访问取 body 然后 md5 写入数据库,下次同样方式然后对比 md5 即可

“可以在不请求的情况下,得知目标网站是否变化?“是不可能的,对自己掌握的技术及一些基本原理要有信心。

爬虫在页面停留,页面自动刷新已经算是接收了数据。
gamexg
2018-05-31 21:27:33 +08:00
访问列表页,列表页按更新时间排序?
night98
2018-05-31 21:32:49 +08:00
http 304 ?否则不请求怎么可能知道有没有变化,就跟你不去执行方法你怎么知道方法的返回值是什么?
qsnow6
2018-05-31 22:33:03 +08:00
http header 的 tag md5 length 都可以 不需要读取 body
shiny
2018-05-31 22:37:23 +08:00
用算法预测网站的更新时间
xkeyideal
2018-06-01 08:59:33 +08:00
买通对方的程序员即可
Sylv
2018-06-01 09:49:23 +08:00
量子。。。量子纠缠?
jakeyfly
2018-06-01 11:03:59 +08:00
@qsnow6 这样也算请求了吧
Len1133
2018-06-01 16:46:19 +08:00
建立预测模型

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/459367

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX