如何自动找出被删除的网页或发帖

2016-05-03 01:55:37 +08:00
 xiyangyang

应用场景是这样:有一个爬虫系统,各种网站上爬了很多网页。但客户删除了一些网站上的帖子,现在需要重新爬一次,把客户删帖的帖子找出来。这种删帖的情况,好像没有标准。各个网站,论坛会提供各种的 404 方案,甚至是找人。请教各位大侠,有什么办法能怎么准确的找出删帖

3438 次点击
所在节点    Python
8 条回复
binux
2016-05-03 02:30:04 +08:00
1. status code ,即使是找人,返回码一般也是 404 ,不然对 SEO 不利
2. 比内容
pimin
2016-05-03 03:17:59 +08:00
按之前爬的网址重新去爬,只发送 HEAD 请求就可以了。
ysdj
2016-05-03 07:10:47 +08:00
出现重复次数最多的网页为 404
Cu635
2016-05-03 10:16:13 +08:00
我还以为你要找出被删除的帖子然后保留呢……
badcode
2016-05-03 17:14:03 +08:00
@pimin 然而像“我”的人会屏蔽发送 HEAD 请求,没有正常点的 UA 门都没
pimin
2016-05-03 17:31:34 +08:00
@badcode
为什么要屏蔽 head , SEO 不做了?
感觉属于讳疾忌医
badcode
2016-05-03 17:41:26 +08:00
@pimin 忘记说了,曾经搜索第一个就是它
突然想通了
就不要了
Hxai11
2016-05-09 10:41:34 +08:00
404
headers
content

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/275909

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX