爬重复数据

2017-11-09 17:04:41 +08:00
 IAmAnonymous

目前一个版块有 100 页数据,每页 30 条主题。

有一条主题在第 50 页,这条主题如果有新的操作(比如评论、点赞),那么这条主题会跑到第一页第一条。

那么下次爬新数据的时候,怎么样才能尽量不爬重复的数据(也就是重复页),怎么定位下回爬的时候的页码范围?

1641 次点击
所在节点   科技
9 条回复
GooMS
2017-11-09 20:16:24 +08:00
只要正文吗?那简单点记录爬过的 url
shyling
2017-11-09 21:15:15 +08:00
倒着爬啊 ww
Baboonowen
2017-11-09 23:56:48 +08:00
@shyling 记录 URL 中的帖子 id 吧
Baboonowen
2017-11-09 23:57:04 +08:00
@shyling 倒着一样会有重复问题
Cooky
2017-11-10 00:02:29 +08:00
你不重复爬一旦有的帖子删了你就漏爬咯
neosfung
2017-11-10 00:53:15 +08:00
Simhash
IAmAnonymous
2017-11-10 10:12:52 +08:00
@neosfung 谢谢,学到新的东西了
IAmAnonymous
2017-11-10 10:13:28 +08:00
@Cooky 恩,是的,目前来看没有好的办法,只能重复几页比如( 5 )页数据
neosfung
2017-11-10 11:29:04 +08:00
@IAmAnonymous 搜索引擎都是用类似算法来给相似页面去重的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/405020

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX