pyspider 爬去文章列表问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 2856 days ago, the information mentioned may be changed or developed.

文章不会更新，永远只需爬取一次，所以靠后的页码就不用再次爬取。

如果抛开框架，大致的思路就是在查重的时候，重：不爬，并且后续列表不再爬，不重：爬取文章。

但是不知道怎么在 pyspider 中实现，请指教。

pyspider

列表

文章

爬

9 replies • 2018-07-05 09:28:53 +08:00

WildCat

Jul 1, 2018

hash function? 数学之美了解一下。别整天用这个那个框架，基础还是少不了

just1

Jul 1, 2018 via Android

@WildCat 但是重写一个轮子太费时费力了，而且效果可能并不好😓

golmic

Jul 1, 2018 via Android

for url in urls: if url in db : break

binux

Jul 1, 2018 via Android

默认就是去重的

just1

Jul 2, 2018 via Android

@binux 大佬你好。可能我没表达明白我的意思。
url 是默认去重这个我知道。
但是场景是这样，比如一页 10 文章（此时 1 页，我都采集过了，（/list/1 ）。过了 1 天，多发布 15 文章（此时 3 页），那么此时我需要采集 /list/1 和 /list/2(因为发现 2 中有已经采集过的文章，所以 /list/3 就不去访问了）。

binux

Jul 2, 2018

@just1 #5 这样没辙，多爬几页咯

just1

Jul 2, 2018

@binux #6 如果列表过多，感觉任务偏重，有什么框架能解决吗

just1

Jul 2, 2018

@golmic #3 意思就是这样，但是不知道在框架内怎么实现

binux

Jul 5, 2018

@just1 #7 预估一下一天更新的量 *2 页就行了，*2 的抓取量都受不了的话，*1 也完成不了