pyspider 爬去文章列表问题

2018-07-01 17:43:18 +08:00
 just1

文章不会更新,永远只需爬取一次,所以靠后的页码就不用再次爬取。

如果抛开框架,大致的思路就是在查重的时候,重:不爬,并且后续列表不再爬,不重:爬取文章。

但是不知道怎么在 pyspider 中实现,请指教。

1333 次点击
所在节点    问与答
9 条回复
WildCat
2018-07-01 19:17:48 +08:00
hash function? 数学之美了解一下。别整天用这个那个框架,基础还是少不了
just1
2018-07-01 19:49:30 +08:00
@WildCat 但是重写一个轮子太费时费力了,而且效果可能并不好😓
golmic
2018-07-01 22:03:04 +08:00
for url in urls: if url in db : break
binux
2018-07-01 23:34:03 +08:00
默认就是去重的
just1
2018-07-02 07:35:46 +08:00
@binux 大佬你好。可能我没表达明白我的意思。
url 是默认去重这个我知道。
但是场景是这样,比如一页 10 文章(此时 1 页,我都采集过了,(/list/1 )。过了 1 天,多发布 15 文章(此时 3 页),那么此时我需要采集 /list/1 和 /list/2(因为发现 2 中有已经采集过的文章,所以 /list/3 就不去访问了)。
binux
2018-07-02 09:30:50 +08:00
@just1 #5 这样没辙,多爬几页咯
just1
2018-07-02 15:01:31 +08:00
@binux #6 如果列表过多,感觉任务偏重,有什么框架能解决吗
just1
2018-07-02 15:05:19 +08:00
@golmic #3 意思就是这样,但是不知道在框架内怎么实现
binux
2018-07-05 09:28:53 +08:00
@just1 #7 预估一下一天更新的量 *2 页就行了,*2 的抓取量都受不了的话,*1 也完成不了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/467256

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX