请容我用最简单的语言描述一下应用场景,大佬们来评定下是否不适合用 scrapy

2018-02-28 12:23:55 +08:00
 jakeyfly

每天早上 10 第一次爬取会获取一个列表,里面有 200 多个 ID。

每个 ID 都可以构造 20 个跟这个 ID 有关系的请求地止,然后按一定的顺序爬取 20 个地止的数据。

之后就是对这 200 个下 每个 ID 下的 20 个构造的 URL 进行监测有更新就爬取更新的数据(因为是以表格的形势呈现的,最上的就是最新的,只要保存上次获取的条数比如用 XPATH 的 COUNT,然后本次爬取的条数只要比上次的多,就爬取多出来的几条。)

这 200 个爬取条目 每个都有停止更新的时间。最终还要实现,以停止更新时间为准。在这之前半小时爬一次。停止前 10 分数爬一次。过了时间就去掉这个 URL 不爬了。就是超过时间就会把 URL 去掉。最后列表为空后爬虫就停止。

以上应用场景 是否要自己定制,scrapy 不太适合?

961 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/433441

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX