关于爬虫几个问题请教

2020-07-21 16:45:48 +08:00
 Colorful

1 、win10 里面如何写爬虫的定时任务?没想过定时任务这块不太懂 2 、每次爬取出来的数据,有重复的,用的是 mysql 数据库,如何更好的解决这个问题? 暂时想到的两个方法,一个是定时清除重复数据,另外一种是显示最新的那条数据

2717 次点击
所在节点    Python
24 条回复
holajamc
2020-07-22 11:53:30 +08:00
数据量不大的情况下可以用 UNIQUE INDEX 来避免重复,数据量比较大可以采用 redis BloomFilter
Mr0Han
2020-07-22 13:33:49 +08:00
定时任务 schedule 模块够用,去重。。。都用上 mysql 了。。。。索引去重他不香吗,劝退。。。
Hider5
2020-07-22 15:51:19 +08:00
代码丢服务器,cron 创建定时任务就好了
Colorful
2020-07-22 22:52:36 +08:00
@Hider5 懂了,感谢感谢..没想到服务器这块,只想到了本地

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/691956

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX