关于爬虫几个问题请教

2020-07-21 16:45:48 +08:00
 Colorful

1 、win10 里面如何写爬虫的定时任务?没想过定时任务这块不太懂 2 、每次爬取出来的数据,有重复的,用的是 mysql 数据库,如何更好的解决这个问题? 暂时想到的两个方法,一个是定时清除重复数据,另外一种是显示最新的那条数据

2716 次点击
所在节点    Python
24 条回复
ShuoHui
2020-07-21 16:54:18 +08:00
1 定时任务的话,你看看 APScheduler 能不能满足你的需求
2 重复的话,数据量不大的话存入前可以确认下吧(本菜鸟的想法
ohao
2020-07-21 16:57:35 +08:00
。。。。。。。。
醒醒。。。。。。。
你这逻辑和对应的关系都没搞清楚写什么爬虫。。。。。

定时任务和写爬虫不搭嘎的好吧
“定时” 任务 = 定时执行任务 , 任务=写好的爬虫脚本
合起来理解为
每分钟、小时,天,周 或其他时间区间,运行写好的脚本 = 脚本=bat,bash,php,java,perl 等


重复的 replace into 也可以
更好的使用临时表存储,然后做数据清洗后入正常表 (提前去重)
ctro15547
2020-07-21 17:01:28 +08:00
1.开机启动,然后脚本 if time==9 点 ,开工,if time==18 点,收工
2.看自己需求
BBrother
2020-07-21 17:20:13 +08:00
windows 自带计划任务
Colorful
2020-07-21 17:22:18 +08:00
@ShuoHui APScheduler 我刚刚看了,那个暂时针对 python 的,但是爬虫的时候,是在命令行里面执行的,这块我得好好看看,看能不能满足需求。
因为爬取的网站都是一样的,数据肯定会有重复的。只是不知道怎么样更方便的去解决
Colorful
2020-07-21 17:23:15 +08:00
@ohao 有点懂了,那可能我的理解不太对吧。定时任务就是,定时执行什么脚本。然后脚本里面去写我的爬虫任务。这样才算是我的需求了。
xiri
2020-07-21 17:34:41 +08:00
windows 有计划任务,跟 linux 下的 crontab 相对
至于重复数据的问题,你都玩爬虫了,去重不是基本操作吗?每次写入数据之前数据是否已经存在,数据量比较大的话可以试试 redis 的布隆过滤器
xiri
2020-07-21 17:36:11 +08:00
@xiri 每次写入数据之前判断数据是否已经存在

另外,如果是你爬取一个网站的很多页面的话,每次把爬过了的链接存起来,后面不再爬这些链接就行了
Colorful
2020-07-21 17:45:39 +08:00
@xiri 有点理解了。懂了,太感谢了
sockball07
2020-07-21 17:58:44 +08:00
关键词 schtasks
crella
2020-07-21 18:37:42 +08:00
我一开始还是想问这些问题,后来还是自己多查查已有的方法来解决的。
也就多逼自己自行解决问题。
Colorful
2020-07-21 18:52:04 +08:00
@crella 你是怎么解决这些问题的啊?
tikazyq
2020-07-21 19:42:12 +08:00
关键词,爬虫管理平台,crawlab 了解一下?加我 wx 拉群咨询,tikazyq1
musi
2020-07-21 19:46:53 +08:00
@tikazyq 借楼问一下,我想把我司的爬虫迁到 crawlab,有技术指导不
tikazyq
2020-07-21 20:00:21 +08:00
@musi 可以的,加我 wx 咨询吧
jsnjfz
2020-07-21 20:08:34 +08:00
windows 自带计划任务启动 python 爬虫脚本
jeeyong
2020-07-21 20:09:41 +08:00
计划任务?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????
jugelizi
2020-07-21 21:27:31 +08:00
mysql 里可以设置主键或唯一索引 replace into 替换或插入 也可以借助 redis
定时可以设置锁 防止多个运行
Colorful
2020-07-22 11:14:41 +08:00
@jsnjfz 只知道有个计划任务,但是启动 python 脚本就不太会了
Colorful
2020-07-22 11:15:11 +08:00
@jugelizi 原来 mysql 还有这个功能,太感谢了..

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/691956

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX