写了个爬虫,不定时运行抓取某列表,循环列表每一条目,再读取数据库数据库对应条目,判断是否存在,不存在则插入,存在则判断哪些字段有更新,再更新上去。
虽然数据库服务器专门给这爬虫用,也没有什么性能问题,但是感觉这样比较死板,请问大家也没有遇到过类似的需求,是怎么处理的?
1
liuweisj 2018-08-15 09:59:17 +08:00
把所有需要更新的内容拼接在一起做 hash,用 BloomFilter 判断是否更新
|
2
jookr 2018-08-15 10:05:09 +08:00
采集的那个 URL 或者文件名肯定不是重复的吧?设置成唯一
``` INSERT INTO `log` (`target_id`,`mobile`,`content,`ctime`) VALUES ('13','13888888888','不确定的内容',unix_timestamp(now())) ON DUPLICATE KEY UPDATE `content`='不确定的内容',`utime`=unix_timestamp(now()); ``` 就可以不存在则插入,存在则更新了。 |
4
jookr 2018-08-15 10:33:55 +08:00
结合 1 楼的方法 有更新了就更新 utime
|