为了避免重复写入数据，应由数据库实现（UNIQUE字段）？还是放在数据库写入之前判断呢？

譬如我写个爬虫，每次爬了都会向数据库写入数据，但很多时候都是重复数据，为了避免重复数据的提交，我能想到的实现方法：

1、将某数据库字段设置为UNIQUE字段，通过insert or ignore table...来写sql语句
2、在sql insert语句之前，通过代码逻辑来判断是否insert，但这样貌似很麻烦：
- 先读取数据库内容
- if 希望插入的内容 in 数据库已有内容（python伪代码）
- 则pass
- 否则insert
这样实现效率肯定狂低吧...

tedd

2013-08-28 11:26:39 +08:00

@lichao 再请教lichao大人，如果数据量很大的情况下（并且我用的是sqlite3...），对数据的压力肯定很大吧？

lichao

2013-08-28 11:28:35 +08:00

数据量很大 sqlite3 性能必然不高啊，sqlite3 大多用在移动平台或者嵌入式平台里面。

awanabe

2013-08-28 11:43:52 +08:00

第二种情况可能出现的是多个线程同时进入逻辑, 都去数据库查询, 返回都是no record, 然后同时插入, 还是会多次记录. 所以没有数据库的unique键, 还是存在问题.
这应该是经典的 put-if-absent 问题...

awebird

2013-08-28 12:44:26 +08:00

可以考虑用两张表读写分离，写数据插入a表的时候不做查询重复判断，id sequence自增，定时或者在数据库闲时，按id范围去重处理后归入b表做查询和其它用途，删除a表这个范围的数据

awebird

2013-08-28 12:59:15 +08:00

@zzNucker 不同方案适用于不同的应用场景吧。这样读写分离，适用于写频繁，读的少而且实时性要求不高的场景，比如写日志尽量要快，读日志哪怕等个几分钟半小时也可以接受。准实时的话，就缩短时间

tedd

2013-08-28 14:06:33 +08:00

@keakon 是传说中的nosql一类的数据库吗？这种重复的问题就不会存在对数据库也没有任何压力了？好像python中的字典的确也是键都是独一的

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/80478

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.