多线程爬虫写入 mysql 特别的慢

2018-10-30 16:00:24 +08:00
 a65420321a
4234 次点击
所在节点    Python
30 条回复
luozic
2018-10-30 19:53:10 +08:00
先写 nosql 后面再同步到 mysql
a65420321a
2018-10-31 10:40:15 +08:00
我。。。。换了个数据库,重构了一下表结构,速度上去了
CEBBCAT
2018-11-01 14:48:37 +08:00
@a65420321a 可以详细说说吗?
CEBBCAT
2018-11-01 14:55:53 +08:00
@xyjincan 请教一下,服务器中跑的服务很多,瞬息万变,可能一转眼系统就开始杀进程了,该如何把握时机把数据存入数据库呢?
CEBBCAT
2018-11-01 15:12:35 +08:00
@a65420321a #4 请问可以把源码贴一份到 gist 吗?想学习一下,多谢
wersonliu9527
2018-11-02 09:58:07 +08:00
对于中小量数据,直接用 pandas
pd.Dataframe([]) 暂存内存后直接 to_sql,大量数据 用 scrapy+mysql/mongodb
a65420321a
2018-11-02 11:43:40 +08:00
@CEBBCAT 测试数据库没有配置好,换到了正式库上面,重新建了个表,索引主键唯一值什么的定义好,代码原封不动跑一遍,速度上来了。
虽然还是很慢。。。。。
a65420321a
2018-11-02 12:24:35 +08:00
@wersonliu9527 140 万条数据,大小估摸在 600M 左右,试过 pandas,114M 数据导入 mysql 的时候会卡死(试了 3 次,每次都卡一个小时没反应,数据库也没变化)。
xyjincan
2018-11-09 21:42:15 +08:00
@CEBBCAT 杀进程,,,你给你的程序注册一个 kill 事件响应?
CEBBCAT
2018-11-10 01:07:58 +08:00
@xyjincan 对哦!😮

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/502603

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX