scrapy 如何解决写数据库性能问题

大家好，请问：
目前一个项目，scrapy 目前一分钟抓取 7000 条。需要把数据写入数据库。

而 Pipelines 好像是分析一条 insert into 一条，性能很低。
INSERT INTO table_name (列 1, 列 2,...) VALUES (值 1, 值 2,....)

请问是我的操作方法有问题，还是说可以把数据一批批写入提高效率，如：
INSERT INTO table_name (列 1, 列 2,...) VALUES (值 1, 值 2,....)， (值 1, 值 2,....)， (值 1, 值 2,....)， (值 1, 值 2,....)

insert

into

Scrapy

values

20 条回复 • 2017-06-19 14:07:01 +08:00

misaka19000

2017-06-17 14:50:01 +08:00 via Android

要是我就换 Redis

panda0

2017-06-17 15:05:15 +08:00

bazingaterry

2017-06-17 15:15:28 +08:00 via iPhone

先丢进 Redis，再写个中间件处理后再入库吧……

360safe

2017-06-17 15:47:23 +08:00

scrapy 批量化写入方案怎么样呢？如果想实现的话如何实现呢？

iyaozhen

2017-06-17 15:48:44 +08:00 via Android

你这数据量算少了。insert 批量插入就行

360safe

2017-06-17 15:50:40 +08:00

@iyaozhen 请问在 scrapy 里批量的思路是什么？

iyaozhen

2017-06-17 15:59:51 +08:00 via Android

@360safe 简单的话就是把每个 value 存着，然后搞个全局计数器，到了一定数量后拼成一个大 SQL，执行就行

zts1993

2017-06-17 16:00:52 +08:00

异步 mysql 驱动。或者用发队列，避免阻塞

Allianzcortex

2017-06-17 16:12:51 +08:00 via iPhone

executemany

360safe

2017-06-17 16:40:02 +08:00

@Allianzcortex executemany 看上去与 NSERT INTO table_name (列 1, 列 2,...) VALUES (值 1, 值 2,....)， (值 1, 值 2,....)， (值 1, 值 2,....)， (值 1, 值 2,....) 类似，只是更清晰。

360safe

2017-06-17 16:45:24 +08:00

@iyaozhen 请问如何将每个 value 存着，是通过一个全局变量吗？还是在 Pipelines 中实现？

mringg

2017-06-17 16:48:52 +08:00

先往队列里写，然后再写 consumer 消费掉，这样就不影响采集速度了

360safe

2017-06-17 17:19:27 +08:00

问题应该解决了：

MySQLStorePipeline 定义了一个 article_items 集合用于存储 spider 爬到的 item，当 items 数量达到 1000 时，批量写入数据库。如果接受到 item 就单条写入数据库，会比批量写入慢很对，爬虫的效率会慢一个数量级。

http://kekefund.com/2016/03/31/scrapy-learn/

slixurd

2017-06-17 17:21:50 +08:00

7000 条一分钟,数据库写压力 117QPS
这么低的压力都嫌慢,说明配置超级垃圾
用这么低配的 MySQL,上 Redis 的意义在哪,浪费资源么,23333

360safe

2017-06-17 17:28:05 +08:00

不是啊，用的阿里云 RDS，远程的。你这样提醒了我，一会弄一个本地的中转一下。

misaka19000

2017-06-17 18:55:23 +08:00 via Android

@slixurd 哈哈，没有想到这种情况

360safe

2017-06-17 19:07:31 +08:00

@slixurd 也有阿里云的 Redis，不过远程的估计。。。。我试试本地的 MySQL。

owenliang

2017-06-18 16:06:35 +08:00

你先试试批量提交能到多少。。

NaVient

2017-06-19 09:37:03 +08:00

扔到ＭＱ这种异步队列里，再异步插入不就行了

360safe

2017-06-19 14:07:01 +08:00

嗯嗯，谢谢大家。最终解决方法是：
因为每次一条 insert into 插入速度很慢，用了一个全局变量存着值，5000 条 executemany 写入一次远程阿里云数据库。

批量后完全满足一分钟过滤 7000 条的需求。（本地数据库也受不了一条条插入。）