Python 的数据持久化很原始吗？

我是 Python 新手，最近想用 scrapy 框架写一个爬虫，爬到的数据想保存到数据库里，网上搜了一下发现 Python 的数据持久化好原始啊，还要自己写代码显式连接数据库，然后拼接 SQL 执行，太原始了。最近又刚好在做一个 php 的 Laravel 项目，感觉 Laravel 的数据持久化好方便啊，而且我爬到的数据最终还是要用 Laravle 做一个网站来展示。所以我就想让 scrapy 爬到的 item 直接传给 Laravel 。

考虑了几种方案，但是感觉不够优雅，大家有没有更好的方法？

1.在 scrapy 里，当爬到 item 之后，做一个 http request 请求， URL 是 laravel 项目的某个 route ，然后把 item 以 json 的格式作为 request 的 post 参数传给 php 的 laravel 框架。

2.发现 Redis 的 Pub/Sub ， Laravel 框架又原生支持 Redis ，能否先在 php 里订阅一个消息，然后在 Python 里用 Redis publish 这个消息，这样 php 里就能收到这个消息了？这种好想不行把，因为 php 是脚本语言，不会有进程一直处于监听状态，谁来启动 php 的进程去订阅并监听消息呢？但是 laravle 里的 Redis 又有 subscribe 接口，这个是干毛啊？咋用啊？

3.还有什么其他流行的进程间通信方案吗？

ShangKai

2016-09-22 23:54:51 +08:00

感谢回复，我是倾向于不在 Python 里做数据持久化的，标题有点不准确。因为在保存到数据库里之前有一些业务逻辑处理，想和最终展示这些数据的 laravel 项目放在一起便于维护。

我好像明白了，（其实 php 我也是新手😄），什么进程间通信， php 在没人访问它的时候就是一堆文本文件放在那里，没有进程处于监听状态，所以 php 才需要和 web 服务器配合， web 服务器通过 fastcgi 执行 php 脚本。所以想要唤醒 php ，有且仅有两个地方， http request 通过 web 服务器的 fastcgi 访问，或者直接通过命令行执行 php 命令，比如 php artisan 。对 php 来说进程间通信只能它去主动问别的进程要数据，比如 php 的 Resis session 方案。你们没见过用 php 写 sockt 监听一个端口在那吧？

billlee

2016-09-23 00:12:06 +08:00

@ShangKai 你理解得总体上正确，但每个请求从头执行，这个其实不是 php 的特性，而是 CGI 的特性。 CGI 可以只使用标准输入 /输出和环境变量传递数据，基本上可以支持任何语言。
Laravel 的 subscribe 似乎一般是配合 websocket 用的。你这种情况下，最方便的应该还是发 http 请求过去。

xingzhi

2016-09-23 01:57:55 +08:00

1. 标题起错了。 Python 只是语言，它有 ORM 框架，并不原始。另外也要看数据库，如果是 MongoDB 这类的 NoSQL ，使用 Python 的 Dict 存入数据是很方便的。

2. 方案 1 直接提交数据是比较方便的方案，但你要考虑到爬虫并发数和请求阻塞的问题，当抓取的数据量大，请求数高的时候， web 那边入库会成为瓶颈；并且如果是同步 post 数据到 web service 去，会阻塞爬虫，因此需要异步提交请求。

3. 建议使用消息队列的方式入库，将 Scrapy 抓取到的数据放到队列去，另外起一个 Worker 读数据并提交到 Web Service 去（或直接入库）， Pub/Sub 虽然可以做到这个效果，但不太符合这样的使用场景。应利用 List 实现 Producer/Consumer 模式。

ShangKai

2016-09-23 10:25:56 +08:00

早上起来一看这么多回复，受宠若惊，谢谢大家的回复！

总结一下：
1 ，原来 php 可以写 Socketserver 啊，很奇怪，那为什么 php 一般都和 Apache 或者 Nginx 配合呢？为什么不自己监听 80 端口呢？导致我这个 php 新手误以为 php 干不了这事呢，哈哈哈😄。

2 ，看来还是方案 1 比较好啊，把爬回来的 item json 化然后 post 请求到 laravel 的 web service 里，这个优点是爬虫可以和 web service 分开在不同的 Server ，不同地区，而且可以同时开多个爬虫，这可能就是所谓的解耦吧。

3 ， json 化后保存文件到本地某个目录，然后 laravle 利用 cron 定期去这个目录读取，保存到 DB ，最后删除这些 json 文件，这个方案也不错，缺点是爬取和保存到 DB 不够实时，而且最好在一个 server 上。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/308292

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.