遍历表方案

2017-07-06 21:30:13 +08:00

itertools

一次请求需要从提交的数据中获取一个数组 A，然后，从数据库中遍历某张表的字段 B。最后通过一系列的计算（计算过程包含数组 A 和 B ），每条数据算出一个值，取最高的几个值返回给请求方？请问这样需求有什么好的实现方案，响应时间越短越好。谢谢！

2587 次点击

所在节点

10 条回复

Immortal

2017-07-06 21:55:02 +08:00

能看懂有鬼了- -

Hieast

2017-07-06 22:04:57 +08:00

楼主名字很好玩，itertools，再加个 nlargest、map, 应该可以解决楼主的问题了。

itertools

2017-07-06 22:22:46 +08:00

@Hieast nlargest 在我的实现中用到了,但是遍历表(如果有表中有上千万条数据)，感觉响应时间很慢。

uxstone

2017-07-06 22:35:46 +08:00

找个合适的数据结构，先把表中的数据取出来，在代码中写具体的运算逻辑？

itertools

2017-07-06 22:47:30 +08:00

@uxstone 数据量太大。内存可能会爆。

Hieast

2017-07-06 23:25:15 +08:00

@itertools 流式计算？维护一个 n 个元素的最大堆，用 generator 取一定数量的 B，更新这个堆？

不过估计这种实现不会比你现在的速度快多少。
愿意折腾的话用 spark sql ？

cszeus

2017-07-07 03:33:00 +08:00

在 B 上面建索引，然后用多线程或者多进程，把 B 里面的东西分成多个部分取出来，分别算，再一起取最大？

本来上千万条的数据，不需要分表么？

lxml

2017-07-07 08:43:34 +08:00

虽然不太清楚具体 B 是什么数据，但一个思路吃把 B 按照跳表的方式弄个多层索引，尽快的优化找 B 的速度。

Miy4mori

2017-07-07 09:42:25 +08:00

我觉得直接用存储过程快吧，要是读到代码里再算估计 io 开销就够喝一壶了。

caniuse

2017-07-07 17:06:24 +08:00

感觉适合用 mapreduce 思想，把任务分割成小任务分配到其他机器上并行

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.