请教个 sql 查询问题

2022-11-15 11:33:44 +08:00
 brader

需求大概是这样:根据搜索条件 查询商品列表,每个商品有分类属性,需要根据分类来分组显示,分类下没有商品的分类不展示,因为商品数据量非常庞大,所以一次搜索出来的商品无法展示完全,我采用了分页,根据搜索条件以及每个分类 ID 来分页查商品,因为产品需要只展示有商品的分类,所以在这之前,我的查出来有商品的分类列表给前端。
因搜索条件灵活动态多变,所以这个分类基本无法固定下来,缓存意义也不大。

开始我采用了方案一: sql 查询语句 where 过滤搜索条件,GROUP BY 分类 id ,该加的索引也加上了。 该方案大部分都是正常的,后面有测试给我反馈有些很慢,我排查到是某些店铺商品数量非常多,然后搜索条件又需要筛选辅表关联表,主表:辅表 是 1:n 关系,所以数据量非常庞大(有多大呢,举个例子,有些一个商品绑了 5 万多个车型,为什么允许绑这么多,是否合理,我也不想纠结,以前的技术肯定也是无奈),GROUP BY 分类 id 有点久。

后续我尝试了方案二: 拿着该店铺绑定的所有分类 id ,循环遍历 sql 查询语句 where 过滤搜索条件+分类 id ,判断有无商品存在,该语句执行状况非常好,每句在 10-20ms ,查 20 个分类都不到 500ms 。大部分店铺也是 20 个分类以下的。

我统计了分类,少部分店铺存在 50-100 个分类,这些店铺采用方案二我非常担心,毕竟是循环,分类多了,累积时间就久。

想请教下各位,这种需求有更好的方案吗?我能想的办法都想了,不知道是产品设计复杂还是技术太菜了。。。

2561 次点击
所在节点    程序员
35 条回复
nekolr
2022-11-15 11:42:03 +08:00
产品设计上可以考虑分类多了不用都展示
zlhsvc
2022-11-15 11:46:46 +08:00
分类不分页吗,50-100 个分类一页也展示不全吧。
brader
2022-11-15 11:48:54 +08:00
@nekolr 其实分类也不多,举个详细点的例子,某个店铺授权了 100 个分类,但当前搜索条件下,存在商品的分类,筛选完只有 15 个,你说多吗?不多,但是这个筛选,就是我上面说的,筛不动。。。
brader
2022-11-15 11:50:31 +08:00
@zlhsvc 没到分页的程度,是我筛都筛不动,比如这个店铺 100 个分类,这个搜索条件下只有 5 个分类存在商品,你说 5 个分类还有必要分页吗?但是我要从几千万数据中根据搜索条件筛选出这 5 个分类,这一步就太难了,很慢
dqzcwxb
2022-11-15 13:49:10 +08:00
循环查询+缓存,这样第二次查询就不走数据库只过内存
当然还要把双重循环匹配改成 hashjoin,这个你应该知道吧?
brader
2022-11-15 14:12:11 +08:00
@dqzcwxb 目前就是采用循环查询的,也加了 5 分钟缓存,不过缓存作用不是特别大,因为用户输入、筛选构建的搜索查询条件时时在变化。hashjoin 没听过,哈哈。
Dganzh
2022-11-15 14:14:37 +08:00
方案 2 ,分类多时并发查可行不?
dqzcwxb
2022-11-15 14:24:57 +08:00
@brader #6 去排查耗时代码吧,按你这么描述十有八九是耗时在双重循环匹配上了
gy123
2022-11-15 14:27:53 +08:00
分类筛选的数据是面对所有用户的,感觉还是得缓存,缓存粒度小点;
比如现在需要通过分类以及其他条件筛选,那么先将数据根据分类类型进行逐个缓存,然后在细分,在应用层进行一个合并数据;
brader
2022-11-15 14:32:32 +08:00
@Dganzh 没有尝试过,因为目前二三十个分类循环,响应时间还是挺快的,项目是 PHP 写的,也不怎么方便开多线程并发
brader
2022-11-15 14:34:32 +08:00
@dqzcwxb 可能我描述的不是很到位,代码是刚写的,我很确认代码逻辑上是没有双层循环的,只循环查询了分类列表,这个分类列表也很有限,100 个以内,压力主要在数据库
brader
2022-11-15 14:36:41 +08:00
@gy123 单缓存分类条件的话,辨识度不高,主要是车型太多了,有些一个商品绑了 5 万多个车型
gy123
2022-11-15 14:40:05 +08:00
@brader 看看具体数据量,拿出来全放内存看看能占多少,纯走内存查询那肯定很快..或者就是看看有啥规律,将数据进行处理冗余到另一个表,大宽表操作,减少查询等
yogogo
2022-11-15 15:32:10 +08:00
子查询啊,一句 sql 就出来了
yogogo
2022-11-15 15:36:17 +08:00
select
分类 id,
(select count(*) from 商品 where 分类 id = 分类 id limit 1) num
from 分类 having num > 0
brader
2022-11-15 15:44:29 +08:00
@gy123 大概 6000 万
brader
2022-11-15 15:47:30 +08:00
@yogogo 目前 mysql5.6 ,无法在子查询里面使用 limit
yogogo
2022-11-15 15:56:34 +08:00
select
分类 id,
(select max(id) from 商品 where 分类 id = 分类 id ) num
from 分类 having num is not null
brader
2022-11-15 17:03:50 +08:00
@yogogo 很感谢您的回答,刚才我使用您提供的思路,进行了尝试,查询计划显示是非常优良的,但是实际执行效果却不太理想。

sql 语句参考:
```
SELECT `category_id`,
(
select max(product.id)
from `product`
INNER JOIN product_bsm_extract ON product_bsm_extract.shop_id= product.shop_id
and product_bsm_extract.product_id= product.id
where product.`cat3_id`= apply_users_category.`category_id`
and product.shop_id= 367
AND `product_brand_id` IN('10113', '10162', '10163', '10164', '10287')
AND product_bsm_extract.brand_id= 1
AND `is_del`= 0) num
FROM `apply_users_category`
WHERE `apply_shop_id`= 367
having num is not null
```

查询计划:
```
id select_type table partitions type possible_keys key key_len ref rows filtered Extra
1 PRIMARY apply_users_category ref PRIMARY,IDX_CAT_ID PRIMARY 4 const 1 100 Using index
2 DEPENDENT SUBQUERY product ref PRIMARY,IDX_SHOP_DEL,idx_is_del,idx_shop_id,idx_shop_cat_prod idx_shop_cat_prod 8 const,warehouse.apply_users_category.category_id 3138 25 Using index condition; Using where
2 DEPENDENT SUBQUERY product_bsm_extract ref IDX_BRAND_ID,IDX_MAIN,IDX_PRODUCT_ID,IDX_SHOP_ID_PROD_ID IDX_SHOP_ID_PROD_ID 8 const,warehouse.product.id 44 10 Using where
```

实际执行效果:
```
category_id num
199 1246851

[消息] :执行成功,当前返回:[1]行,耗时:[30,566]ms.

```
yogogo
2022-11-15 17:17:01 +08:00
@brader #19 子查询试试 LEFT JOIN ?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/895355

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX