多标签搜索，后端一般是怎样实现的？不会是多表直接 join 吧？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 1180 days ago, the information mentioned may be changed or developed.

提到多对多关系，第一个反应是 3 张表 —— 即，两张数据表、一张关系表，例如：

t_product
| id (integer) | name (character verying) |

t_tag
| id (integer) | name (character verying) |

r_product_tag
| product_id (integer) | tag_id (integer) |

但需要根据多个 `tag` 查询 `product` 时（`/product?tags=苹果,橘子`），只用数据库该怎样实现？

直接将 3 张表 JOIN 在一起？感觉查询效率会很低。
建立倒排索引？例如，将表 t_product 新增一冗余列 tags (character verying)，并在该列上建立 PostgreSQL 的 GIN 索引。这种方式顺便还可以通过分词将单个标签的字符串拆分成多个关键字，更容易搜索。

t_product
| id (integer) | name (character verying) | tags (character verying) |

如果只按标签的 `id` 查询（`/product?tag_ids=22,12,45`），表 `t_product` 新增一冗余列 `tag_ids (integer[])`，这种情况该在此列上建立 `B+树索引` 还是 `倒排索引`？

t_product
| id (integer) | name (character verying) | tag_ids (integer[]) |

不知道 PostgreSQL 对 integer[] 类型字段的索引机制是怎样的？

18 replies • 2023-03-27 22:26:58 +08:00

F281M6Dh8DXpD1g2

Mar 27, 2023

谁告诉你多表 join 效率低的?

yuan93

Mar 27, 2023

脱离数据量说效率是耍流氓；大表 join 效率是低的，可以考虑拆 sql 多次查询，小表 join 就完事了

Ashore

Mar 27, 2023

@liprais csdn(狗头

CNife

Mar 27, 2023

建议自己实验一下，用 EXPLAIN ANALYZE 看看如何处理和代价如何

LeegoYih

Mar 27, 2023

表设计合理可以 join ，走索引性能不会差，如果是微服务或者后续需要分库分表还是拆分成三次查询吧

1. select id from t_tag where name in ("苹果","橘子")
2. select product_id from r_product_tag where tag_id in (...)
3. select * from t_product where id in (...)

如果 t_tag 更新频率较低可以放缓存里