正在构思一个类似于论坛的后台项目,因为没有实践经验,有些问题没想清楚: 假设有两种对象,一种是帖子,包括帖子内容、发帖者的信息等数据;一种是回复,包括回复内容,回复所属的帖子,回复者的信息等数据。 这两类数据在后台怎样存储比较好,或者说有什么常见的方案?
假设有 1 万个帖子,平均每个帖子有 10 条回复。 主要的困惑是,如果在数据库中安排两个表,一个表存全部的帖子,一个表存全部的回复,也许单个表太大了,而且受不了膨胀,恐怕会影响性能。 但如果分成多个表,甚至一个贴子一个表(有这样分的吗?),分的表又太多。听说数据库不建议有 200 个左右以上的表,对么?
所以我的问题可以理解为,将数据涂开抹匀用什么方案比较好?以及,积攒到多厚的数据,就需要涂开抹匀? 只有一台 40G 硬盘 2G 内存的服务器,大概能承受什么等级的论坛数据? 或者有其他我尚所不知的思路,也望交流。 谢谢!
|      1simonlu9      2020-11-19 14:06:57 +08:00 没必要分表,帖子一个表,评论一个表就够了,再不如评论按帖子 id 分表,参考下 phpwind,和 discuz 性能不是杠杠的 | 
|  |      2treePerson OP @simonlu9 谢谢,这两个我去研究研究。那么所以你的意思是,区区几万几百万数据在一个表里,数据库完全能带的动是么。如果分表的话一个帖子 id 一个表也没什么问题对吗?是这样概念吗 | 
|  |      3kiracyan      2020-11-19 14:11:20 +08:00 分表一般是根据 id hash /id 后缀 / 时间 | 
|  |      4opengps      2020-11-19 14:11:33 +08:00  1 你没有实际经历过的话,所有的听说都不值一提 先做,你能体会到很多“总结”的内层含义 | 
|  |      5qiayue PRO mysql 单表你放几千万上亿条数据都可以 具体到性能来说,做好索引可以解决 90%的性能问题 | 
|      6ebingtel      2020-11-19 14:26:10 +08:00 对于新手而言 不要考虑太多 先碰到问题 再解决问题……当然 1L 说的是对的 千万级问题也不大 | 
|      8hahaba      2020-11-19 14:38:04 +08:00  4 @treePerson 如果你数据库里已经存下几百万帖子数据,那就说明完全能够商业化挣钱了,有钱了有的是方案解决。 不是抬杠,V2EX 的老哥们写个博客都要考虑百万并发、写个小工具都要考虑高可用、搞个没人的论坛还得考虑多地容灾,累不累啊,安安心心用最快的速度把代码撸完。不然一个月过去了,你还在考虑方案,可能这个时候你已经完全不想做了 | 
|  |      9lower      2020-11-19 14:52:27 +08:00 既然表关系这么简单,干嘛不直接用 mongodb 这种的…… | 
|      10simonlu9      2020-11-19 15:58:42 +08:00  1 @treePerson 没到千万级不用考虑分表操作,你想想 b 树千万级的查询只需要 3,4 层 io 操作,足足够以应付,而且论坛这种读多写少的操作,完全可以用缓存来优化 | 
|  |      11tabris17      2020-11-19 16:04:21 +08:00 via iPhone 所有用户提交的 post 一个表,用于检索的索引一个表 | 
|  |      12huobazi      2020-11-19 16:15:12 +08:00 1 》 dz pw 不香吗?  2 》 数据库不建议 200 个表? 那还好意思叫数据库么。 3 》 多年前那么些个用虚拟主机做大的论坛了解一下 im286, xmfish, xx 的就更多了 看看 v2,你这个帖子的 id 是 727104 。 一个用户一个访问都没有,考虑啥性能啊,随便下个程序就够玩了,等你真的需要考虑性能了,你也发达了。 | 
|  |      13rapperx2      2020-11-19 16:25:53 +08:00 数据亿级可能都是上 ES,热数据缓存,读写分离,分表,堆机器。 我们有个项目单表 2 亿多数据,基本上都是秒查询 (SQLServer)。 一般真正数据多的,都会根据每个需求做相应的方案。 就比如你查询帖子里一些统计数据,是实时查询出来,还是定时任务隔天统计到表储存。那你数据只需要实时查询统计当天的在做总和就行了。 借 4 楼的话: "你没有实际经历过的话,所有的听说都不值一提 先做,你能体会到很多“总结”的内层含义" |