有人找我说做一个系统,本人也是二把刀(对方更是),想问问这样的需求怎么做比较好
1 说会有 20T 左右,15000W 条的数据.
2 要批量导入(从别的地方来的数据)
3 要做查询,不是很复杂,但是数据量大啊
4 自用,不对外,用的人有限,估计达不到 1K 的水平
5 数据就是各种信息, 各种分类和时间
因为对这个不是很了解,所以想问以下的问题:
1 因为访问量不高,是否要做 men catch 呢?做多大合适?还是说这个要做实验来调整?
2 我觉得这么大的数据库,肯定要做分表的,现在设想的是做成树状结构,方便查询不知道可以否?
3 他们想的方案事自己买服务器,然后做.而我想的是卖阿里的云和数据库来用.毕竟自己的机器还要去维护,听不容易的.放在云上会方便一些.但是看了下价格也是挺贵的(不知道他们预算是多少,应该不差钱吧).话说自己买服务器贵还是云贵呢?
4 数据库想用 mysql,不知道能不能承载这么大的数据,因为录入数据是前期的工作,系统建成了之后录入应该不是很多,大部分是批量导入.大部分时间是在查询.不知需要怎么优化呢,优化到多少才算是比较好或者合格呢.
5 不知道这种系统吃不吃 CPU,如果比较吃 CPU 是不是要做分布式呢(自己想当然的认为不需要,但是知道自己的相符不靠谱)
6 关于表结构什么的,是不是符合了 4NF 范式就可以提高查询速度什么的呢?
7 这个系统使用 NoSQL 是否可以呢?对于查询速度什么的提高是否有很大帮助呢?
8 有没有相关的书可以参考?
第一次挑战这种级别的数据库还有点小兴奋呢,原来做的都是小系统,构架烂也不会影响太多,这次数据量这么大,怕弄不好.请各位大大指导指导......
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.