这是 pubmed 2023 年的 baseline 数据库(一堆 gz 格式的 XML 文件),我全部下载到本地后,光 gz 文件合起来就超过 40G 大小了,全部解压后估计要 500G 左右。我正式工作中一直是做前端的,这么大的数据量第一次碰到。
请问如果我想做搜索和统计分析,应该如何处理呢?这种需要另外再转移到特定数据库里吗还是直接用文件系统到数据库(并发量不大,以读取为主,数据一年更新一次)。
读取数据是读取完一部分之后清掉内存占用,接着读取下一部分的内容吗(内存肯定不够加载所有内容,假定只有 8G 内存)。
有没有建议/思路可以参考。提前谢谢各位大佬。
——————
追加更新:这种服务,购买服务器配置最低需要什么样才能正常使用,是不是要买那些 1T 硬盘的。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.