最近被老师交了个任务:向数据库导入交大的学术知识图谱Acemap,此前考虑过以下的方法导入:
neo4j (配合neosemantic插件,但 neo4j 在千万级结点后插入、查询等操作极为缓慢,基本不可用)
jena TDB2 (当前正在尝试,但 tdb2loader 的导入性能也不容乐观,7 千万结点后可能因为本地测试机内存有限,速度也慢下来了)
目前我的思路是:将数据分为较小的块( chunk ),再分为每个 5 千万条三元组的 Turtle 分批进行导入。但使用 Github 上的相关 repo:rdfsplit 不能做出理想的效果。
而且对数据进行实验操作的平台比较羸弱:本地测试机的 RAM 仅 8G,服务器 RAM 16G,可能也因此制约了导入的效率。
作为语义网 /知识图谱领域的门外汉,网络上语义网 / 构建大型知识图谱相关的内容较少,Google 一番后仍得不到较好的答案。在此向 V2EX 里的各位请教以下问题:
1.如何在单机环境下,将大型 RDF 文件固化进数据库?( GB 级,最大近 40G )
2.同时,有哪种处理 RDF 工具(目前想要对 RDF 进行分割)值得一用?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.