是这样,接手了别人的一个项目。 Hive 表结构大概有 17 亿条数据。
我知道 hive 的存储是放到 HDFS 上的 /usr/hive/warehouse 目录下
但是因为它之前的数据是做了分区的,还有 hdfs 本来就是冗余存储 所以就会是这样
/usr/hive/warehouse/dbname/tablename/hour=01/part00000001copy /usr/hive/warehouse/dbname/tablename/hour=01/part00000001 /usr/hive/warehouse/dbname/tablename/hour=02/part00000001copy
大概类似上面的效果
而且 HDFS 上的目录的文件是不显示大小的。
因为要做项目的数据评估 效率分析之类的, 如何才能知道 这 17 亿条数据的数据大小呢?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.