RT.
我有一张预分区的 Hbase 表, split key 是 000| 001| ... 199|这样,200 个分区.
我的 rowkey 是这样设计的 001|20180928001122+ 业务 ID + 6 位随机数
这样设计的话避免了 Spark 读取时数据倾斜啊,插入时数据热点问题.
但是我想用 Spark 读取某一天的数据,还想用 scan 操作的话,貌似很难实现.
比如我的 startrow=001|2018092800 + 0000 + 0000 + 000000 endrow=001|2018092899 + 0000 + 0000 +000000
我想读取完这一天的数据,难道得循环 200 个 region 吗?
单机多线程的话是可以这么做的,但是我想用 spark 分布式环境来操作.
我查阅了 TableSnapshotScanner 类,对其 regions 属性不甚理解,望高手给个思路(给个 demo 最好了...
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.