原来大家对于后端的认知就是 crud 连接数据库和写业务

2018-11-28 09:13:33 +08:00
 VoidChen

不如先解决我一个问题吧:

我有个定时统计每 10 分钟出一个 orc 文件,因为数据量不够大,所以会有很多小文件放在 hdfs 上,要知道这样是很浪费资源的,所以现在要做一个合并,方案有 2 个:
       1、每 10 分钟抽取数据的时候,把上一次的文件读出来拼进去
       2、每日 0 点把所有 orc 读出来再合并
那么两种我都试过了,遇到一个问题,就是 spark 写进去的时候由于多个分区导致最后合并也没有移动数据,而是在各块硬盘上,如果要 repartation 就要移动数据,产生大量的网络 IO,要如何去解决这个问题?

4821 次点击
所在节点    程序员
36 条回复
VoidChen
2018-11-28 09:14:44 +08:00
另外还有两个问题没人回我的,也挂一下嘻嘻嘻
https://www.v2ex.com/t/508511#reply5
https://www.v2ex.com/t/509143#reply2
qingfengxm
2018-11-28 09:28:58 +08:00
hadoop archive 了解一下
VoidChen
2018-11-28 09:34:52 +08:00
@qingfengxm 试试能不能用上,还要用 hive 来建外部表,看看能不能读出来
VoidChen
2018-11-28 09:38:17 +08:00
@qingfengxm 本质上只是做了一个目录存放文件索引,文件并没有合并起来啊
VoidChen
2018-11-28 09:44:33 +08:00
168 点击只有一个回复,其实后端的水也是很深的啊,想想如果没有了框架,自己还会什么就知道了
zander1024
2018-11-28 09:46:48 +08:00
因为我这种水平的就是 crud+业务。。。 没遇到什么难题 也觉得什么难题有前人经验 去搜资料就行 实在不行 跟运营说这个问题没法解决 换个需求吧 哈哈哈
yhxx
2018-11-28 09:48:50 +08:00
难道不是吗

对前端的认知也就是 HTML+CSS 切页面啊
VoidChen
2018-11-28 09:49:17 +08:00
@zander1024 没压力就自己学着玩呗,以后总的转架构吧,总要学一下分布式吧
VoidChen
2018-11-28 09:50:47 +08:00
@yhxx 我前后端都做过啦,虽然是在大学的时候,另外舍友是个专业的前端,还有一个舍友是 PHP,毕业合租到现在,所以都各种都了解一点
lfzyx
2018-11-28 09:51:45 +08:00
对测试的认知就是点点点啊,对运维的认知就是修电脑啊,对设计的认知就是切图啊
qingfengxm
2018-11-28 09:52:03 +08:00
要不然将 orc 文件数据搞到 kafaka 中,spark 从 kafka 中读数据
VoidChen
2018-11-28 09:53:03 +08:00
@qingfengxm 就是从 kafka 里面读出来的。。存 orc 是为了方便重新读出来和做 hive 外部表
VoidChen
2018-11-28 09:54:27 +08:00
@lfzyx 现在已经流行自动化测试了,得用 python 写脚本
lmw2616
2018-11-28 09:54:44 +08:00
学更多不也是为了更好的 crud 为业务服务吗
sagaxu
2018-11-28 09:56:41 +08:00
以前没有所谓大数据设施的时候,通过 FTP 上传汇总,定期聚合处理,凑合着也能用,国内工业领域很多项目这么玩的
VoidChen
2018-11-28 09:57:02 +08:00
没有在划水,到处找资料,理想状态是能把各块数据尽可能地靠拢,保证每台机有一两块或者多块集合的大文件,这样就可以兼顾存储和方便后续并行计算,现在看看 spark 的 repartation 能不能智能地把新数据往已有的数据块靠拢
VoidChen
2018-11-28 09:58:45 +08:00
@sagaxu 是啊,思路是一致的,多出来的就是考虑到分布式上去了,想象成多个 FTP 各自汇总各自的,然后弄成 N 个汇总文件在 N 台机子上
VoidChen
2018-11-28 09:59:04 +08:00
@lmw2616 为了赚更多的钱
wleexi
2018-11-28 10:01:40 +08:00
题目和正文有什么关系
VoidChen
2018-11-28 10:05:37 +08:00
@wleexi 没有,钓鱼

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/512176

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX