spark 怎样处理后台需要被频繁更新的数据？

2018-10-20 14:59:38 +08:00

cassidyhere

目前在做的一个项目，用户上传 csv 文件后，可以对文件进行 ETL 操作。目前后台用 spark 处理，spark 把用户上传的文件创建 table 并缓存，用户每次对文件进行操作都要取出相应的 table 并更新。用户操作比较频繁，文件可能从几 m~几 g 不等，修改 table 和更新缓存的开销比较大，有没有比较好的优化方案？ web 开发里多个接口会修改或访问同一个比较大的对象，一般会怎么处理？

2078 次点击

所在节点

程序员

1 条回复

piggybox

2018-10-21 03:25:45 +08:00

可能需要支持频繁更新的存储，比如 Kudu

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/499415

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.