V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zxyroy
V2EX  ›  程序员

请教下 AWS/Azure 和 阿里云/腾讯云 基于地理位置的数据存储以及数据分析方案

  •  
  •   zxyroy · 2023-01-11 11:50:40 +08:00 · 1179 次点击
    这是一个创建于 679 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在准备面试,遇到一个跨国公司的典型场景,多云协作

    自己简单 google 了一会,不知道是不是用的关键词不对,找不到相关资料分享,想请各位老哥指路

    因为监管需要很多时候需要两套云存储国内外的数据,我自己思考了一下,觉得有以下痛点

    • 数据同步 - 即使基于地理位置存储,也有不少数据需要同步,怎么同步?
    • 数据分析 - 进行分析时,有需要将不同地方的数据整合,但是监管需要,数据不能离境,怎么整合?
    • 还有哪些痛点?
    5 条回复    2023-01-13 10:35:51 +08:00
    realrojeralone
        1
    realrojeralone  
       2023-01-11 17:57:39 +08:00
    1. 数据同步:理论上不应该有数据同步,既然是跨国数据,本国的数据就应该只在本国存储
    2. 数据分析:既然原始数据不能同步,那原始数据分析只能在本国进行,加工后的数据做聚合,这部分数据看能不能离境
    3. 痛点:云绑定,存储和分析的技术栈在不同云可能不一样,尽量使用通用的标准,比如 S3 / Spark
    zxyroy
        2
    zxyroy  
    OP
       2023-01-12 00:26:18 +08:00 via iPad
    @realrojeralone 多谢解答,那一般 pipeline 会两边都假设还是架设一边? k8s 会组集群吗?

    另外都想请教一下这类资料可以用什么关键词去搜索?
    realrojeralone
        3
    realrojeralone  
       2023-01-12 10:37:16 +08:00
    @zxyroy pipeline 指数据处理吗?这个场景是业务相关的,和技术架构关系不大,只要符合监管要求就行,国内有这种场景的不多,怎么实现就是一个 trade-off 的考虑
    zxyroy
        4
    zxyroy  
    OP
       2023-01-12 11:33:29 +08:00
    @realrojeralone 不好意思我指的是服务部署,因为在我的理解不应该两边各维护一套系统,那就需要共享一套 CI/CD pipeline
    realrojeralone
        5
    realrojeralone  
       2023-01-13 10:35:51 +08:00
    @zxyroy 所以不应该云绑定,需要用通用的技术框架,因为你的数据是不能离境的,所以你的计算服务也应该在不同的地方部署,ci-cd 流水线是一套,只不过服务部署时区分环境
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5394 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 07:38 · PVG 15:38 · LAX 23:38 · JFK 02:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.