“使用 USQL 产品,用户在原有的数据文件基础上进行数据建模,即可使用 SQL 进行业务数据的快速查询,此种方式对原有数据文件改动较小,用户不用关注大数据分布式处理的过程,业务迁移方便。对比我们现有的大数据处理方案,节省 80%的服务器成本,提升 50%数据分析速度,同时也缩短了新业务的开发周期,值得推荐。”
——爱普新媒 CTO 牛德恒
USQL 是什么?
数据湖分析( USQL )是一种可扩展性强、成本低廉的无服务器 SQL 分析计算引擎,可轻松完成面向海量数据的数据建模工作,SQL 即可完成数据查询和分析,极大降低使用大数据的门槛,且无需数据库管理员和运维人员,大幅度减少对大数据工程师的依赖。
USQL 在爱普新媒案例中的表现
计算成本降低 97.5%
相较于爱普新媒现在每月花费在数据仓库 UDW (用于临时存放数据)的数千元,处理同样的数据,USQL 可将成本控制在每月几十元,因为 USQL 按照实际分析数据量计费,每 GB 数据分析价格极低,且不使用时不计费。
任务周期缩短 55.6%
爱普新媒现有架构下,处理不固定的数据需求,数据导入与分析平均处理时长为 1.8 天,而 USQL 可省去数据导入的步骤,减少运维工作量,大幅度缩短每次任务完成时间。
分析效率提升 5 倍
爱普新媒所有真实业务 SQL 均已落地,其中最耗时的 SQL 分析时间可从 600 秒降至 118 秒,整体明显提高 SQL 分析效率。
大数据工程师投入降为 0
目前每月需投入大数据工程师 20 个人日,使用 USQL 产品,业务分析师可直接通过 SQL 在对象存储 UFile 中完成数据分析,极大减少对工程师的依赖,有限的人力资源可得到更好的利用。
关于爱普新媒
成立于 2010 年,是一家专注于移动互联网产品研发和新媒体整合营销的高新技术型公司,旗下拥有 100 余款精品软件,内容涵盖日常生活、效率工具、文章资讯等多个方面,主营以天气预报、快游等综合自媒体矩阵为载体的推广业务和以云魔方 DSP 移动互联网广告分发平台为基础的广告投放业务。
面临的数据挑战
爱普新媒广告业务数据规模达到数百 TB,日增长量为 1TB 左右,业务日常不固定的分析需求多,现有的大数据处理方案下,数据部门每月需投入大数据工程师 20 个人日,额外花费数千元维持一个数据仓库集群,且平均每次需求处理时长为 1.8 天。基于已有架构,数据部门将广告日志数据压缩后存放于对象存储 UFile 中,接收到业务分析师不固定的数据需求后,再将用于分析的原始数据,临时加载到数据仓库 UDW 中,完成 SQL 分析后实施清除操作。
图:爱普新媒现有架构
业务分析师的抱怨
对于业务分析师而言,数据规模达到数百 TB,无法自主完成分析,必须极大程度依赖大数据工程师;并且每次任务处理周期长,若后续有需求变更或分析结果未达预期,还需重新走一遍处理流程;此外当对分析结果存有疑问时,无法查看原始数据进行校验。
数据部门的烦恼
业务每月的不固定数据分析需求多,又无法自主完成,需要占用数据部门有限的技术人力资源;需求变动返工次数多,会导致大量重复性工作;并且随着数据规模日增长量的不断提升,用于临时存放不固定需求数据的 GreenPlum 成本一直在增加。
产品诉求
基于现状,爱普新媒的产品需求清晰明确:
支持数百 TB 规模的数据分析 业务分析师能够独立完成不固定需求分析工作 具有较强的 Ad-Hoc 能力 缩短每次需求处理时长 降低计算成本投入和运维投入
选择 USQL 产品
带着上述诉求,爱普新媒留意到 UCloud 推出的 USQL 产品,对其无运维、低成本、低门槛的产品理念产生浓厚兴趣,当即联系 UCloud 架构师表达试用的意愿。
在与其数据部门沟通的过程中,UCloud 架构师发现对方务实且拥有开放的学习态度,对云计算也一直保持极大的好奇心,接触了解过数据湖以及 Serverless 的概念,为双方的交流奠定了良好的基础。此外现有架构中计算与存储是分离的状态,其原始数据并未与 GreenPlum 强耦合,这为更换分析引擎的方案实施提供了便利。
USQL 替换 GreenPlum
新架构中使用 USQL 替换原先用于临时加载数据的 GreenPlum,省去数据从 UFile 导入到 GreenPlum 的过程,并使得业务分析师能够直接通过 SQL 分析 UFile 中海量数据,全程无需大数据工程师的参与。
图:爱普新媒新架构
此外,数据对接中发现,爱普新媒的数据格式为 JSON 并通过 GZIP 格式压缩,UCloud 了解后一周内完成 USQL 产品升级,得以支持这两种数据格式,减少对接上的障碍,并协助爱普新媒重新布局其现有数据,目前爱普新媒实际业务 SQL 已全部落地,同时完成产品培训以及现场演示。
图:实际业务 SQL 示例
结果显示分析效率可提高 5 倍,CTO 观看 USQL 的实例演示后,当场测算成本,对其在降低成本、提高效率、减少人力方面的表现感到超出预期,已决定将所有离线计算业务都放在 USQL 上。
如果您也有大数据分析成本的困扰,欢迎加入我们的数据分析群共同探讨!
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.