Apache Spark 是一个开源的分布式数据处理引擎/计算框架,常用于大数据批处理、交互式分析、机器学习与流式处理;以“内存计算”和统一的 API(如 DataFrame、SQL、MLlib)著称。(也常简称为 Spark。)
/əˈpætʃi spɑːrk/
I learned Apache Spark to analyze large datasets.
我学习了 Apache Spark 来分析大型数据集。
Using Apache Spark on a cluster, the team built an ETL pipeline that cleans, joins, and aggregates billions of records each night.
团队在集群上使用 Apache Spark,搭建了一个 ETL 流水线,每晚清洗、关联并汇总数十亿条记录。
“Apache” 来自 Apache Software Foundation(阿帕奇软件基金会)的项目命名传统;“Spark” 原意是“火花”,在这里寓意快速点燃、加速数据计算与分析的能力。该项目最初源于加州大学伯克利分校 AMPLab,后进入 Apache 基金会孵化并成为顶级项目。