V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dataman
V2EX  ›  机器学习

Spark 和 Mesos 的诞生之地,又在研究什么新技术?

  •  
  •   dataman · 2017-02-07 11:21:30 +08:00 · 1643 次点击
    这是一个创建于 2848 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家对加州大学伯克利分校的 AMPLab 可能不太熟悉,但是它的项目我们都有所耳闻——没错,它就是 Spark 和Mesos的诞生之地。小数又那里听说了新的工具,一起来围观最前沿的技术吧!

    加州大学伯克利分校电子工程和计算机学院的助理教授 Joseph E. Gonzalez 向我们介绍了该校实验室研究的最新情况。

    AMPLab 是加州大学伯克利分校一个为期五年的计算机研究计划,其初衷是为了理解机器和人如何合作处理和解决数据中的问题——使用数据去训练更加丰富的模型,有效的数据清理,以及进行可衡量的数据扩展。

    AMPLab 于去年 11 月份结束关闭。新的实验室就此开启—— RISELab ,另一个该校五年期项目,有着强力的财政支持,将聚焦于提供安全执行的实时人工智能系统。

    RISELab 的团队任务是前瞻性地推动大数据分析到一个更加深入的世界,在那个世界, AI 是真实的,世界是可编程的。举个例子:围绕着“小型自主飞行器”管理数据设备,无论是无人机还是气垫汽车,都是数据在被高速且安全地处理着。

    其他的挑战还包括安全领域,但不是传统意义上的访问控制。当然也包括类似 "homomorphic" encryption 的概念,加密数据可以直接被使用不需要解码。“如果没有对云的理解,我们如何预测云上的数据?” Gonzalez 如是说。

    尽管实验室还处于初期阶段,一些项目已经浮现在人们面前:

    Clipper

    机器学习包括两项基本的工作:根据预测建立模型以及从模型提供预测。 Clipper 专注于后者,是一个多用途、低延迟的预测服务系统,根据机器学习 framework 以最低的延迟进行预测。

    Clipper 在机器学习方面主要有三个目的:其一,加速从被训模型中获取预测的速度。其二,在多个机器学习 framework 上提供一个抽象层,开发者只需要编程一个 API 即可。其三, Clipper 的设计让它可以动态地响应,如单个模型响应请求。举例来说,允许一个给定模型对特定类型的问题进行优先级的回复。目前还没有明确的机制,但已是未来的趋势。

    Opaque

    目前看来 RISELab 的项目会补足 AMPLab 余下的工作。 Opaque 就是其中之一: Opaque 和 Apache Spark SQL 一起为 DataFrame 提供强力的安全保障。它使用 Intel SGX 处理器的扩展部分,把 DataFrame 标记为加密,所有的操作都在"SGX enclave"下执行,数据就地使用 AES 算法加密,只有通过硬件层保护的应用使用它时才可见。

    没有性能损耗的情况下,它提供了同态加密( homomorphic encryption )的优势。使用 SGX 的性能损耗大概在 50%,但是当前最快的同态算法实现起来也要比它慢 2000 倍。另一方面, SGX 的处理器在云上还未提供,尽管 Gonzalez 表示近期将会实现。最大的障碍在于,为了让它能够工作,“你必须相信 Intel ”。

    Ground

    Ground 是一个数据湖( data lake ) context 管理系统。它提供了在 Java 中实现一个 RESTful 服务的机制,让用户去推论他们拥有什么数据,数据从哪里来向哪里去,谁在使用数据,数据何时变化,为什么会有这种变化等。

    数据聚合( data aggregation )已经从严格的数据仓库型管理中移除,向开放且灵活的数据湖接近,但是也让追踪数据形成变得很难。在某些方面,弄清楚谁改变了给定数据集以及如何改变,比了解数据本身更重要。 Ground 提供了一个通用 API 和追踪信息的元模型,可以和很多数据储存库一起工作。

    Gonzalez 承认定义 RISELab 的目标并不容易,但是他表示,“它的核心在于从如何建立高级分析模型、如何分析数据到如何利用洞察来做出决定的转型过渡——将 Spark 和大规模分析的产品与世界连接”。

    作者: Serdar Yegulalp

    文章来源: http://www.infoworld.com/article/3164249/artificial-intelligence/new-big-data-tools-for-machine-learning-spring-from-home-of-spark-and-mesos.html

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4933 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 10:00 · PVG 18:00 · LAX 02:00 · JFK 05:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.