V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jinmingjian
V2EX  ›  酷工作

[北京中关村/远程][TensorBase][开源数据仓库]等一群人,做一件事

  •  
  •   jinmingjian · 2021-05-02 20:35:38 +08:00 · 2997 次点击
    这是一个创建于 1082 天前的主题,其中的信息可能已经有所发展或是发生改变。

    TensorBase,基于 Rust 的现代化开源数据仓库。它专注于开源大数据存储和分析的基础设施,让大数据背后的价值可以惠及这个时代中每个个体和企业。

    团队介绍:我本人的介绍在这里。目前已获得我认为是可以骄傲一生的全球知名创业者社区的天使轮投资。

    开源,惠人达己。创新,守正出奇。基础设施的未来,必定是开源和创新的。TensorBase 目前已经社区开源一段时间,有很好反馈。有环境的同学可以试一下,看看能不能玩起来,普通人也可以把大数据玩的溜溜的:)

    我有一个梦想,能和一群中国工程师一起相互帮助、探索和努力,做一件可以走在这个时代的前沿,还可以让自己成长、开心和骄傲的事情。我等这样一群人:

    1. 愿意使用 Rust 语言,并贡献到 Rust 开源社区(希望你不要把语言当作一个工具,虽然客观上它确是一个工具)。
    2. 有创新和探索精神,愿意在无人区工作。
      • 内核向:对数据工程、高性能系统、高性能计算、编译器、Linux 内核、分布式、并发等一个或者多个领域有实践或有兴趣。
      • 社区向:对 Rust/数据有兴趣的前端或 Technical writer 。
    3. 爱做 TensorBase 这样一件事情,爱和 TensorBase 这样一群人一起工作。

    全职、实习均可。实习生希望每周至少工作 4 天(对特别的同学也可以放宽)。

    对比大厂,提供有竞争力的薪酬 + 期权

    工作地点: 海淀区中关村。这里离好几个新近的开源创业团队都很近,比如太极图形。这里是中国开源创业的新硅谷。不加班,希望大家早睡早起,我邀请大家一起去边上的海淀公园晨跑,为家国健康工作 50 年。同时,对于合适的同学,可以远程工作。

    联系方式: [email protected]

    加入我们,一起创造 TensorBase 的下一个五年!

    第 1 条附言  ·  2021-05-04 08:51:52 +08:00
    我解释一下职位信息,它并不要求一定有经验。有经验可能更好也可能不会更好,这在于你的实践是来于自己的思考和探索,还是来自“领导”交办的任务。

    我们不会以有直接匹配的技能为标准,这个也许是和其他招聘不太一样的地方。我们就是这个行业最有技能的、最有经验的工程师,你要相信我们能帮助你,那我们一定能帮助你。所以,不会 Rust 不是问题,如果你对其他一门语言有较多实践,同时对 Rust 有兴趣。其他方面也是类似的,而我们看重的其实已经写在上面。
    第 2 条附言  ·  2021-05-06 09:56:27 +08:00
    目前已经收到一些简历,我们都会通过各种途径回复到大家。
    25 条回复    2021-05-31 12:33:26 +08:00
    monkeyNik
        1
    monkeyNik  
       2021-05-02 21:16:31 +08:00 via iPhone
    方向有兴趣 语言没兴趣 可惜可惜
    jinmingjian
        2
    jinmingjian  
    OP
       2021-05-02 21:50:53 +08:00
    @monkeyNik :) C 上的一些工作很赞!即便是现代,C 其实也还是有空间的,可以控制范围使用。但在大型工程来说,还是有些缺陷,比如范型 /模板的需求:你这个 mln_hash 的 api 是作用在指针上,但对于基本类型,这个效率就低了,怎么办,回到老办法...
    monkeyNik
        3
    monkeyNik  
       2021-05-02 23:14:47 +08:00 via iPhone
    @jinmingjian 没太明白,你是想说因为是指针操作,所以当我要处理基础数据类型时会多一次寻址吗?如果是的话,那就是用类型转换就可以避免了,至少九成的基础数据类型可以被这样处理掉。剩下一成就是要么在 32 位机上非要用 64 位数据类型,或者在 32/64 位机上非要用大于八字节的数据类型,老实说我个人觉得这一成的情况是让人无法理解的。而且对于线上级软件来说,使用复杂数据结构基本都是配合自定义类型,所以感觉这种担心本来就是有些无意义的。此外,如果说 c 的性能还不能够满足的话,个人认为基本就剩下汇编了,而且还是写出的汇编要比 gcc 的 O3 优化要强,否则毫无疑义。
    francisdu
        4
    francisdu  
       2021-05-03 02:03:03 +08:00 via Android
    奇绩创坛嘛
    jinmingjian
        5
    jinmingjian  
    OP
       2021-05-03 07:35:32 +08:00
    @monkeyNik 你这种方案是否是强制转换?技术上成立,但不安全,不安全就是工程上的缺陷。
    jinmingjian
        6
    jinmingjian  
    OP
       2021-05-03 07:48:47 +08:00
    @francisdu 是:)奇博士就是我们的合伙人!
    monkeyNik
        7
    monkeyNik  
       2021-05-03 09:04:15 +08:00 via iPhone
    @jinmingjian rust 一直宣传其安全性,我相信其语言设计上的严谨程度,但一个线上级软件必然会使用其所在的 OS 所提供的 API (通常是系统调用)。那么请教系统调用一般是什么实现的?是它所谓的“不安全”的语言实现的,那么 rust 依托于不安全的 api 的话,整个成品软件还是否安全呢?另外个人认为,代码是否安全是一个程序员的基本功,诚然语言语法等可以辅助,但这不是忽视基本功的理由。
    francisdu
        8
    francisdu  
       2021-05-03 10:28:09 +08:00 via Android
    @jinmingjian 不错,加油,前辈们先为 rust 开拓市场😌😌😌
    jinmingjian
        9
    jinmingjian  
    OP
       2021-05-03 17:04:58 +08:00
    @monkeyNik 总结的挺好的。系统调用还是调用到系统的逻辑:)如果系统不安全,理论上整个成品还是不安全的。其实 Rust 的标准库也有大量 unsafe 代码,其安全性是由编码人所决定。但从语言层面看,安全性增强还是确定的。如果发散一点,这是个“依靠人还是依靠机制”的问题。放眼看一个大的开源工程,有很多人贡献代码,对贡献者的基本功,应该有怎样的要求好呢?:)
    monkeyNik
        10
    monkeyNik  
       2021-05-03 18:51:37 +08:00 via iPhone
    @jinmingjian 参考 linux 社区
    junglereal1
        11
    junglereal1  
       2021-05-04 03:15:31 +08:00
    对比市面上的数仓产品,比如 clickhouse,doris,hadoop 全家桶这些,有什么优势呢?
    jinmingjian
        12
    jinmingjian  
    OP
       2021-05-04 07:36:28 +08:00
    @monkeyNik Linux 社区,好:) Rust 即将进入( Linux ) Kernel,顶级 C 程序员 Linus 对 Rust 也是拭目以待( wait and see ),C 程序员真可以对 Rust 感点兴趣:)
    jinmingjian
        13
    jinmingjian  
    OP
       2021-05-04 08:11:15 +08:00
    @junglereal1 好问题。其实项目页面上有写,再简化一下就是:简单高效。这个目标,说起来容易做起来难。举一个我昨晚的例子,从终端用户看,什么是简单:花 5 分钟把自己的一台 Windows 10 Home 笔记本装上了 wsl2[1],花 2 分钟把 TensorBase 下载,解压进入 bash 命令行,就可以按项目的 1 分钟动图 demo 操作了(懂 SQL 的话几乎不需要学习)[2]。你说的这几个产品,都做不到这一点。高效是一个更大的话题,多高是高效? TensorBase 正想回答这个问题,我在项目的网站留下了一些信息,我等的就是对这个问题有兴趣的“一群人”!


    [1] https://docs.microsoft.com/en-us/windows/wsl/install-win10#manual-installation-steps
    [2] https://github.com/tensorbase/tensorbase/blob/main/docs/get_started_users.md
    monkeyNik
        14
    monkeyNik  
       2021-05-04 08:24:04 +08:00 via iPhone
    @jinmingjian 我觉得你并未正面说服我,总是在绕圈。或许只能说不在一个频道上吧。事实上你完全不必说服我,我也没否认 rust,只是认为 rust 的现在被一些人神化了,我只期望同仁们理智接纳新事物
    jinmingjian
        15
    jinmingjian  
    OP
       2021-05-04 08:56:56 +08:00
    @monkeyNik 误会:)我留一些信息供大家参考,同时顶顶贴,哈哈:)
    1499402309
        16
    1499402309  
       2021-05-04 21:09:22 +08:00
    大佬您好,我 4 年工作经验,主要会 Java 、scala,也会点 c 、go 、Python 基础,能直接阅读英文技术文档,对函数式编程 haskell 、list 、elixir 、scala 、rust 都比较有兴趣,目前在做大数据这一块。技术栈比较杂,什么都感兴趣,不排斥任何技术(除前端有点排斥外,但是工作需要我也可以去学)。也有大概看了项目的一些介绍,大数据仓库
    基于特殊原因,我每周只有一天空闲时间以及平时每天有大概至少 1 小时空闲时间,所以我在想可以以另外一种特殊的形式加入你们不,就是远程空闲时间兼职加不要任何薪资(每周至少一天时间)。如果这样做一段时间你们对我的态度以及工作能力都还满意的话,我也可以根据个人的情况尽快转为全职。
    我知道自己的这种要求可能大部分初创公司都有点不太能接受,能给个机会那更好,不能给的话那也可以理解。打扰了。
    jinmingjian
        17
    jinmingjian  
    OP
       2021-05-05 09:06:10 +08:00
    @1499402309 你的想法其实很没有问题。每周一天如果从工作角度是过短的,但不影响做点事情,其实很多开源项目做事情正是你的这种模式,我们是一个开源项目,所以随时欢迎你到项目里寻找有趣的方面并做点事情,很高兴为你提供可以提供的任何帮助! Let's rock :clap:
    1499402309
        18
    1499402309  
       2021-05-05 20:37:35 +08:00
    @jinmingjian 好的,大佬,自己有点私事在处理,得六月份初以后才有空,到时联系您
    nagatoism
        19
    nagatoism  
       2021-05-05 23:21:06 +08:00
    挺有兴趣的,一直对数仓很感兴趣,也稍微看过 arrow 和 datafusion 。能不能 多强调几个和竟品的优势。
    如果是数仓的话,只有部署快可能不算很大的优势吧。虎哥做的那个新的 datafuse 和你这个是什么关系啊
    MeatIndustry
        20
    MeatIndustry  
       2021-05-06 09:18:31 +08:00 via iPhone
    很感兴趣,请问面试都问点神马。
    jinmingjian
        21
    jinmingjian  
    OP
       2021-05-06 09:32:04 +08:00
    @nagatoism 我们想要做与这个时代相匹配的顶级性能。我们还有一个引擎在这[1],ClickHouse 的 lead Alex 贡献了第一个 PR, 我想 Alex 是认可 TensorBase 的工作的。只是当我们最近 pivot 到 Arrow+DataFusion 引擎后,高性能的引擎比较复杂,现在暂时 break 中,未来修复后会渐进开源。

    对于你说的 datafuse,我自己的理解,他们是 Arrow+定制执行引擎,我们是 Arrow+DataFusion 。他们的定制执行引擎,我个人认为在架构上和 DataFusion,乃至和之前的很多开源大数据执行引擎相比,区别不大。未来可以看看真实数据集的评测结果。另外,他们还在做执行引擎阶段,我们已经接近 TPC-H 的完整流程(本来五一就能完成,我把几个简单功能打包到一个五一长假贡献者活动中,希望大家能体验,不过目前只有一位外国小哥参加...)。


    [1] https://github.com/tensorbase/tensorbase_frontier_edition
    jinmingjian
        22
    jinmingjian  
    OP
       2021-05-06 09:52:51 +08:00
    @MeatIndustry 感兴趣就应该去做,不辜负这个时代!面试没有做题:)主要取决于你的经历,所以问的问题会不一样。
    fanzc
        23
    fanzc  
       2021-05-06 10:18:42 +08:00
    厉害啊,前不久刚发现 TensorBase,现在就已经融资组队了,然后 datafusion 也已经单独建 repo 了, https://github.com/apache/arrow-datafusion
    junglereal1
        24
    junglereal1  
       2021-05-06 22:26:31 +08:00
    clickhouse 的单表查询比较快,但是做多表 join 的表现不好, 另外 tensorbase 怎么做到比 clickhouse 还快,是在什么场景下快,插入数据? 单表查询,多表 join ? 有什么黑科技吗?
    a719114136
        25
    a719114136  
       2021-05-31 12:33:26 +08:00 via Android
    远程有啥条件?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5224 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 07:20 · PVG 15:20 · LAX 00:20 · JFK 03:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.