首页看见几个数据分析的帖子了,看到了一些新的以前没了解过的框架,像 polars 和 spark 这些,想问下有没有用过的朋友
目前有需求需要实时计算,非时间敏感型,单次运算参与行数 10-100 万行。
考虑生产环境下总有一些逻辑稍复杂的运算不能直接通过分析框架内置函数实现,需要兼顾考虑自定义开发的灵活度,不知道新框架有没有替代老框架的潜力。
比如典型需求,数据库中取出以下数据:
行 时间戳 敏感度 A 流量 B
1 2022-01-01 12:12:12 12000 10
2 2022-01-01 12:12:13 22000 NAN
3 2022-01-01 12:12:14 22000 12
...
典型需求 1:源数据中不可避免包含空数据,需要补全,比如上述第 2 行最后一项是空的,需要向上补齐(填充上一行数据 10 )或者向左补齐(填充左项数据 22000 )
典型需求 2:开窗函数(?),计算以该行之前累计 7 天 /28 天流量和,不确定是否可以称为开窗,因为向上 7*24 小时内行数并不固定。
典型需求 3:从头累计,比如上述数据中流量 B 的从头累计(补全数据后)希望得到的是第一行累计 10 ,第二行累计 22 ,第三行累计 34 ,以此类推
当然包括加和平均数等等最基础功能都需要用这不提了。
目前的方案是数据库取出来后 numpy 处理,处理不了的用 pyo3 接入 rust 然后自己实现逻辑,因为 pyo3 可以直接对接 rust 内存,效率方面倒是尚可,但是其实很多逻辑用 numpy 感觉都不是很好做,总体感觉还是不很舒服。
看到论坛朋友发帖跑分方面似乎新框架远胜老的这些,不知道复杂逻辑的需求环境实际用起来如何,有必要学习吗?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.