最近在知乎上看到的
MS Excel 支持自动化的数据分析,帮你发现数据中的一些趋势等等
https://www.zhihu.com/question/27588491/answer/276995903
论文在 https://dl.acm.org/citation.cfm?id=3035922&CFID=1020097431&CFTOKEN=74864648
仔细看了一下,发现实现主要是两点
简单来说,就是在数据表的子空间里遍历一遍预定义的数据趋势、规律
而这些规律是人工先预先定义好的(比如上升下降、outlier、相关性等等),而且还在一个一个实现,具体可见 Power BI 的官方说明
我个人看完,觉得其实也可以实现到 Python、R 的数据分析当中?
最近在看 Kaggle 的时候,发现其实大家都要花不少功夫做基本的数据分析,就包括了上述这些内容,比如
https://www.kaggle.com/philippsp/exploratory-analysis-zillow
https://www.kaggle.com/sudalairajkumar/simple-exploration-notebook-zillow-prize
虽然能得到的 insight 较为有限(都是预定义好的),但是我觉得起码能减少许多重复、简单的工作量
不知道这方面有什么开源的工作了?
1
fffflyfish 2017-12-26 14:15:06 +08:00
我的理解是把数据挖掘常规特征工程步骤整合出一个流程图,类似这个[]( http://www.cnblogs.com/jasonfreak/p/5619260.html),应该可以实现类似的效果吧,另外最近不是在推 autoML 吗?直接省略特征工程了,不知道说的对不对
|
2
cqcn1991 OP @fffflyfish 你说的这个更高级一点。
- AutoML 主要是针对神经网络调参 - Excel Insigt 接近于传统的数据分析、BI,比如发现上升下降、Outlier 等等数据现象 为啥回复卡住了... |