数据分析:自动化的 insight 提取方法?(开源库)

2017-12-25 10:13:44 +08:00
 cqcn1991

最近在知乎上看到的

MS Excel 支持自动化的数据分析,帮你发现数据中的一些趋势等等

https://www.zhihu.com/question/27588491/answer/276995903

论文在 https://dl.acm.org/citation.cfm?id=3035922&CFID=1020097431&CFTOKEN=74864648

仔细看了一下,发现实现主要是两点

简单来说,就是在数据表的子空间里遍历一遍预定义的数据趋势、规律

而这些规律是人工先预先定义好的(比如上升下降、outlier、相关性等等),而且还在一个一个实现,具体可见 Power BI 的官方说明

https://powerbi.microsoft.com/en-us/blog/announcing-power-bi-integration-with-cortana-and-new-ways-to-quickly-find-insights-in-your-data/


我个人看完,觉得其实也可以实现到 Python、R 的数据分析当中?

最近在看 Kaggle 的时候,发现其实大家都要花不少功夫做基本的数据分析,就包括了上述这些内容,比如

虽然能得到的 insight 较为有限(都是预定义好的),但是我觉得起码能减少许多重复、简单的工作量

不知道这方面有什么开源的工作了?

2783 次点击
所在节点    奇思妙想
2 条回复
fffflyfish
2017-12-26 14:15:06 +08:00
我的理解是把数据挖掘常规特征工程步骤整合出一个流程图,类似这个[]( http://www.cnblogs.com/jasonfreak/p/5619260.html),应该可以实现类似的效果吧,另外最近不是在推 autoML 吗?直接省略特征工程了,不知道说的对不对
cqcn1991
2017-12-27 10:44:31 +08:00
@fffflyfish 你说的这个更高级一点。

- AutoML 主要是针对神经网络调参
- Excel Insigt 接近于传统的数据分析、BI,比如发现上升下降、Outlier 等等数据现象

为啥回复卡住了...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/417341

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX