大家觉得 spark 目前瓶颈在哪呢?

2015-12-24 09:56:35 +08:00
 gzxultra

本科毕设围绕 spark 开展,具体点是改进 spark 的资源调度系统。
由于身边没法部署大规模集群,能看到的问题可能相当有限。
想问问大家目前在生产环境看来 spark 现在主要的瓶颈和可改进的地方都有那些呢?

3536 次点击
所在节点    Hadoop
9 条回复
Todd_Leo
2015-12-24 10:08:41 +08:00
你可以去官方的 JIRA 上看看 issues
wilsoncao
2015-12-24 10:12:22 +08:00
只用过框架但没有认真思考过哪里有瓶颈。。。收藏关注一下大神的回答。。。就观察来看有些操作例如 mapbykey 非常耗时,非常耗时。。。不知道是不是跟资源调度有关。。
Abbey
2015-12-24 10:43:06 +08:00
阿里云买几台服务器吧。。。
mko0okmko0
2015-12-24 11:09:39 +08:00
你知道 spark 的
最小启动条件吗?
最佳 CP 值虚拟机推荐吗?
离线计算配置?
一秒软即时配置?
太多点可以玩了,
数据随便找个几 G 或是几 T 也可,倒在一起就可以玩了.
不要假设目标,
直接查找所有栏位 /数值的个别出现次数最多,降排序.
依照此排序推算某两个存在的正比关系,
dsharpen
2015-12-24 11:48:38 +08:00
樓主:大家覺得登錄火星的瓶頸在哪兒?
1 樓:你可以到 NASA 看看最新的 issues
2 樓:只到達火星大氣,沒認真思考過登錄哪裏有瓶頸,收藏關注一下奧巴馬的回答。。。就觀察來看,擺脫天朝的五毛非常耗時,非常耗時。。。不知道是不是和被牆太久了有關。。
3 樓:淘寶買個一次性高仿八心八級箭着陸器吧。。。
4 樓:你知道火星嗎?
第五宇宙速度嗎?
最佳第六人如何坑隊友的嗎?
霍金電話性愛?
一秒軟掉毛都沒射?
太多點要考慮了,
轟趴隨便找幾個 G(男用)友或是幾個 T(女用),倒在一起就可以玩了。
不要放棄治療,
直接查找所有內褲 /bra 的個別出現次數最多,降排序,
依照此排序推算某兩個存在的婚外關係,
(不好意思岔道了,最後似乎得出了和火星無關的結論...anyway )
zonghua
2015-12-24 11:52:51 +08:00
学校每个机房有六十台机子,只要五个机房的话。
czheo
2015-12-24 12:45:02 +08:00
spark.mlib 正在向 spark.ml 迁移,其中还有很多的 ML 算法都还没有实现。
mko0okmko0
2015-12-24 13:47:50 +08:00
@dsharpen 翻译很棒.超形象的.
难得被调侃后马上笑出来的哈哈哈.
staticor
2016-01-12 19:04:22 +08:00
诚如, 这里不获得有效回答的好地方, 倒是也许能得到一些得到有效回答的渠道. find issues

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/245765

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX