MapReduce is now part of Project Babel

2010-07-26 07:34:13 +08:00
 Livid
现在 Project Babel 中已经初步集成了 Google 的开源 MapReduce 组件,用来将一些数据进行重新计算——比如每个节点的贴数,有的时候因为写入失败或者是其他难以预料的原因,各种统计数据未必是准确的,而这些会影响到分页。

而现在有了 MapReduce,可以保证这些大规模的数据可以随时通过分布式整理的方式保持准确一致。

关于在 Google App Engine 上进行 MapReduce 操作,请看这里:

http://code.google.com/p/appengine-mapreduce/wiki/GettingStartedInPython
5682 次点击
所在节点    Project Babel
10 条回复
Livid
2010-07-26 07:37:44 +08:00
而这个框架实际上在本地也很好用,因此也可以用来在本地进行科学试验。

:)
Livid
2010-07-26 07:43:24 +08:00
并且这个框架在未来还可以用来做很多有趣的事情,比如:

- 计算每个用户最喜欢发贴的 Node
- 计算每个用户最喜欢回帖的 Node
yuanism
2010-07-26 07:57:23 +08:00
你好 想请教一个问题
我的twitter用户名下面 有个小锁一样的标志 鼠标停留在小锁上 会显示protected
发出的信息 和DM的信息 别人都看不到的
请问怎么把这个小锁在设置中去掉呢
犹豫内地已经背墙 我提供我的twitter账户密码给你 你能帮我上下官网改下设置吗
谢谢您
ioday
2010-07-26 08:12:35 +08:00
Livid 跟进得真快。我还在想在GAE上MapReduce能做些什么应用呢。

to yuanism:
在Twitter 的 Settings->Account->Tweet Privacy 的那个勾去掉。
aligo
2010-07-26 08:49:47 +08:00
MapReduce是建立在有拥有强大的宇宙级运算能力总和的基础上,以一种近乎暴力的简单至上方式把所有数据推倒重来,实在是太不环保了

在享受不到那种条件的情况下,我更关心如何能在保持算法简洁度的基础上,能够及时跟踪发生变化的那部分数据,只作有必要的运算,更新全局上的结果-A-
Livid
2010-07-26 09:07:57 +08:00
@aligo

要么花费机器的时间,要么花费开发者的时间。那么我宁愿去花费更多机器的时间来节约开发者的时间。

纯逻辑讨论。
lianghai
2010-07-26 11:34:48 +08:00
@yuanism 掌握翻墙功夫还是必要的。
aligo
2010-07-26 16:50:14 +08:00
@Livid

下午我在尝试把给bangumi做的数据挖掘算法移植成MapReduceReReduceReReReduce形式的‘分布式'算法
不过这里指的分布式不是把运算分散到不同的机器上进行,而是只对被更改过的数据条目从下往上进行重新增量计算
我觉得无论运算能力有多么富裕,这么做还是有必要的
Htom
2010-07-26 17:35:59 +08:00
@livid gae的mapreduce本地也可以用?
Livid
2010-07-27 05:36:16 +08:00
@Htom 可以。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/939

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX