关于在 GAE 上实现 home timeline

SELECT IN() 操作限制只能有 30 个 item，因此理论上来说，如果用传统做法，好友超过 30 个就 not working 了。而且想必很慢。

大家有什么好想法么？

zaykl

2010-04-26 20:16:55 +08:00

人多流量就马上超了。。

orlaa

2010-04-26 20:35:17 +08:00

如果已经不在乎墙了的话，国外一个便宜的VPS或者能让程序更加的“自由”，当然，看起来似乎没有部署在GAE上那么酷。

Livid

2010-04-26 20:38:32 +08:00

当注册用户过万之后，需要面临的 scale out 问题，在 LAMP 上和在 GAE 上的难度是差不多的。

orlaa

2010-04-26 20:50:51 +08:00

对于GAE没有深入了解，没有过多的发言权，只是感觉一个让人愉悦的web应用它的内在也是需要自由的，而GAE给我的感觉太多条条框框了。
总之，加油！

Livid

2010-04-26 20:56:58 +08:00

^_^

我希望有一天这里能够有超过 10 万的用户，却依然很快很愉悦。

orlaa

2010-04-26 21:04:05 +08:00

^_^
假如这样，估计v2ex是第一个在GAE上有超10万用户的应用，Google到时是否会有政策倾斜呢？哈，我想多了。

number5

2010-04-26 21:15:01 +08:00

可以参考一下jaiku的实现，他们现在全部在GAE上了，http://code.google.com/p/jaikuengine/

darcy

2010-04-27 01:39:56 +08:00

jaiku都被Google废弃了

Kenyth

2010-04-27 13:49:01 +08:00

上一届Google IO会议有一个slides就是讲scalability的best practice的，你可以参考一下，结合 @number5 提到的jaiku的GAE实现一起看效果更佳:)

zack

2010-04-27 16:26:23 +08:00

这确实是个麻烦问题，GAE如果支持类似Cassandra的存储机制就比较好解决了。当然最主要的还是取决于功能设计上是否有需求。

Livid

2010-04-27 16:28:42 +08:00

其实 Twitter 自己的做法也不是 SELECT IN()，而是为每个用户创建一个队列。然后当新的 status 发出来时，就将 status 的 ID 插入到 followers 的队列中，而 status 的正文是在一个 key-value 数据库中。

这种做法是可以在 GAE 上实现的。只是当 unfollow 的时候，清除队列中的数据貌似很头疼。

zack

2010-04-27 16:42:20 +08:00

@Livid 恩，确实是这样的。GAE并没有一个很好用的应对这种情景的存储API。

而Cassandra似乎比较适合这样的应用场景。

两篇参考的文章，问题的情景是基本一样的：

http://about.digg.com/blog/looking-future-cassandra

http://blog.evanweaver.com/articles/2009/07/06/up-and-running-with-cassandra/

xuming

2010-04-27 17:07:30 +08:00

使用query.ancestor，数据存放在同一个节点上，再加上一些必要的冗余或许可以

Los

2010-04-27 17:54:01 +08:00

redis 很适合这些场景，而且性能上也跟得上去。

vvoody

2010-04-29 23:56:55 +08:00

@livid 用Task Queue在后台维护这么一个队列？不知道效率如何

vvoody

2010-05-02 19:56:37 +08:00

@Livid 如果已经跟随的用户发出tweets那么插入timeline队列没什么问题。但如果你新follow了一个人，他之前的tweets如何高效的插入timeline队列就是个问题了

Tigris10

2010-08-21 20:36:19 +08:00

可以运行在vps上吗？要怎么配置呢

jorakura

2010-12-13 15:06:38 +08:00

有同样的需求，也考虑类似的做法。 #11 @livid提到的做法。
有Twitter的实现的具体ref么？

和#15 @vvoody 说的一样，插入 timeline 和 unfo 的时候的删除都会是大规模的批量操作。只能用taskqueue做，但是性能还不确定。

这里有一个即时的性能参考 http://gaejava.appspot.com/

keakon

2010-12-13 15:45:07 +08:00

用一个model专门保存每个用户的公开时间线（实际上就是topic id），然后memcache它们

取的时候直接用memcache.get_multi()来获取

如果其中有些为None，再去数据库里取公开时间线

详细的想法可以参考这篇：

http://www.keakon.net/2010/04/26/Twitter%E4%B8%BA%E4%BB%80%E4%B9%88%E4%BC%9A%E4%BD%BF%E7%94%A8NoSQL%EF%BC%9F

vvoody

2010-12-13 17:13:03 +08:00

很丑陋地实现了... https://github.com/vvoody/twidao
不过还是如 @keakon 文章里说的那样，用单一公开时间线比较好。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/69

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.