关于目前 V2EX 搜索所用到的软件

2010-07-22 00:55:55 +08:00
 Livid
Index and Search Server:

Tokyo Dystopia http://1978th.net/tokyodystopia/

API Server:

Tornado: http://www.tornadoweb.org/

及用来起到加速目的的 Nginx 和 Memcached。
12172 次点击
所在节点   搜索引擎技术研究
18 条回复
Livid
2010-07-22 01:00:42 +08:00
Tornado 是一个非常好用的技术。

如果你不方便访问 Tornado 的网站的话,这里是我做的镜像:

http://web.me.com/v2ex.livid/tornado/
Livid
2010-07-22 01:01:54 +08:00
gonbo
2010-07-22 09:23:46 +08:00
呵呵,分词怎么做的?
Livid
2010-07-22 09:24:28 +08:00
N-gram
gonbo
2010-07-22 09:34:53 +08:00
这个,聊胜于无
gonbo
2010-07-22 09:35:39 +08:00
当然 search不是社区的主要功能,不提供也可以。呵呵
Kenyth
2010-07-22 10:19:07 +08:00
跟我之前了解到的全文搜索方案有点不一样。

你的方案应该不全是在GAE上实现的吧?

其他的server是host在什么地方的呢?
Livid
2010-07-22 10:24:39 +08:00
在另一个云里。
Kenyth
2010-07-22 10:28:20 +08:00
是在Amazon的云里吗?
Kenyth
2010-07-22 10:37:28 +08:00
还有你的index server是怎么访问这个v2ex的数据的呢,直接开的HTTP的API? 这样要达到近似于实时索引应该要用掉不少GAE上的quota吧?

还是你已经开始用Google Storage(没用过这个,不太了解)来访问了?
areless
2010-07-22 11:39:47 +08:00
sphinx现在有realtime了。
Livid
2010-07-22 11:40:34 +08:00
2.4.0 时这部分通讯代码会开源的。
Kenyth
2010-07-22 12:56:43 +08:00
可以有的一种方案是:

<ul>
<li>Storage用独立的方案(Google的、Amazon的或者其他的,我总觉得GAE的datastore有性能问题,GAE上quota太容易就用掉了)
<li>处理一个数据变更请求时异步的ping一下索引服务器,索引服务器再去异步的访问storage并建立索引
</ul>

云一出来,跨云的解决方案也一并出来了。
cnleoyang
2010-07-22 13:12:02 +08:00
@areless 是的,刚刚发布了beta。
@Kenyth Google Storage for developers的速度和流量相当不错,官方提供python版本的库。
Livid
2010-07-22 13:13:16 +08:00
一个贴子连上回复通常数据流量是不会超过 10K 的。
lin
2010-07-23 12:09:40 +08:00
我对这些东西完全不懂,但是刚才无意中看到有一篇叫

full text search on app engine

的东西:

http://www.ultrasaurus.com/sarahblog/2010/06/full-text-search-on-app-engine/

不知道有没有什么价值,先贴上来。
oldgun
2010-07-24 16:25:57 +08:00
@Livid,这里不必翻墙。
oldgun
2010-07-24 16:27:07 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/757

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX