支撑一个面向国内的开源分布式搜索引擎需要多少人力物力?

2018-09-11 02:01:20 +08:00
 xuanwu

看到又一个搜索引擎坑( https://www.v2ex.com/t/487957), 不吐不快, 在 2010 年的时候做了个火狐插件 FromWhereToWhere 实现基于 clickstream 对本地浏览历史进行可视化(在新版火狐中已不可用). 当时觉得可以通过它共享结构化和主题化, 并且已经过人工过滤的浏览历史 /网页集合. 如果有足够的共享的数据, 就可以做一个小型搜索引擎, 也许能克服纯计算进行信息提取的一些问题. 当时觉得集中式搜索引擎的问题很多是通病, 而且在搜索算法不公开透明的情况下, 很难建立与最终用户的信任. 白驹过隙, 现在的搜索技术和计算资源的普及程度比那时又不可同日而语.

问题: 最小需要多少物资人力投入支撑一个搜索算法开源透明, 靠社区监督报告(也是公开的)补足算法的错漏, 靠自愿投入的计算资源(抓取+索引+共享)支撑全网数据更新的搜索引擎呢? 假设分布式以及数据本地化的架构可以使搜索流量的绝大部分(比如 99/100)通过访问其他节点而非通过直接访问主站进行(是否实际?)

5843 次点击
所在节点    奇思妙想
43 条回复
encro
2019-08-01 14:16:53 +08:00
曾经做了一个索引 osc,csdn,stackoverflow 等 7 个编程网站数据的搜索引擎。数据压缩后也就几个 G 而已。一台阿里云虚拟机足够

另外一个美国亚马逊,德国亚马逊,日本亚马逊,大部分数据的海淘搜索引擎,大概 7000 万数据。一个月营业额几百万吧,8 核 16G 阿里云虚拟机做均衡。
xuanwu
2019-08-01 15:28:12 +08:00
@encro 专业数据和通用搜索引擎的数据量和负载应该有几个量级的差别吧.
encro
2019-08-02 09:28:56 +08:00
@xuanwu 基本原理(存储结构和索引方式)基本是一样的,所以不存在很大的差别,谷歌百度之类可能性能能提高 10 倍以上,比如利用 GPU,前置缓存层等。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/488032

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX