看到又一个搜索引擎坑( https://www.v2ex.com/t/487957), 不吐不快, 在 2010 年的时候做了个火狐插件 FromWhereToWhere 实现基于 clickstream 对本地浏览历史进行可视化(在新版火狐中已不可用). 当时觉得可以通过它共享结构化和主题化, 并且已经过人工过滤的浏览历史 /网页集合. 如果有足够的共享的数据, 就可以做一个小型搜索引擎, 也许能克服纯计算进行信息提取的一些问题. 当时觉得集中式搜索引擎的问题很多是通病, 而且在搜索算法不公开透明的情况下, 很难建立与最终用户的信任. 白驹过隙, 现在的搜索技术和计算资源的普及程度比那时又不可同日而语.
问题: 最小需要多少物资人力投入支撑一个搜索算法开源透明, 靠社区监督报告(也是公开的)补足算法的错漏, 靠自愿投入的计算资源(抓取+索引+共享)支撑全网数据更新的搜索引擎呢? 假设分布式以及数据本地化的架构可以使搜索流量的绝大部分(比如 99/100)通过访问其他节点而非通过直接访问主站进行(是否实际?)
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.