想问几个关于搜索引擎原理的问题

大概搜索引擎的原理都了解过，自己也写过小型化的玩具搜索。

有几个问题一直没法了解，搜索也不知道关键词 /搜不到结果，还请大家赐教（暂时拿百度举例子）

①关于新词搜索，热门词会提前做缓存结果我了解，但是比如一个很少有人搜的词汇，百度难道是在请求时遍历自己的整个抓取库吗？比如我现在搜索一个『 JEHWUWB 』这是一个从来没有出现过的乱码词汇，难道会在请求时对整个百度的抓取库进行搜索吗？感觉百度抓取的数据应该量也不小于 1T 吧，怎么响应大量的新词搜索呢？

②关于蜘蛛抓取量，百度之类是会抓历史页面的，比如一个网页 1 天更新一次，对于百度搜索引擎内部的数据库存，会每一次抓取都会留档吗？这样的话，是不是要远大于源站原页面（几十倍）的空间来储存呢？

③关于权重，每个搜索结果都有数万个站点，对于不同结果不同的站点权重还是不一样的（比如搜血管的时候，医学网站的权重肯定要比新浪高，搜其他的时候可能反过来）这种权重表对于新词搜索的时候，是重新维护一次吗？如何去确认一个新词的时候，下面结果列表的排序呢

jetyang

2019-01-24 10:31:15 +08:00

1. 搜索引擎里网站是有等级的，不同页面也是分级的，类似 pagerank，网页会按优先级分进高优先级库和全集库（剩下的网页），高优先级库通常占比非常小，一个 query 发过去，先在高优先级网页库里检索，如果结果不够再去全集里补全。
2. 应该是要存储的，压缩。
3. 不管什么 query，先按步骤 1 拿出初步结果，取前 n 个（ n 在 1000 左右），在这 n 个里做 rerank，这时可以考虑如你说的 query 和每个网页的关系，还可以考虑用户以往的搜索历史和点击记录，这时的结果集很小，可以做一些精细化性能消耗大的排序工作。
网页搜索是一个非常复杂的系统工程，要考虑的东西还有很多。。。

声明：本人从未在百度、搜狗、360、搜搜工作过

annoy1309

2019-01-24 10:48:51 +08:00

@jetyang 比如像我刚刚的那个自建词汇，绝大多数可能在高优先库内是没有的，那如何在可接受响应时间内做一个全量搜索呢？
在我对谷歌的测试中，能够搜到和我测试乱码词汇完全匹配的网页结果，延时也几乎没有区别，那是怎么做到在那么短的时间内对全量库进行检索呢？而且同时有大量请求。我觉得也不经济呢。

jetyang

2019-01-24 11:37:02 +08:00

@annoy1309 倒排索引里，每个 term 都对应着 docid 链表，term 的查询是用 hash 的，不管冷门词还是热门词查询都是 O(1) 的，如果那个词非常生僻，它对应的 docid 链表是很短的，返回很快不是很正常吗？

反而，如果 query 分拆出多个热门 term，对多个长 docid 链表做交集、并集耗时会更长

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/530067

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.