想问几个关于搜索引擎原理的问题

2019-01-24 09:46:05 +08:00
 annoy1309

大概搜索引擎的原理都了解过,自己也写过小型化的玩具搜索。

有几个问题一直没法了解,搜索也不知道关键词 /搜不到结果,还请大家赐教(暂时拿百度举例子)

①关于新词搜索,热门词会提前做缓存结果我了解,但是比如一个很少有人搜的词汇,百度难道是在请求时遍历自己的整个抓取库吗?比如我现在搜索一个『 JEHWUWB 』这是一个从来没有出现过的乱码词汇,难道会在请求时对整个百度的抓取库进行搜索吗?感觉百度抓取的数据应该量也不小于 1T 吧,怎么响应大量的新词搜索呢?

②关于蜘蛛抓取量,百度之类是会抓历史页面的,比如一个网页 1 天更新一次,对于百度搜索引擎内部的数据库存,会每一次抓取都会留档吗?这样的话,是不是要远大于源站原页面(几十倍)的空间来储存呢?

③关于权重,每个搜索结果都有数万个站点,对于不同结果不同的站点权重还是不一样的(比如搜血管的时候,医学网站的权重肯定要比新浪高,搜其他的时候可能反过来)这种权重表对于新词搜索的时候,是重新维护一次吗?如何去确认一个新词的时候,下面结果列表的排序呢

1466 次点击
所在节点    问与答
7 条回复
jetyang
2019-01-24 10:31:15 +08:00
1. 搜索引擎里网站是有等级的,不同页面也是分级的,类似 pagerank,网页会按优先级分进高优先级库和全集库(剩下的网页),高优先级库通常占比非常小,一个 query 发过去,先在高优先级网页库里检索,如果结果不够再去全集里补全。
2. 应该是要存储的,压缩。
3. 不管什么 query,先按步骤 1 拿出初步结果,取前 n 个( n 在 1000 左右),在这 n 个里做 rerank,这时可以考虑如你说的 query 和 每个网页的关系,还可以考虑用户以往的搜索历史和点击记录,这时的结果集很小,可以做一些精细化性能消耗大的排序工作。
网页搜索是一个非常复杂的系统工程,要考虑的东西还有很多。。。

声明:本人从未在百度、搜狗、360、搜搜工作过
annoy1309
2019-01-24 10:48:51 +08:00
@jetyang 比如像我刚刚的那个自建词汇,绝大多数可能在高优先库内是没有的,那如何在可接受响应时间内做一个全量搜索呢?
在我对谷歌的测试中,能够搜到和我测试乱码词汇完全匹配的网页结果,延时也几乎没有区别,那是怎么做到在那么短的时间内对全量库进行检索呢?而且同时有大量请求。我觉得也不经济呢。
annoy1309
2019-01-24 10:50:53 +08:00
拿最理想化来说,全量库 100G+,就算全在内存中,搜索需要的 cpu 时间数我觉得也是不经济的🐸我不知道我哪里的判断出了问题
jetyang
2019-01-24 11:37:02 +08:00
@annoy1309 倒排索引里,每个 term 都对应着 docid 链表,term 的查询是用 hash 的,不管冷门词还是热门词查询都是 O(1) 的,如果那个词非常生僻,它对应的 docid 链表是很短的,返回很快不是很正常吗?

反而,如果 query 分拆出多个热门 term,对多个长 docid 链表做交集、并集耗时会更长
yuikns
2019-01-24 11:41:02 +08:00
楼主是不是不太了解倒排索引啊

https://blog.argcv.com/articles/3008.c
Cheez
2019-01-24 13:17:47 +08:00
我感觉不需要全量吧 ,只需要取 10 个结果
LukeChien
2019-01-24 16:07:16 +08:00
用倒排索引做粗召回,百度可能召回 750 个,搜狗可能是 1000 个。然后对这些候选项做精排序,主要参考候选项本身的质量度和与查询词的匹配度,再加上各种人工干预算法。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/530067

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX