大概搜索引擎的原理都了解过,自己也写过小型化的玩具搜索。
有几个问题一直没法了解,搜索也不知道关键词 /搜不到结果,还请大家赐教(暂时拿百度举例子)
①关于新词搜索,热门词会提前做缓存结果我了解,但是比如一个很少有人搜的词汇,百度难道是在请求时遍历自己的整个抓取库吗?比如我现在搜索一个『 JEHWUWB 』这是一个从来没有出现过的乱码词汇,难道会在请求时对整个百度的抓取库进行搜索吗?感觉百度抓取的数据应该量也不小于 1T 吧,怎么响应大量的新词搜索呢?
②关于蜘蛛抓取量,百度之类是会抓历史页面的,比如一个网页 1 天更新一次,对于百度搜索引擎内部的数据库存,会每一次抓取都会留档吗?这样的话,是不是要远大于源站原页面(几十倍)的空间来储存呢?
③关于权重,每个搜索结果都有数万个站点,对于不同结果不同的站点权重还是不一样的(比如搜血管的时候,医学网站的权重肯定要比新浪高,搜其他的时候可能反过来)这种权重表对于新词搜索的时候,是重新维护一次吗?如何去确认一个新词的时候,下面结果列表的排序呢
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.