搜索引擎超过 10 页以后的数据,有必要索引吗?

2019-07-21 08:32:40 +08:00
 okwork
1 很少有用户翻到 10 页以后
2 数据准确性几乎没有可参考价值
3 广告位也卖不出去

只保留 10 页以内的数据,远比保存几百、几千页数据存储和索引的效率都高很多。10 页以后的数据价值可能只有 10 页内的 1%都不到吧,有必要索引吗?
4222 次点击
所在节点    问与答
36 条回复
LongLights
2019-07-21 11:12:52 +08:00
@wangxiaoaer 顺便心疼老哥
trcnkq
2019-07-21 11:29:03 +08:00
喜欢看这种抬杠抬一半自己想明白了却找不到台阶下的
misaka19000
2019-07-21 11:51:28 +08:00
楼上干嘛呢都,索引的时候只有权重信息,搜索的时候才有页数的概念
rexyan
2019-07-21 14:03:27 +08:00
一般不用 from,size 进行分页吧,只是默认结果是 10 页而已。多用 score 查询。还有就是多用 filter 之类的带缓存的过滤器。
jfdnet
2019-07-21 14:06:51 +08:00
搜索自然会索引所有的资料。分页只是页面的一种组织形式,你也可以滚动啊。
mumbler
2019-07-21 14:14:10 +08:00
索引肯定要全部,否则怎么知道哪些结果该排前面,但只显示前多少页,减少反向索引缓存数据量
goodan
2019-07-21 14:19:36 +08:00
@trcnkq 描述精准哈哈哈
loading
2019-07-21 15:05:30 +08:00
请各位点“忽略主题”
akira
2019-07-21 18:55:12 +08:00
如果互联网是禁止不变的,永远没有新增内容,没有变化
huyi23
2019-07-21 20:11:52 +08:00
lz 别跟一群键盘侠 bb
阿里云的 open search 就不支持 5000 以外的数据
pandachow
2019-07-21 21:19:00 +08:00
心疼两位,lz 真的应该好好锻炼一下逻辑。。。
Milomide
2019-07-21 21:27:30 +08:00
可以有但没必要。。
dezhou
2019-07-21 23:06:05 +08:00
前提是是否有人看第十一页,有就会缓存
FrankFang128
2019-07-21 23:21:40 +08:00
显然,对于 Google 来说,显示后面页数并没有什么成本,因为你只有遍历所有页面之后,才能知道前十页的结果是什么。而且前十页的结果也是动态变化的。所以 Google 总归是要存更多结果的。
encro
2019-07-22 08:29:39 +08:00
搜索引擎大概分为几个部分:
蜘蛛:爬取内容
仓库:存储原始数据(磁盘)
索引:将数据以特定的结构保存进行存储,以便于检索(内存)
检索:根据各项权重对数据进行取出和排序


你问的是索引,就是将文章按照关键词保存在内存,当然是除了一些辅助词之外,其他的词都有建立索引的。
如果你问检索,也基本是一样的,只有检索完所有索引和附加字段,才知道哪些是关联性最高的,可以排在前面。
petelin
2019-07-22 08:53:32 +08:00
索引自然需要 展示 10 页是代码上选择问题 你还可以每天索引一遍全部的 然后想个办法每个关键词都取前 10 页的数量 剩下的 document 都删掉

这个成本也不比全量保存好

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/584785

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX