通过多个标签来预测值并解释原因,可以使用什么算法来实现?

2020-04-11 22:31:01 +08:00
 v2zero

标题可能没写清楚。目的是,研究搜索引擎的排序规则。

已知的是,网页里面出现特定区块会显著有助于排名,比如「相关文章」这般的区块。

如果自行去判断区块的性质,还要仿照到搜索引擎具体实现的细节,可能过于困难。但如果仅提取处理网页里面的词,提取出「相关」这样的词,就容易得多,并且也能满足一部分需求。

目前,通过这样的方式,将网页的分词结果去对照排序结果,通过一些最基础的统计手段有了一些成果。

但肯定有些不理想之处,比如「相关」和「类似」这两个词有时作用可能是相同的,又如「当前」和「位置」两个词可能要同时出现才具有意义(面包屑导航)……依靠统计方法,也较难在样本量不到特别大的时候,去寻找到一些出现频率极少的但有效的词语。

x: ['网站', '首页', '文章', '作者'……] (网页上出现的词)

y: 5 (网页在搜索引擎上搜某一个词时候的排名)

在大量样本下,可以「一定程度」去分析到底是 x 里面的某个词具体是如何影响 y 的,不知道是否有可能可行的机器学习算法?

1394 次点击
所在节点    机器学习
2 条回复
iasuna
2020-04-12 05:29:12 +08:00
Cola90
2020-04-24 09:56:19 +08:00
提升树模型

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/661558

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX