提取网页关键词的思路

2019-10-24 13:19:00 +08:00
 ArchiTech
如何从一个网页上面提取几个关键词来概括网页内容呢?我想分析一些网页,并找出相关的网页匹配到一起。
网页内容繁多,我想到一个简单的办法是只看 document.title 里的文字,网页的主题多数时候就在 title 里面了。

如果要分析整个网页的内容就复杂多了,有没有相关的资料可以推荐我看看呢?

另外匹配的时候单纯看相同的关键词好像也不够准确,如果一个网页里面讲的是台球,另一个网页里面讲的都是桌球,应该也要匹配到一起,因为是一个东西。
4180 次点击
所在节点    奇思妙想
7 条回复
zdnyp
2019-10-24 13:23:27 +08:00
NPL、卷积神经网络
chinauniverse
2019-10-24 14:00:53 +08:00
做一个贝叶斯模型,在线学习,越用越智能。预测个大概应该不成问题
naomhan
2019-10-24 14:07:43 +08:00
大部分有 description
abclearner
2019-10-24 14:23:35 +08:00
信息提取了解一下 如 if-idf
zhaiblog
2019-10-26 03:52:49 +08:00
https://github.com/kingname/GeneralNewsExtractor
这个项目以及项目中提及的论文《基于文本及符号密度的网页正文提取方法》应该能帮到你
ArchiTech
2019-10-26 04:05:20 +08:00
@zhaiblog 这个是把网页的内容提取了出来,但是并没有分析内容,最终提取出核心的几个关键词吧?
感谢回复!
ArchiTech
2019-10-26 04:06:33 +08:00
也感谢楼上其他人的回复,神经网络的办法我看了下,train model 的部分感觉很大工程啊。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/612494

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX