注意到 V2EX 评论页的一个细节,第一条评论上方的分类是怎么来的?

2018-03-27 13:42:07 +08:00
 gaocc

如题,有点好奇,在第一条评论上方会有几个词语,是文章内容里的,怎么获取的,为什么是这几个?是 lucence 或者 ES 的分词?怎么提取的呢?

点击还能根据分词的类别进入对应列表,感觉很方便,想了解下,只是思路也行?

感谢各位 geek

1561 次点击
所在节点    问与答
12 条回复
gaocc
2018-03-27 13:43:06 +08:00
比如这次就是分词,评论,V2EX,lucence 这几个关键字
lllllllllllllll
2018-03-27 13:46:38 +08:00
应该是从你的问题描述和标题里面 抽出来的关键字。。具体有没有用机器学习算法不清楚。
gaocc
2018-03-27 13:49:39 +08:00
@lllllllllllllll ……想了解是怎么抽取和分离的,思路也行
lllllllllllllll
2018-03-27 13:51:52 +08:00
@gaocc 语义识别算法吧,很久之前就见过类似的算法。
SourceMan
2018-03-27 13:53:22 +08:00
crab
2018-03-27 13:53:50 +08:00
之前看站长说过用的 jieba
zakokun
2018-03-27 13:54:30 +08:00
应该就是简单的分词而已,别想太多。
zxy
2018-03-27 13:56:25 +08:00
关于 V2EX 新的自动打标签功能 /t/96918
gaocc
2018-03-27 14:07:34 +08:00
@SourceMan 你发的这个,我测试了下有毒啊。标题用默认的苹果新闻,内容全删了,然后在 v2 里找一篇文章复制上去,没一个关键字和文章内容有关,全是苹果啥啥的
gaocc
2018-03-27 14:08:55 +08:00
@zxy 这好像是正解……我了解下,感谢
Tink
2018-03-27 14:11:40 +08:00
jieba
gaocc
2018-03-27 16:14:41 +08:00
求问,jieba 只能用 python 来写吗? java 可以吗?
如果不行,java 用什么可以代替 jieba

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/441774

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX