关于 V2EX 新的自动打标签功能

2014-01-14 10:12:11 +08:00
 Livid
现在在 V2EX 每个主题的右下角,多了一个新的自动打标签功能,及相关的聚合页面。

这是基于 jieba 做的。目前的效果在某些主题上还是不太理想,接下来会继续优化。

大家如果有什么好的思路,或者好的词典,还请多多赐教,谢谢。
13266 次点击
所在节点    Project Babel
71 条回复
xiaojay
2014-01-14 10:45:04 +08:00
分词 然后用 TF-IDF ?
Livid
2014-01-14 10:45:36 +08:00
@botao1
@mkeith 请相信设计师的直觉。:-)
hzlzh
2014-01-14 10:48:32 +08:00
@Livid 墙裂的需要大小写规范化单词
nemoliu
2014-01-14 10:49:26 +08:00
能介绍一下计算的过程么?对标题分词然后根据tf-idf做关键词提取?
Livid
2014-01-14 10:50:25 +08:00
FarBox
2014-01-14 11:04:51 +08:00
中文词典应该都是接近的。如果有更好的,同求。 :)

我们原来有尝试用jieba+mongodb做全文检索,但试了下,性能很糟糕,没有办法用在生产环境。

最后选择用ElasticSearch作为纯粹的分词+索引的中间库,也算一种奇葩的用法;不过效果还挺不错的。
dorentus
2014-01-14 11:07:26 +08:00

放这个位置不也挺好的么……
mopig
2014-01-14 11:07:45 +08:00
http://v2ex.com/tag/tooyoung
不存在的 tag 会报错~
Superoutman
2014-01-14 11:09:18 +08:00
非常赞同19楼 @botao1 的提议。
ryon
2014-01-14 11:12:01 +08:00
tag和节点会不会有一定的重复?我们在设计的过程中也考虑过类似的问题,后来最终考虑还是采用节点,相比之下自动计算出来的tag可能很多情况下利用率不高。
huafang
2014-01-14 11:20:33 +08:00
@ryon wecenter 新版不错,我一直在期待
mactaew
2014-01-14 11:22:45 +08:00
@Livid 分词略有问题。
ayukun
2014-01-14 11:26:54 +08:00
和27楼想到一块了,放那里就挺好,还容易看见 ,刚刚找这个主题的表情费了好一会。可以考虑加淡彩
meteor2013
2014-01-14 11:27:32 +08:00
目前在iPhone 上看不到标签
dorentus
2014-01-14 11:32:42 +08:00
@ayukun
我明白了,自己的帖子,功能按钮,例如「追加内容」目前是放在那个位置的……
所以 Livid 才一开始就没考虑把 tag 放在那里吧
Livid
2014-01-14 11:37:46 +08:00
@dorentus 对,在一个主题刚发布的前 300 秒,那里会有 MOVE 和 EDIT 按钮。1800 秒之后,会有 APPEND 按钮。
Livid
2014-01-14 11:38:28 +08:00
@mopig 谢谢,这个问题已经解决。
xiaop
2014-01-14 11:47:33 +08:00
tag这个功能非常棒!如果能对tag做归类就更棒了
ayang23
2014-01-14 11:48:12 +08:00
jieba启动慢,费内存,貌似要在每个django线程里加载一份词典,简单的不如用mmseg
Mihuwa
2014-01-14 11:55:48 +08:00
很赞的功能。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/96918

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX