最近学术圈和工业界都玩变形金刚和注意力都很开心,时不时的还搞个不大不小的新闻。不过说到具体真的用起来,不是所有的 transformer 都能直接应用到所有场合。Topic Models 也有很久了,其实结果很惊艳的。只是大家都去做深度学习,没有太多实用化的推进。之前也看过腾讯内部有改进主题模型,不过那个算是企业内部模型,不开源,接触到的人很少。
前几天发现了一个叫做 TopSBM 的模型,2018 年发表的。将网络分析和主题模型结合在一起,彻底抛去了那个奇怪的 Dirichlet 先验分布,所以拟合出来的主题效果很好。在公司的数据上跑了一下,好到惊艳。下面总结一下自己使用主题模型的经验。
虽然说 TopSBM 是一个特别好的模型,但是也是一个主题模型,纯 CPU 计算,数据量一上来就特别特别慢。在大概 11K 文档上跑了接近 9 个小时才跑出来结果。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.