纯 unsupervised 的主题模型很多时候太过于天马行空,而有的时候还会有一些小小的 domain knowledge 需要加入到模型中,所以找了一下,发现这两个模型。
GuidedLDA 可以通过 pip
直接安装。
CorEx 不需要安装直接 import
就可以了。CorEx 来源于 Anchored Correlation Explanation: Topic Modeling with Minimal Domain Knowledge, Gallagher et al., TACL 2017.这篇文章
由于是私有数据集就不贴结果了。结果就是 GuidedLDA 惨不忍睹。在没有 seed 的指引下结果就很差。加入 seed 之后,结果稍好,可是还是有很多让人费解的词出现。
CorEx 在没有 seed 指引的情况下就很好。完胜!
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.