关于统计语言模型和神经网络语言模型

统计语言模型好理解，根据语料库计算整句话的概率，即可根据进行判断

那么神经网络语言模型如何对整句话的类别进行判断？这个想不清楚啊。

我已理解单个词的词向量，但是不知道词向量怎么运用到整句话的类别判断上

glennq

2016-03-03 12:03:11 +08:00

类别判断？语言模型的目的本来就只是给句子一个概率啊

chlx

2016-03-03 12:13:01 +08:00

mikezhang0515

2016-03-03 12:53:49 +08:00

@glennq 是这样的，我们需要做文章进行分类，只要收集一些类别进行建模，就可以按照概率进行类别划分，对吧。

但是如果使用神经网络模型，里面都是词向量，我实在想不出来这个该如何进行文章分类

mikezhang0515

2016-03-03 12:55:29 +08:00

@chlx 谢谢，这个看过，但还是不太理解，可能在自然语言模型上的惯性太大了。。老想着概率该如何计算

snnn

2016-03-03 13:09:28 +08:00

好专业！！！！

glennq

2016-03-04 10:47:48 +08:00

@mikezhang0515 首先“语言模型(Language Model)”是一个专有名词，主要目的是给定一个句子，能估算出其在这门语言中的出现概率。传统做法一般是 n-gram ，而神经网络一般是用 RNN+LSTM 。
文本分类又是另一个自然语言处理中的问题，一般做法是从每个文本中提取特征，然后就可以用任何有监督学习的方法来做了。至于词向量，你可以认为是给每个词的特征，想办法把这些组合起来变成整个文本的特征，之后就是同一个套路了

mikezhang0515

2016-03-04 15:26:03 +08:00

@glennq 对于词向量间，通过夹角能够得出同义词，那么通过什么可以得到相关性呢？看了很多文章，没有人这么提。

mikezhang0515

2016-03-04 15:28:47 +08:00

@glennq 可能相关性不是很明确，固定短语间，词向量会存在什么联系呢？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/260727

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.