有偿求助(NLP):请问如何计算两个词之间的共现/转移概率(transitional probability)?

2022-05-19 11:29:49 +08:00
 toeii
例子如下:

小鸟飞翔 “小鸟”与“飞翔”的转移概率?
饭店喷发 “饭店”与“喷发”的转移概率?(类似这种不可能的搭配)

(现在手里有很多组这样的组合,自己不会算,想弄懂原理😂,联系:5b6u5L+h5Y+3OiBvajg3djU=
1048 次点击
所在节点    问与答
6 条回复
ipwx
2022-05-19 11:42:34 +08:00
1. 找一个巨大的语料库。
2. 用分词(比如 jieba )抽取词的 token 。
3. 然后直接统计。

----

但是……

这个方法估计你得不到有意义的答案,原因是 word token 太稀疏了,所以是失真的。

改进方法:

1. 找一个巨大的语料库。
2. 用分词抽取 word token 。
3. 训练 word embedding model 。
4. 训练一个分类器,p(next word embedding | previous word embedding)

----

如果要增加效果,可以考虑

p(next word embedding | context)

而不是只给定上一个词语。相关的改进建议查询论文。
IRuNamu
2022-05-19 12:14:55 +08:00
@ipwx 聽起來 像 分詞 之後 去除 Stop Words 做 Word2Vec 然後 對比 兩隻 詞(Tokens) 之間 的 轉移 概率
IRuNamu
2022-05-19 12:16:10 +08:00
聽起來 如果 有 上下文 可以 Train 一個 Bert Model 來 比對 p(next word embedding | context)
toeii
2022-05-19 12:44:21 +08:00
谢谢二位的回复!@ipwx @IRuNamu 可以方便加一下我的联系方式不(如上文)?因为刚刚接触 NLP (完全还没有入门),所以还想具体请教一下~~
jhdxr
2022-05-19 12:59:48 +08:00
学校作业么?要你手算的话,HMM 的?
toeii
2022-05-19 13:40:13 +08:00
@jhdxr 嗯嗯 也算是作业 且要求这周之内完成😂 方便留一下联系方式,或者加我的联系方式么?(如上),多谢多谢!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/853891

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX