机器训练的思路是这样吗?

2016-12-31 11:49:30 +08:00
 omg21

看了一下网上的训练集,内容是这样的:

19980104-02-001-003/m 贵阳市 /ns 目前 /t 有 /v 58/m 户 /q 国有 /vn 困难 /a 企业 /n ,/w 连同 /p 离退休 /vn 职工 /n 共 /d 近 /a 3.6万 /m 人 /n 。/w 为了 /p 让 /v 这些 /r 企业 /n 职工 /n 过 /v 好 /a “/w 两节 /j ”/w ,/w 市政府 /n 帮助 /v 其中 /r 10/m 户 /q 企业 /n 申请 /v 了 /u 部分 /m 贴息贷款 /n 。/w 对 /p 未能 /v 得到 /v 贷款 /n 的 /u 企业 /n ,/w 由 /p 市 /n 财政 /n 核发 /v 250万 /m 元 /q “/w 再 /d 就业 /v 与 /c 解困 /v 资金 /n ”/w 进行 /v 救助 /vn 。/w 劳动部门 /n 对 /p 20/m 户 /q 特困 /b 企业 /n 中 /f 的 /u 近 /a 7000/m 名 /q 离退休 /vn 人员 /n ,/w 按照 /p 救助 /vn 标准 /n ,/w 从 /p 社会保险金 /n 中 /f 调剂 /v 236.66万 /m 元 /q 予以 /v 救助 /vn 。/w

这样的训练集是手工分割的吗? 有了训练集后就是做机器训练了,机器训练的思路是怎样的?就是用训练词的词汇去文章里去搜索吗?可是这样起不到训练的目的啊。训练集里有“贵阳市”,那以后目标里出现了“广州市”能分辨出来吗?

1568 次点击
所在节点    问与答
6 条回复
crazycabbage
2016-12-31 12:06:30 +08:00
分词不是手工分割的,是有专门的分词库,比如中科院的 nlpir
https://github.com/NLPIR-team/NLPIR
当然还有很多分词的开源库,算法也有很多,比如基于词典的最大正向匹配等等。
机器训练莫过于对比两个词之间的相似度,把分词转换成向量进行运算,比如计算余弦距离,欧式距离等等。
你举的例子“贵阳市“和”广州市“,一计算距离就知道他们有一个字(市)是相同的,那么自然就知道他们都是市级单位了。
crazycabbage
2016-12-31 12:14:06 +08:00
当然机器学习还要加各种特征,比如词性,同义词和近义词等等吧,要不电脑怎么知道“贵阳市”是个城市还是种吃的呢?我也没用过,以上纯属瞎扯: P
em70
2016-12-31 12:32:04 +08:00
你这是机器自动识别词性吧,要先要建立一个数学模型

比如将词汇人工标注的词性与所在句子位置一起储存,就可以计算出"贵阳市"这个词出现在句子第一个位置的时候有多大几率是名词,有多大几率是动词,出现第二位的时候又多大几率,这样可以得到一个词汇,位置,词性几率的数学模型

训练数据足够多,这个模型就可以用来分析未被人工标注的句子. 训练数据越多准确性越高

至于广州市和贵阳市能否自动分辨,看你模型设计和训练数据了,机器学习是很复杂的,要不断试验,总结,修改,创新
crazycabbage
2016-12-31 12:34:14 +08:00
刚刚去查了一下,训练方式是 word2vec ,具体算法细节不清楚,看来要多补补了
t6attack
2016-12-31 12:50:42 +08:00
机器学习是个很大的领域,每一种算法的思路都不一样。
关于 word2vec ,我记得这个领域的专家接受采访时提到一个小细节,他们把“国王”的向量叠加“妻子”的向量,结果返回的是“王后”的向量。这是个令人激动的结果。因为他们并没有让机器刻意去做到这一点。
omg21
2016-12-31 14:11:14 +08:00
@crazycabbage
@em70
机器学习范围太大了,我就是想做一个自动分类,目前看来只能先设定一些关键词匹配进行分类。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/331417

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX