机器训练的思路是这样吗？

看了一下网上的训练集，内容是这样的：

19980104-02-001-003/m 贵阳市 /ns 目前 /t 有 /v ５８/m 户 /q 国有 /vn 困难 /a 企业 /n ，/w 连同 /p 离退休 /vn 职工 /n 共 /d 近 /a ３．６万 /m 人 /n 。/w 为了 /p 让 /v 这些 /r 企业 /n 职工 /n 过 /v 好 /a “/w 两节 /j ”/w ，/w 市政府 /n 帮助 /v 其中 /r １０/m 户 /q 企业 /n 申请 /v 了 /u 部分 /m 贴息贷款 /n 。/w 对 /p 未能 /v 得到 /v 贷款 /n 的 /u 企业 /n ，/w 由 /p 市 /n 财政 /n 核发 /v ２５０万 /m 元 /q “/w 再 /d 就业 /v 与 /c 解困 /v 资金 /n ”/w 进行 /v 救助 /vn 。/w 劳动部门 /n 对 /p ２０/m 户 /q 特困 /b 企业 /n 中 /f 的 /u 近 /a ７０００/m 名 /q 离退休 /vn 人员 /n ，/w 按照 /p 救助 /vn 标准 /n ，/w 从 /p 社会保险金 /n 中 /f 调剂 /v ２３６．６６万 /m 元 /q 予以 /v 救助 /vn 。/w

这样的训练集是手工分割的吗? 有了训练集后就是做机器训练了，机器训练的思路是怎样的？就是用训练词的词汇去文章里去搜索吗?可是这样起不到训练的目的啊。训练集里有“贵阳市”，那以后目标里出现了“广州市”能分辨出来吗？

crazycabbage

2016-12-31 12:06:30 +08:00

分词不是手工分割的，是有专门的分词库，比如中科院的 nlpir
https://github.com/NLPIR-team/NLPIR
当然还有很多分词的开源库，算法也有很多，比如基于词典的最大正向匹配等等。
机器训练莫过于对比两个词之间的相似度，把分词转换成向量进行运算，比如计算余弦距离，欧式距离等等。
你举的例子“贵阳市“和”广州市“，一计算距离就知道他们有一个字(市)是相同的，那么自然就知道他们都是市级单位了。

em70

2016-12-31 12:32:04 +08:00

你这是机器自动识别词性吧,要先要建立一个数学模型

比如将词汇人工标注的词性与所在句子位置一起储存,就可以计算出"贵阳市"这个词出现在句子第一个位置的时候有多大几率是名词,有多大几率是动词,出现第二位的时候又多大几率,这样可以得到一个词汇,位置,词性几率的数学模型

训练数据足够多,这个模型就可以用来分析未被人工标注的句子. 训练数据越多准确性越高

至于广州市和贵阳市能否自动分辨,看你模型设计和训练数据了,机器学习是很复杂的,要不断试验,总结,修改,创新

t6attack

2016-12-31 12:50:42 +08:00

机器学习是个很大的领域，每一种算法的思路都不一样。
关于 word2vec ，我记得这个领域的专家接受采访时提到一个小细节，他们把“国王”的向量叠加“妻子”的向量，结果返回的是“王后”的向量。这是个令人激动的结果。因为他们并没有让机器刻意去做到这一点。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/331417

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.