看了一下网上的训练集,内容是这样的:
19980104-02-001-003/m 贵阳市 /ns 目前 /t 有 /v 58/m 户 /q 国有 /vn 困难 /a 企业 /n ,/w 连同 /p 离退休 /vn 职工 /n 共 /d 近 /a 3.6万 /m 人 /n 。/w 为了 /p 让 /v 这些 /r 企业 /n 职工 /n 过 /v 好 /a “/w 两节 /j ”/w ,/w 市政府 /n 帮助 /v 其中 /r 10/m 户 /q 企业 /n 申请 /v 了 /u 部分 /m 贴息贷款 /n 。/w 对 /p 未能 /v 得到 /v 贷款 /n 的 /u 企业 /n ,/w 由 /p 市 /n 财政 /n 核发 /v 250万 /m 元 /q “/w 再 /d 就业 /v 与 /c 解困 /v 资金 /n ”/w 进行 /v 救助 /vn 。/w 劳动部门 /n 对 /p 20/m 户 /q 特困 /b 企业 /n 中 /f 的 /u 近 /a 7000/m 名 /q 离退休 /vn 人员 /n ,/w 按照 /p 救助 /vn 标准 /n ,/w 从 /p 社会保险金 /n 中 /f 调剂 /v 236.66万 /m 元 /q 予以 /v 救助 /vn 。/w
这样的训练集是手工分割的吗? 有了训练集后就是做机器训练了,机器训练的思路是怎样的?就是用训练词的词汇去文章里去搜索吗?可是这样起不到训练的目的啊。训练集里有“贵阳市”,那以后目标里出现了“广州市”能分辨出来吗?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.