现在文本分析技术发展到哪一步了?

2018-01-19 10:31:52 +08:00
 ColinZeb

现在我们要做一些文章中提取数据和分段(提取目录),比如一篇合同。

提取出来的目录是

  1. 基本信息(甲方乙方
  2. 基本条款
  3. 附加条款
  4. 违约条款

要提取出的数据是

  1. 甲方要求的交付期限
  2. 甲方付款笔数和金额
  3. 乙方违约金额

这些只是举例,实际上可能会更多。

不知道现在什么技术能做到,正则表达式肯定不用想了,格式太乱, 调试的时间和手工提取时间没差多少,再加上数据量很大,所以就没法考虑了。

听说 google 有个 tensorflow 项目,但是不太了解能不能做到。

请各位给点意见,或者说下招到能做到这样效果的技术人员薪资大概多少。

1887 次点击
所在节点    问与答
6 条回复
fengdra
2018-01-19 11:36:56 +08:00
现在的 NLP 技术很难理解语义,很多时候还不如手写正则表达式。
如果非要用的话,大概有两种方式。第一种是找人标数据来训练端对端的模型,一般也只是用 SVM 之类的传统模型,不需要非常多的数据。
第二种是用句法分析器之类的现成工具提取比较高级的特征,然后写规则。
ColinZeb
2018-01-19 11:51:43 +08:00
@fengdra 感谢指引 我去查查
neosfung
2018-01-19 11:55:03 +08:00
同意一楼,除非这个任务的价值特别大,值得投资人力来标注语料库,否则还不如用正则来的快。
嫌正则慢,可以考虑一下新出来的 flashtext https://github.com/vi3k6i5/flashtext
ColinZeb
2018-01-19 12:23:50 +08:00
@neosfung 我不是嫌弃正则运行效率低,而是因为数据量太大而且规则不统一所以正则编写调试效率低
littlepanzh
2018-01-19 15:51:45 +08:00
takato
2018-01-19 16:00:32 +08:00
Attention+端对端。。
上面的方法好是好,可是。。。gap 了一个时代了啊。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/424137

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX