现在我们要做一些文章中提取数据和分段(提取目录),比如一篇合同。
提取出来的目录是
要提取出的数据是
这些只是举例,实际上可能会更多。
不知道现在什么技术能做到,正则表达式肯定不用想了,格式太乱, 调试的时间和手工提取时间没差多少,再加上数据量很大,所以就没法考虑了。
听说 google 有个 tensorflow 项目,但是不太了解能不能做到。
请各位给点意见,或者说下招到能做到这样效果的技术人员薪资大概多少。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.