一款语料处理 Python 辅助工具,能自动计算标注偏移量,各位看看是否有帮助

2019-08-03 20:19:00 +08:00
 nthhdy

为公司帮助处理语料时做了 ltext 这个工具。

基本思路是,把文本和标注(用偏移量表达)封装在一个对象中,对外模拟字符串类型的接口做各种文本操作,比如 replace 和 strip 等方法。在这些方法执行时,改动文本同时操作偏移量。

请各位看看这个情景多不多,封装是不是恰当?

或者还需要增加什么功能。目前只实现了 replace、re_replace 两个方法。

19605 次点击
所在节点    自然语言处理
1 条回复
nthhdy
2019-08-05 10:31:09 +08:00
觉得没说清楚,补充一些

情景是,有一批文本,先用算法预标注,再给人工改标注。人工需要知道每条文本的来源和种类,这就要把这些信息和文本拼在一起,最后再转化回原始文本。加信息和转化回原文本,都有随着文本一起改动标签的需求。

最近这个项目枯萎了。工具到这个程度,它适用的范围也不能小规模论证了。所以想请 nlp 专业人士和爱好者们一起打磨这个想法。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/588819

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX