Python 处理 excel 表格的问题

2019-12-05 17:57:03 +08:00
 smartG

今天在处理一个表格的时候,遇到了一个很苦恼的事,表格有一列数据是用户申请日志记录(有重复的申请内容),其中有正常的申请和不正常的,不正常的大多是在正常提交的句子里随机插入数字和标点,还有一些是随机乱打的文字,一眼就能看出来,手动删除也可以,但是整个文件有 3 万多条数据,V 友们有什么好的处理方法吗

3204 次点击
所在节点    Python
7 条回复
kokutou
2019-12-05 18:02:14 +08:00
正则表达式提取出来放到另一列,然后本列内直接删除。
最后再看看准确率如何,
多调几次,然后整列删除。
TimePPT
2019-12-05 18:53:36 +08:00
如果没啥特别规律可循的话……抽个三五百条自己标下,然后上贝叶斯过滤器?
factoid
2019-12-05 19:43:42 +08:00
先正则匹配一波,然后在人工查看,手工删除
necomancer
2019-12-09 00:31:13 +08:00
1. 先用正则表达式去掉包含非法字符的。
2. 自己找出来一二百条垃圾信息,一二百条好信息,做个分类器。
简单的流程是先做特征提取,再做个逻辑回归,或者支持向量机分类。文本特征提取的方法百度一下有很多。只是在学习的时候做过英文的垃圾邮件过滤器。中文不知道具体该咋弄……但应该有很多现成的工具吧,去 github 找找~~
smartG
2019-12-10 00:12:21 +08:00
@necomancer 多谢老哥解答,不过迫于技术渣,只用过 Python 的一些基本库,逻辑回归听着好深奥啊
necomancer
2019-12-11 08:35:05 +08:00
@smartG 逻辑回归是个统计学习方法,sckipy, sklearn 都有现成的库。不熟悉 python 的话,其他很多语言比如 R, matlab, mathematica 啥的也都有实现。
necomancer
2019-12-11 08:44:32 +08:00
刚搜了一下,excel 也有人做逻辑回归。只要把你需要处理的信息文本提取特征,也就是转成一堆数字就行。这个得去网上找点啥类似 word2vec, 结巴分词啥的,貌似 pip install jieba word2vec 就能装,调用也挺简单,随便找个博客看看应该简单用起来没啥问题。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/626287

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX