求大神解答,怎么用 Python 将两个 excel 中类似信息提取出来。

2020-12-17 14:26:57 +08:00
 kevinfk2
例如:A 表记录了某场会议的参加名单,B 表是自己拥有的客户名单。

想找出 A 表中哪些客户是来自 B 表的。

用 excel 的问题就在 A 表记录的名称和 B 表记录的名称可能不完全一样,就不方便使用 VLOOK 函数了。

请问 python 有没有使用关键词去查的方法呢?
1726 次点击
所在节点    Python
9 条回复
6167
2020-12-17 14:35:00 +08:00
具体情况具体分析,这个不完全一样具体有多不一样得有个例子才好判断
TimePPT
2020-12-17 14:40:53 +08:00
你这需求能实现的太多了,得看不一样到啥程度
A 表是「张三」
B 表有个「*张叁」一个「张三丰」
这怎么对应?
kevinfk2
2020-12-17 14:41:25 +08:00
@6167 比如 a 里面是 XX 市 XX 科技有限公司,B 里面可能是 XXxx 科技有限公司。
所以我的意思是用关键词,就是公司的名字那段去查。
6167
2020-12-17 15:38:02 +08:00
先把 AB 表筛一遍,把 XXxx 有限公司中的“X 地名”“有限”“公司”等无效字符去掉,剩下的字符串就是你需要的“公司名”,把关键字存为新的一列,再比对。用 '你好' in '你好吗'这种比差不多吧
xiaolinjia
2020-12-17 15:57:38 +08:00
https://github.com/seatgeek/fuzzywuzzy
或许你可以试试这个库。
qiuhang
2020-12-17 15:58:20 +08:00
pandas
kevinfk2
2020-12-17 15:58:49 +08:00
@6167 多谢咯
@xiaolinjia 多谢咯
ZAXON
2020-12-17 16:07:50 +08:00
单从你举的例子来看,应该是计算字符串相似度吧。四楼说的去除地区名,正好我前几天用到了,可以去 github 上面找找,有整理好的行政区清单。
shyrock
2020-12-18 14:47:20 +08:00
直接计算相似度的方法效果不好,可以先分词,再用 TF-IDF 模型来计算相似度。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/736368

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX