场景:
先把实际情况说一下,数据量在 9000w 行,每行都是“一个字符串+一个种类”,字符串长度平均在 1000 位左右
1.字符串类似'abcdefg','aabbcc','aabcc',没有实际英语含义。
2.每个字符串都有一个种类, 'dog','cat,'car', 一共 10 种种类。
3.显然数据集的大小是 9000w 行 × 2 列 的 dataframe
目标:
1.想观察出同一个种类的字符串有没有共性,由于字符串没有实际的英语含义,所以我的初步想法是通过最长字串的匹配情况来计算相似度,总结出每个种类下字符串的规则。当新的字符串出现时,我能够通过之前的规则来分类。
期望:
1.不管是算法层面的,机器学习,深度学习,还是 es 这样引擎方面的,希望能和大家讨论讨论可行的方案
2.子串的复杂度有点高...还没有好的思路,想了很久,自闭了。
3.如果我没有表述清楚问题,请指出
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.