如题,任何实现方式都可以
假如有一张表,有年龄、名字、性别三个字段,存了 10 亿条数据
名字的类型有三种可能:人名( 2-8 个汉字)、网名(中英混合、纯中文、纯英文,长度不限)
如何在这张表中查找汉字或者英文(英文字符串)的出现频率并排序?
例如:
年龄 性别 名字
23 女 安菁
23 男 赵天长
23 女 常菁文
23 女 赵菁
23 男 李天长
23 男 lucio
23 男 lucian
分析输出:
文字 频次
菁 3
赵 2
天 2
长 2
luci 2
安 1
文 1
李 1
常 1
假如有一张表,有年龄、名字、性别三个字段,存了 10 亿条数据
名字的类型有三种可能:人名( 2-8 个汉字)、网名(中英混合、纯中文、纯英文,长度不限)
如何在这张表中查找汉字或者英文(英文字符串)的出现频率并排序?
例如:
年龄 性别 名字
23 女 安菁
23 男 赵天长
23 女 常菁文
23 女 赵菁
23 男 李天长
23 男 lucio
23 男 lucian
分析输出:
文字 频次
菁 3
赵 2
天 2
长 2
luci 2
安 1
文 1
李 1
常 1