如何用数据挖掘知识量化简历中的项目经历？

这个项目我觉得跟搜索引擎质量排序比较类似, google是如何判断一个网页的质量的呢,是通过大量细节,比如网站本身的权重,网页被链接的次数,网页制作质量,网页关键字密度.....差不多好几百项指标,最后计算出一个得分. 用这个思路来分析简历里的项目数据,那么是否可以认为优秀的人做的项目的质量就高呢,至少大部分是这样的吧,OK,那我们先去判断简历的质量,简历作者的水平. 这需要先找到优秀简历的共性,一份简历可能有诸多细节,都可以用来作为指标,这个就需要动脑筋思考,反复实验了.

PS:要做一个东西,首先自己得成为专家才行. 就像一个人完全不会打麻将,他写出的麻将游戏可能连基本规则都搞不清. 你至少得先成为简历专家,余光都能判断一份简历和他背后的人靠不靠谱.

zixincao

2015 年 8 月 8 日

和这个比价像https://www.v2ex.com/t/211315

bbking

2015 年 8 月 8 日

@em70 非常感谢！这项目也是想能为HR所用，或者应聘者了解一下自己所写的项目经历的质量～和网页排序相似，需要很多的量化指标，也是希望有做过类似项目的大神给点建议。

bbking

2015 年 8 月 8 日

@zixincao 有点像，但薪资水平是有label的，从网上可以爬对应jd或简历的薪酬区间，对于项目经历来说，就比较难，无label

ca1123

2015 年 8 月 8 日

先考虑一个空间能够描述全部简历
然后用大牛的简历找出大牛子空间
最后看新简历属不属于大牛子空间

bbking

2015 年 8 月 8 日

@ca1123 不知对“大牛的简历”有没有什么想法?^0^

em70

2015 年 8 月 8 日

@bbking 去找大牛的简历来让机器学习啊,给机器一份大牛简历,让他记住这种简历都是大牛的,再给一份垃圾,让他记住这种都是垃圾. 训练几百份,那机器判断就很准确了.

em70

2015 年 8 月 8 日

@bbking 再推荐你一个著名的算法---贝叶斯分类. 目前贝叶斯算法主要应用于反垃圾邮件领域,能自己学习识别从未见过的垃圾邮件

ca1123

2015 年 8 月 8 日

@bbking 这个得具体分析了吧总之简历空间要找好最重要

kid813

2015 年 8 月 8 日

您当前的需求应该是 feature engineering 而不是模型。高质量的预测或者聚类结果是建立在高质量的模型＋高质量的feature上的。训练模型不是特别费事的工作，Bayes，Random Forest这些模型只需要写程序就可以实现自动化的训练和参数调整。但是如果输入模型的数据质量太低，那么花费多少时间去调整模型本身都不会有太大意义。

## 关于您的第二个问题：

像@em70 说的，您得对“简历”的筛选有足够的先验经验才能构建好的feature，如果您不是业务人员（HR），建议您和HR合作讨论如何构建评价简历的指标。

我对文本挖掘不是特别熟悉，仅提供一点想法：您提到的“项目描述、项目职责、项目时间”只是 attribute 不是 feature。考虑到您的目标数据有50个行业和简历的关键词的多样性（如果您不做预处理），word -> vector 之后的稀疏矩阵可能无法支撑您的训练器有足够的学习空间。建议对 vector 做选择 (selection) 或者抽取 (extraction) 的处理之后，再把得到的数据放入训练器。

举一个简单的例子，如果您不对简历的文本做预处理，“经验” 和 ”经历“就是两个词，向量化之后就是两个attributes，对于训练器来说是两个独立的attributes。如果用Naive Bayes来训练，那么很可能会underfitting；但这两个词实际上对HR来说这两个词可能就是同义词。

建议您找一些文本挖掘的教材阅读，Scikit-learn的网站上也提供了简单的例子，或许可以提供一些思路。

## 关于您的第一个问题：
是否加入其他评分标准应该取决于业务（HR），而不是模型。提高 labels的复杂度往往只会加剧underfitting。模型输出的结果是给业务人员看的，而不是给计算机看，出于提高模型准确度的目的不断添加feature或者label有点本末倒置了。

bbking

2015 年 8 月 8 日

@kid813 多谢指导，feature extraction 我确实没做好，有点拿着数据胡乱套模型的感觉。