输入:项目经历(项目名,项目描述,[项目职责,项目起始时间])
期望输出:识别项目对应行业,对项目经历进行打分。(10分制或5分制)
目前已有数据:从简历中提取出来的项目经历记录100万条左右,包含信息(项目名,项目描述,项目职责,项目起始时间)
目前做法:
(1)用原始数据训练word2vec,
(2)对原始数据进行初步评分(5分制)
(3)对原始数据进行行业分类(50个行业)
(4)对输入项目进行向量化(word2vec),预测相应行业,在行业内运用KDTree寻找TOP 10 近邻项目,对评分加和平均,得到最后项目分数。
然并卵....
目前困惑:
(1)量化项目重要性:如何量化一个项目是否重要,或者说什么样的项目能拿高分?目前做法是标签匹配,比如说项目中含有“国家自然科学基金”/“十二五项目”等,评为高级(5分),但是这样的效果很差。可否考虑加入公司排行指标?技能库?
(2)相似项目的计算:目前是将项目名,项目描述,项目职责整合,用word2vec的词语向量加和得到项目向量,这样合理吗?有没有改进方法?
(2)量化个人在项目中的重要性:如何量化个人对于这个项目多重要呢?好难
入行未深,没有什么经验,还请各位大神给点建议意见,感激不尽!!!
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.