搭一个 V2EX 招聘贴的搜索站?

2015-06-01 12:43:31 +08:00
 sciooga

v2ex 每天都有优秀的公司、企业发招聘贴由于招聘贴有效期至少是一星期以上,但很容易被新帖淹没,不如做个简单的招聘贴搜索站方便更多的人?

结巴分词的语义功能做了个提取招聘贴标题内公司名、公司所在城市的小程序v2ex-job-finder:♥ Github

功能慢慢慢慢添加,现在还很 low 只能从标题提取有效信息... 有空闲时间一起捣鼓捣鼓的不?

提取关键词的例子(假装成功率很高):

str = u'#上海# [诺亚财富] 财富管理领域巨头-专注财富金字塔尖客户-低风险创业机会------互联网金融'
name, place_list = search_company_keyworks(str)
print name
for i in place_list:
  print i

#<out>(正确)
#诺亚
#上海


str = u'[上海] 百度糯米团购 C 端_iOS 高级研发工程师'
name, place_list = search_company_keyworks(str)
print name
for i in place_list:
  print i

#<out>(正确)
#百度
#上海

str = u'[北京] 魔力盒 app 招 iOS、Android 大拿( 15-30K)'
name, place_list = search_company_keyworks(str)
print name
for i in place_list:
  print i

#<out>(错误)
#魔力
#北京

str = u'掌赢科技欢迎最棒的安卓 iOS~'
name, place_list = search_company_keyworks(str)
print name
for i in place_list:
  print i

#<out>(正确)
#掌赢
#

str = u'[北京] [创业大街] 西游印(北京)科技有限公司后端开发(.NET)和前端开发招聘全职&实习生'
name, place_list = search_company_keyworks(str)
print name
for i in place_list:
  print i

#<out>(正确)
#西游印
#北京

str = u'[北京招聘] 苹果公司! Apple Store 招聘 Specialist ,Family Room Specialist 等'
name, place_list = search_company_keyworks(str)
print name
for i in place_list:
  print i

#<out>(正确)
#苹果公司
#北京
3168 次点击
所在节点    分享创造
20 条回复
sobigfish
2015-06-01 12:49:49 +08:00
-.- 学习语义分词很值得,给别人加功能 别人也不一定感谢你 而且这样来的效率很低
ctsed
2015-06-01 12:49:57 +08:00
本末倒置啦
welsmann
2015-06-01 12:52:17 +08:00
sciooga
2015-06-01 13:41:40 +08:00
@sobigfish
@ctsed
@welsmann
好吧,本意是想给帖子添上公司名、地点等的标签方便用来搜索,既然大家都这么说了,那就算了吧,自己学习学习就行了。
welsmann
2015-06-01 14:04:01 +08:00
@sciooga 想到了就做撒,别别人说几句就放弃啊
welsmann
2015-06-01 14:09:04 +08:00
@sciooga 额,可能我@站长让楼主误会了,我是觉得坛子里要是集成这种功能不错啊
sneezry
2015-06-01 14:11:55 +08:00
@sciooga 干嘛那么在乎别人的看法?当初我写的东西被喷造轮子,但是现在它已经是在它所在平台相同功能里用户量最大的应用了。
sciooga
2015-06-01 14:31:31 +08:00
@sneezry
@welsmann
没说不继续啊...
上面说算了是觉得邀不到人一起研究了,还是会自己学习自己捣鼓的。
不过也谢谢你们:)
oott123
2015-06-01 15:00:17 +08:00
为啥不直接用 Google 搜索……
sciooga
2015-06-01 15:13:07 +08:00
@oott123 因为不论是 “site:v2ex.com/go/jobs 上海” 还是 “site:v2ex.com/t 上海” 结果都不理想啊
oott123
2015-06-01 15:33:47 +08:00
EchoChan
2015-06-01 15:45:53 +08:00
@Livid 我的一点建议就是在规范求职或招聘的帖子的标题信息,比如,地点。
sciooga
2015-06-01 15:46:51 +08:00
@oott123 确实这样结果好很多,选择时间范围后效果更好。
no13bus
2015-06-01 17:35:05 +08:00
不仅仅是v2ex, cnode ruby-china, so 楼主你可以做的事情很有意义的。有价值的数据+很好的展示 是很棒的。
mpco
2015-06-01 22:00:40 +08:00
挺不错的
仅仅从标题中提取信息,确实会不太准确。
可以用用 机器学习 的方法,估计效果不错
其实和识别垃圾邮件的方法差不多,都是基于内容的有监督学习算法的应用。
sobigfish
2015-06-01 22:38:52 +08:00
@welsmann 用语义分析不是最没有效率的么,站长要做的话 直接设定相应的job相关的数据接口和页面不是更快么?
ctsed
2015-06-03 10:32:21 +08:00
@sneezry 楼主干的事可是说是给索引建索引... 头像是龟头换狗头? 2333
sneezry
2015-06-03 11:30:58 +08:00
@ctsed 这个头像明明是三瓣嘴(哼
ctsed
2015-06-03 11:46:03 +08:00
@sneezry 草木灰凉拌方脸加肥狮子头 😄
jedihy
2015-06-03 23:31:31 +08:00
听说@livid在做一个新功能

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/195266

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX