根据v2ex上1200个招聘帖统计的招聘地区和程序语言相关信息

2013-11-07 15:54:29 +08:00
 faceair
最近在学python,没事写了个小爬虫来统计了下招聘贴的消息。
共统计了招聘贴前60页,约最近200天,共1200个主题。
代码:https://gist.github.com/faceair/7350735

只取了标题,所以有些招聘信息不在标题的没有统计进来。
标题经过哑巴分词再计入数据库,后面的数字为在标题中出现的次数。

地名根据搜狗全国地名词库统计。

工作地区不完全排行榜:
1.北京 304 + 帝都 21 = 325
2.上海 220
3.杭州 85
4.深圳 79
5.广州 51
6.成都 29
7.武汉 19
8.南京 16
9.苏州 8
10.长沙 7
11.珠海 5
12.西安 4

技术名词都是我手动查找的,可能不全,但大致就这样了。

技术名词不完全排行榜:
1.前端 165 + 前端开发 52 = 217
2.php 151 + PHPer 11 = 162
3.android 145
4.ios 144
5.web 104
6.python 94
7.java 72
8.UI 69
9.c++ 23
10.测试 20
11.Linux 19
12.Ruby 18
13.后端 15
14.Node.js 14
15.DBA 10
16.Javascript 9
17.html5 9


可以看到一般公司集中在北京上海,再就是明显前端需求旺盛啊。。
4680 次点击
所在节点    分享创造
26 条回复
Livid
2013-11-07 16:00:01 +08:00
V2EX 的分享创造节点最欢迎这样的主题 :-)
family
2013-11-07 16:00:54 +08:00
必火?
shiny
2013-11-07 16:04:48 +08:00
bot 抓主题太频繁不会被 v2ex 封 ip 吗?
faceair
2013-11-07 16:07:05 +08:00
@shiny 刚开始抓的时候确实被封了几分钟,后来time.sleep(3)就好了。分词插入数据库还占一段时间,所以抓取实际间隔7。8秒左右吧
romoo
2013-11-07 16:07:44 +08:00
好多前端。
ChiangDi
2013-11-07 16:09:31 +08:00
哈哈,壮哉我大杭州
shadowind
2013-11-07 16:14:48 +08:00
看了这个帖子,觉得更应该学习下前端和PHP了。
SErHo
2013-11-07 16:18:03 +08:00
结巴分词,不是哑巴。。。
zorceta
2013-11-07 16:20:52 +08:00
直接mc不行么 看着MySQL好不习惯
cctvsmg
2013-11-07 16:22:24 +08:00
@SErHo 莫名其妙戳中笑点
faceair
2013-11-07 16:30:57 +08:00
@SErHo
@cctvsmg 哈哈哈,不要在意这些细节啦~~
wxstorm
2013-11-07 16:33:57 +08:00
@SErHo 哈哈哈~
subpo
2013-11-07 16:40:05 +08:00
这数据可以证明好多东西
justff
2013-11-08 02:28:49 +08:00
运维 呢
faceair
2013-11-08 06:15:09 +08:00
@justff 运维 12,人工查找难免遗漏
hewwcn
2013-11-08 11:46:37 +08:00
前端比较多有部分原因还是跟社区有关系吧。V2比较偏前端。
Sherlockhlt
2013-11-08 15:41:26 +08:00
突然才发现v2ex可以发代码
faceair
2013-11-08 17:33:39 +08:00
@Sherlockhlt 贴的gist.github.com的链接自动转换的
mengyang
2013-11-09 15:13:54 +08:00
哭了,招运维的真是少啊。。
weakish
2013-11-09 20:46:45 +08:00
@mengyang Ruby也纔18……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/88410

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX