拉勾网 python 相关职位爬取以及分析展示，希望各位批评指正

namco1992

2016-07-08 08:51:45 +08:00

有人能给点反馈么~[认真脸]

Allianzcortex

2016-07-08 08:54:12 +08:00

为什么都喜欢用 scrapy …… 果然我还要再学一遍……

我当时专门在虚拟机里装了 Fiddler 来分析拉钩，其实网页链接是挺奇葩的，比如正常的职位显示是在网页上就能得到，但有些需要专门 Post 个请求来得到 JSON 数据。

关于词频显示，我用的是 jieba ，但效果不好，用正则来匹配就很棒啊。已 star

我是一直没有在数据库里进行存储，这点要向楼主学习

==啊，我把我当时写的也放到 github 上，就是里面的一个 res.json 数据

Allianzcortex

2016-07-08 09:09:15 +08:00

RT https://github.com/Allianzcortex/lagou_crawler 好长时间前写的了

namco1992

2016-07-08 09:16:36 +08:00

@Allianzcortex

词频的话，我当时就想应该绝大多数技术要求的关键词都是英文单词，所以索性就用正则匹配出来了，就是有个问题，英文描述的工作职位就没有办法抓取到对应的关键词。

然后存在 mongodb 里面主要是为了分析方便，工作职位信息相对来说时效性没有那么强，在一段时间内都有分析价值。

我看了你的 repo ，感觉你的点子更棒啊~

Allianzcortex

2016-07-08 09:19:48 +08:00

@namco1992 不是谦虚，真的写的渣，刚刚才 Push 上去的代码。怎么说，看到拉钩上的职位都是 qianduankaifa,houduankaifa 这种后缀，真是觉得……擦擦擦

wujunze

2016-07-08 09:25:42 +08:00

不错已经 star 最近也在玩儿爬虫学习了

namco1992

2016-07-08 09:44:56 +08:00

@Allianzcortex 我都是遍历的...第一次统计都需要爬两百万个页面...

xiaoyu9527

2016-07-08 11:33:22 +08:00

@namco1992 拉手并没有封 IP 的问题么？

namco1992

2016-07-08 11:46:28 +08:00

据我所知没有封 IP ，也不知道拉勾的人上不上 V 站，不过还是低调点好

practicer

2016-07-08 11:49:06 +08:00

拉钩的请求速度怎么样？楼主有统计爬虫的速度嘛？

namco1992

2016-07-08 13:42:55 +08:00

还 ok ，我就是在自己普通 PC 上跑的，大概每分钟 300 个页面。 python 相关职位接近 4000 个，爬起来还是比较快的。

zoudeze

2016-07-08 13:53:36 +08:00

突然间感觉 do 访问好快啊

GreatMartial

2016-07-08 14:00:05 +08:00

支持一个

jzp113

2016-07-08 14:28:07 +08:00

看到了保健按摩。

namco1992

2016-07-08 14:31:03 +08:00

@jzp113 哈哈哈，被发现了。之前做的 side project ，不过反正是做给国外用户的，不算犯法吧[doge]

namco1992

2016-07-08 14:31:51 +08:00

@zoudeze 旧金山的线路，偶尔还是会抽风访问不了

slysly759

2016-07-08 17:22:58 +08:00

都是 json 格式的我原来也写过一个当时就爬了一万条的样子也是放在 mongodb 用别人的 BI 做的可视化没什么难度

pepesii

2016-07-08 17:39:57 +08:00

额，我也做了一个！比你的那个丑！还是我的毕业设计！

jzp113

2016-07-08 17:52:12 +08:00

@namco1992 不错，中国的有吗？

namco1992

2016-07-08 20:50:12 +08:00

@jzp113 哈哈，别想了兄弟，没有中国的