单条数据格式:
> db.company.findOne({'short_name': '拉勾网'})
{
"_id" : ObjectId("56cf365a8883cd0076a49202"),
"history" : [
{
"url" : "",
"date" : "2015 Aug",
"day" : "11",
"title" : "拉勾移动 App 上线",
"content" : "拉勾推出了移动版 App ,可以随时在手机上查看好机会,同时跟踪你的简历机会。",
"type" : "其他"
},...
],
"href" : "http://www.lagou.com",
"short_name" : "拉勾网",
"company_word" : "帮用户找到满意的工作",
"basic" : {
"process" : "B 轮",
"type" : "企业服务,招聘",
"address" : "北京",
"number" : "150-500 人"
},
"identification" : 1,
"logo" : "http://www.lagou.com/image1/M00/25/D4/Cgo8PFVS2SeAWgf8AACUSzhxomw100.png",
"company_img" : [
"http://www.lagou.com/image1/M00/41/AE/Cgo8PFXJZk-AbPT4AACmh1YI1hM381.jpg",...
],
"name" : "北京拉勾网络技术有限公司",
"lagou_url" : "http://www.lagou.com/gongsi/147.html",
"manager_list" : [
{
"content" : "2006 年毕业于北京邮电大学工业设计专业,随后加入腾讯 CDC ,参与过腾讯公司 07 版 QQ 的研发,后供职于百度等顶级互联网企业。马德龙擅长在产品的用户体验和技术实现之间寻找平衡点,目前在公司里负责产品和团队管理。",
"weibo" : "http://weibo.com/banlon",
"title" : "CEO",
"photo" : "http://www.lagou.com/image2/M00/04/B4/CgpzWlXyoUiAVKFRAAOb73RQbg4170.jpg",
"name" : "马德龙"
},
{
"content" : "2005 年毕业于武汉理工大学,曾就职于腾讯、搜狐等多家顶级知名互联网企业,拥有丰富的互联网产品推广经验,曾参与创立了 3W 传媒,并担任 CEO 。她精通市场和运营,目前在拉勾网主要负责市场推广。",
"weibo" : "http://weibo.com/10110806",
"title" : "CMO",
"photo" : "http://www.lagou.com/image1/M00/00/BA/Cgo8PFTUYDaAE-0dAAAVAxML288111.jpg",
"name" : "鲍艾乐"
},
{
"content" : "2007 年于北京大学硕士毕业后,先后供职于腾讯集团、平安证券和华夏基金等顶级互联网公司和金融机构,擅长互联网公司的战略分析与制定。",
"weibo" : "http://weibo.com/xddpku",
"title" : "董事长",
"photo" : "http://www.lagou.com/image1/M00/00/BA/CgYXBlTUYDaAAdrjAAESyIsBsj4122.png",
"name" : "许单单"
}
],
"address" : [
"北京市海淀区海淀大街 34 号海置创投大厦 4 层",
"海淀西大街 36 号海淀图书城昊海楼 608 室",
"深圳市南山区深圳市软件产业基地 4 栋-c 座 10 楼",
"黄浦区瑞金南路 1 号海兴广场 18 楼 E 座",
"广州市天河区富力·公园 28 B2 栋 2101"
],
"company_intro_text" : "拉勾网是专注于互联网行业招聘的网站。|拉勾网拥有优质互联网资源,收集和发布圈内招聘信息,为求职者提供人性化、个性化的信息服务......"
}
1
iyannik0215 2016-02-27 11:45:49 +08:00
你是用什么语言扒的..
|
2
maguowei OP @iyannik0215 Python3
|
3
iyannik0215 2016-02-27 11:56:54 +08:00
@maguowei 好吧,没接触过 Python ,不过想拿 Golang 做做扒数据的想法,但是不会正则好尴尬。
|
4
maguowei OP |
5
Ouyangan 2016-02-27 12:16:23 +08:00
说说反爬虫经验吧,前辈
|
6
GhostEX 2016-02-27 12:28:12 +08:00
感觉这些信息没什么用啊,另求反爬经验
|
7
HanSonJ 2016-02-27 12:29:10 +08:00
想问问老前辈拉勾上有反爬虫机制吗?
|
9
maguowei OP @Ouyangan 爬虫的最高境界就是模拟真实人的行为,反扒措施当然就是去甄别那些不像人的行为。但是只要是开放的数据,反扒只能做到无限度的提升爬取成本,而无法做到杜绝。
|
10
maguowei OP @HanSonJ 我之前看到一个很阴险的,就是明明判断出来你时爬虫了,但是并不是禁止,而是给你掺上假的数据。这个太损了 哈哈哈
|
11
maguowei OP @GhostEX json 文件里的数据更全一些,我觉得有很多有用的信息,比如来统计一下互联网公司地域、行业分布,估算当前全国的从业人数,多少公司顺利走到了 x 轮,都说上海没啥互联网公司,你可以实际 count 一下有多少。
|
12
timqian 2016-02-27 13:02:54 +08:00
感觉可以定期爬一组新的数据,然后看看公司的存活状况。
用数据来验证 **互联网行业泡沫性** |
14
est 2016-02-27 14:45:58 +08:00 4
粗略统计了一下:
$ python -c "for l in __import__('csv').reader(open('1.csv')): print l[3].decode('utf8', 'ignore')[:2].encode('utf8')" | sort | uniq -c | sort -nr 27568 北京 14449 上海 10772 深圳 6847 广州 5065 杭州 2986 成都 1770 武汉 1677 南京 1120 厦门 1068 西安 1022 长沙 971 苏州 828 郑州 805 重庆 763 天津 600 青岛 北上深广杭 你们赢了 |
15
est 2016-02-27 14:47:31 +08:00 2
行业分布
$ python -c "for l in __import__('csv').reader(open('1.csv')): print '\n'.join(x.strip() for x in l[4].split(','))" | sort | uniq -c | sort -nr 41923 移动互联网 19409 电子商务 9790 O2O 9185 金融 9123 企业服务 6912 其他 5085 数据服务 4845 教育 4781 文化娱乐 3876 硬件 3515 生活服务 3421 医疗健康 3277 广告营销 3228 游戏 2498 社交网络 1418 旅游 1165 信息安全 |
16
est 2016-02-27 14:49:09 +08:00
资金情况
~/lq_dev/gist/lagou-stats[master*]$ python -c "for l in __import__('csv').reader(open('1.csv')): print l[6]" | sort | uniq -c | sort -nr 33994 未融资 18825 不需要融资 15187 天使轮 8297 A 轮 5033 上市公司 2615 B 轮 1355 D 轮及以上 1031 C 轮 |
17
est 2016-02-27 14:50:21 +08:00
人数
$ python -c "for l in __import__('csv').reader(open('1.csv')): print l[5]" | sort | uniq -c | sort -nr 32769 15-50 人 19616 50-150 人 14808 少于 15 人 10870 150-500 人 4640 500-2000 人 3633 2000 人以上 看来是小微企业为主。 |
19
NovemberEleven 2016-02-27 18:00:27 +08:00
@est 溜啊
|
20
111111111111 2016-02-27 18:18:02 +08:00 via iPhone
@est 学习了
|
22
Exin 2016-02-27 20:20:07 +08:00
面白い!
|
24
des 2016-02-28 14:18:47 +08:00
相比创业公司还是北上广深多
|
25
rhea1108 2016-02-28 15:45:23 +08:00
这么一看,大西北地区有点可怜 23333
|
26
iyannik0215 2016-02-29 00:31:20 +08:00
@maguowei 已在使用,并尝试抓取简单的数据了~,感谢。
|
27
irainy 2016-03-02 00:43:32 +08:00
我从全部职位入口去抓,为什么只有 5000 条?
|
30
irainy 2016-03-02 16:01:41 +08:00
@maguowei
``` >>> r = req.get("http://www.lagou.com/gongsi/{}.html".format(1), allow_redirects=False) >>> r.status_code 302 ``` 是这个入口吧? |
33
RangerWolf 2016-08-17 10:58:28 +08:00
楼主 貌似你只把爬下来的数据放上来了,爬虫代码能共享出来吗? 多谢
|