从拉勾上扒的互联网公司基本信息数据

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 3535 天前的主题，其中的信息可能已经有所发展或是发生改变。

有 8 万多条，有需要的可以拿去

https://github.com/maguowei/Internet-companies-of-China

https://raw.githubusercontent.com/maguowei/Internet-companies-of-China/master/company.csv

第 1 条附言 · 2016-02-27 22:49:10 +08:00

单条数据格式：

> db.company.findOne({'short_name': '拉勾网'})
{
    "_id" : ObjectId("56cf365a8883cd0076a49202"),
    "history" : [
        {
            "url" : "",
            "date" : "2015 Aug",
            "day" : "11",
            "title" : "拉勾移动 App 上线",
            "content" : "拉勾推出了移动版 App ，可以随时在手机上查看好机会，同时跟踪你的简历机会。",
            "type" : "其他"
        },...

    ],
    "href" : "http://www.lagou.com",
    "short_name" : "拉勾网",
    "company_word" : "帮用户找到满意的工作",
    "basic" : {
        "process" : "B 轮",
        "type" : "企业服务,招聘",
        "address" : "北京",
        "number" : "150-500 人"
    },
    "identification" : 1,
    "logo" : "http://www.lagou.com/image1/M00/25/D4/Cgo8PFVS2SeAWgf8AACUSzhxomw100.png",
    "company_img" : [
        "http://www.lagou.com/image1/M00/41/AE/Cgo8PFXJZk-AbPT4AACmh1YI1hM381.jpg",...
    ],
    "name" : "北京拉勾网络技术有限公司",
    "lagou_url" : "http://www.lagou.com/gongsi/147.html",
    "manager_list" : [
        {
            "content" : "2006 年毕业于北京邮电大学工业设计专业，随后加入腾讯 CDC ，参与过腾讯公司 07 版 QQ 的研发，后供职于百度等顶级互联网企业。马德龙擅长在产品的用户体验和技术实现之间寻找平衡点，目前在公司里负责产品和团队管理。",
            "weibo" : "http://weibo.com/banlon",
            "title" : "CEO",
            "photo" : "http://www.lagou.com/image2/M00/04/B4/CgpzWlXyoUiAVKFRAAOb73RQbg4170.jpg",
            "name" : "马德龙"
        },
        {
            "content" : "2005 年毕业于武汉理工大学，曾就职于腾讯、搜狐等多家顶级知名互联网企业，拥有丰富的互联网产品推广经验，曾参与创立了 3W 传媒，并担任 CEO 。她精通市场和运营，目前在拉勾网主要负责市场推广。",
            "weibo" : "http://weibo.com/10110806",
            "title" : "CMO",
            "photo" : "http://www.lagou.com/image1/M00/00/BA/Cgo8PFTUYDaAE-0dAAAVAxML288111.jpg",
            "name" : "鲍艾乐"
        },
        {
            "content" : "2007 年于北京大学硕士毕业后，先后供职于腾讯集团、平安证券和华夏基金等顶级互联网公司和金融机构，擅长互联网公司的战略分析与制定。",
            "weibo" : "http://weibo.com/xddpku",
            "title" : "董事长",
            "photo" : "http://www.lagou.com/image1/M00/00/BA/CgYXBlTUYDaAAdrjAAESyIsBsj4122.png",
            "name" : "许单单"
        }
    ],
    "address" : [
        "北京市海淀区海淀大街 34 号海置创投大厦 4 层",
        "海淀西大街 36 号海淀图书城昊海楼 608 室",
        "深圳市南山区深圳市软件产业基地 4 栋-c 座 10 楼",
        "黄浦区瑞金南路 1 号海兴广场 18 楼 E 座",
        "广州市天河区富力·公园 28 B2 栋 2101"
    ],
    "company_intro_text" : "拉勾网是专注于互联网行业招聘的网站。|拉勾网拥有优质互联网资源，收集和发布圈内招聘信息，为求职者提供人性化、个性化的信息服务......"
}

拉勾网

互联网

基本

数据

33 条回复 • 2016-08-17 10:58:28 +08:00

iyannik0215

2016-02-27 11:45:49 +08:00

你是用什么语言扒的..

maguowei

2016-02-27 11:52:35 +08:00

@iyannik0215 Python3

iyannik0215

2016-02-27 11:56:54 +08:00

@maguowei 好吧，没接触过 Python ，不过想拿 Golang 做做扒数据的想法，但是不会正则好尴尬。

maguowei

2016-02-27 12:01:48 +08:00

@iyannik0215 Go 可以试一下 https://github.com/PuerkitoBio/goquery

Ouyangan

2016-02-27 12:16:23 +08:00

说说反爬虫经验吧,前辈

GhostEX

2016-02-27 12:28:12 +08:00

感觉这些信息没什么用啊，另求反爬经验

HanSonJ

2016-02-27 12:29:10 +08:00

想问问老前辈拉勾上有反爬虫机制吗？

maguowei

2016-02-27 12:31:02 +08:00

@HanSonJ 貌似没啥反扒机制, 我爬的时候只是简单粗暴

maguowei

2016-02-27 12:31:17 +08:00

@Ouyangan 爬虫的最高境界就是模拟真实人的行为，反扒措施当然就是去甄别那些不像人的行为。但是只要是开放的数据，反扒只能做到无限度的提升爬取成本，而无法做到杜绝。

maguowei

2016-02-27 12:33:27 +08:00

@HanSonJ 我之前看到一个很阴险的，就是明明判断出来你时爬虫了，但是并不是禁止，而是给你掺上假的数据。这个太损了哈哈哈

maguowei

2016-02-27 12:41:07 +08:00

@GhostEX json 文件里的数据更全一些，我觉得有很多有用的信息，比如来统计一下互联网公司地域、行业分布，估算当前全国的从业人数，多少公司顺利走到了 x 轮，都说上海没啥互联网公司，你可以实际 count 一下有多少。

timqian

2016-02-27 13:02:54 +08:00

感觉可以定期爬一组新的数据，然后看看公司的存活状况。
用数据来验证 **互联网行业泡沫性**

est

2016-02-27 14:26:46 +08:00

@maguowei 我之前提到过这个。的确太损了。

有意思。 11M 的 csv 收了。多谢。

est

2016-02-27 14:45:58 +08:00

粗略统计了一下：

$ python -c "for l in __import__('csv').reader(open('1.csv')): print l[3].decode('utf8', 'ignore')[:2].encode('utf8')" | sort | uniq -c | sort -nr

27568 北京
14449 上海
10772 深圳
6847 广州
5065 杭州
2986 成都
1770 武汉
1677 南京
1120 厦门
1068 西安
1022 长沙
971 苏州
828 郑州
805 重庆
763 天津
600 青岛

北上深广杭你们赢了

est

2016-02-27 14:47:31 +08:00

行业分布

$ python -c "for l in __import__('csv').reader(open('1.csv')): print '\n'.join(x.strip() for x in l[4].split(','))" | sort | uniq -c | sort -nr

41923 移动互联网
19409 电子商务
9790 O2O
9185 金融
9123 企业服务
6912 其他
5085 数据服务
4845 教育
4781 文化娱乐
3876 硬件
3515 生活服务
3421 医疗健康
3277 广告营销
3228 游戏
2498 社交网络
1418 旅游
1165 信息安全

est

2016-02-27 14:49:09 +08:00

资金情况

~/lq_dev/gist/lagou-stats[master*]$ python -c "for l in __import__('csv').reader(open('1.csv')): print l[6]" | sort | uniq -c | sort -nr

33994 未融资
18825 不需要融资
15187 天使轮
8297 A 轮
5033 上市公司
2615 B 轮
1355 D 轮及以上
1031 C 轮

est

2016-02-27 14:50:21 +08:00

人数

$ python -c "for l in __import__('csv').reader(open('1.csv')): print l[5]" | sort | uniq -c | sort -nr

32769 15-50 人
19616 50-150 人
14808 少于 15 人
10870 150-500 人
4640 500-2000 人
3633 2000 人以上

看来是小微企业为主。