从拉勾上扒的互联网公司基本信息数据

2016-02-27 11:12:33 +08:00
 maguowei
有 8 万多条,有需要的可以拿去

https://github.com/maguowei/Internet-companies-of-China

https://raw.githubusercontent.com/maguowei/Internet-companies-of-China/master/company.csv
8644 次点击
所在节点    分享创造
33 条回复
dong3580
2016-02-27 19:50:29 +08:00
@maguowei
我目前需要达到的境界是能整出谷歌搜索结果页面。。。楼主可以拔出么?
Exin
2016-02-27 20:20:07 +08:00
面白い!
Garantion
2016-02-27 21:10:01 +08:00
@est 学习了!!!
des
2016-02-28 14:18:47 +08:00
相比创业公司还是北上广深多
rhea1108
2016-02-28 15:45:23 +08:00
这么一看,大西北地区有点可怜 23333
iyannik0215
2016-02-29 00:31:20 +08:00
@maguowei 已在使用,并尝试抓取简单的数据了~,感谢。
irainy
2016-03-02 00:43:32 +08:00
我从全部职位入口去抓,为什么只有 5000 条?
irainy
2016-03-02 11:49:13 +08:00
@irainy 看了爬虫代码,那个入口现在已经被封了,估计是被发现了
maguowei
2016-03-02 14:18:04 +08:00
@irainy 应该不会吧

我刚才试了一下我之前那个还是正常的啊

irainy
2016-03-02 16:01:41 +08:00
@maguowei

```
>>> r = req.get("http://www.lagou.com/gongsi/{}.html".format(1), allow_redirects=False)
>>> r.status_code
302
```
是这个入口吧?
maguowei
2016-03-02 16:27:26 +08:00
@irainy 是啊
irainy
2016-03-02 17:02:53 +08:00
@maguowei My Bug! :P
RangerWolf
2016-08-17 10:58:28 +08:00
楼主 貌似你只把爬下来的数据放上来了,爬虫代码能共享出来吗? 多谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/259458

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX