各位好。小弟最近用 python 爬拉勾数据。也大致做出来了。但是遇到一个数据量不够的问题。按照我的策略只能爬取 1.2w 左右的数据。但是我看见过有人爬到 10w 左右。不知道是什么策略呢? 我的策略就是先爬取职位关键词。然后一个一个请求。如下图。比如 java 。大概这个职位有 30 pages 左右,每页 15 items 这样总的也才 450 左右。但是我个人猜想 java 职位应该不止这么多吧?
所以来此提问。还请知道的哥们指导一下。谢谢啦
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.