之前在 V2 求问过爬取拉勾的思路。现在基本达到自己的要求了。分享出来。希望有用。
如下 Request URL 中的 %E7... 即为对应查询关键字的 16 进制表现形式。
如下 Form Data 皆为 Post 需要构建的表单。
def insert_data(self,data):
data['_id'] = data['positionId']
data['updateTime'] = datetime.datetime.now()
# 防止重复插入
db.Collection.update_one(
filter={'_id': data['_id']},
update={'$set': data},
upsert=True
)
count = db.Collection.count()
print u'已经存储了:',count,u'条记录'
写了很多爬虫,分享给大家。共同进步学习。希望有用。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.