求求各位大佬,爬虫小白遇到的一个 js 生成 cookie 的难题

2020-07-10 15:32:31 +08:00
 sirthisman

用 python 爬取疫情通报网站 http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml 时遇到的一个问题。 第一次请求网站时返回状态码 412,同时返回了一个 js 文件后再次请求网站后请求成功。如图 我猜是第一次返回的请求头 set-cookie 字段和这个 js 文件 http://www.nhc.gov.cn/efzZI1ZIHCHw/lRzGTrFtfOv6.ca73791.js (再加上一个 html 的 js 混淆后的脚本,查看网页源代码能看到)生成了完整的 cookie,就可以成功请求网站了。 本人不懂前端和 js 技术,请问如何在 python 中实现这个生成 cookie 的功能呢?(或者能在 python 中执行这个脚本生成 cookie 的方法) 谢谢各位!

2620 次点击
所在节点    JavaScript
5 条回复
luoleng
2020-07-10 15:47:45 +08:00
找到生成 cookie 的 js 代码,python 可以直接调用 js,比如 execjs ;
sirthisman
2020-07-10 15:50:35 +08:00
@luoleng 谢谢。那经过加密的 js 也可以执行吗?
Loooom
2020-07-10 16:07:31 +08:00
这不是瑞数嘛
sirthisman
2020-07-10 16:21:09 +08:00
@Loooom 我是小白不太懂,能给解释一下吗
baxtergu
2020-07-13 19:31:42 +08:00
这个网站加密比较厉害,建议用模拟浏览器的方式去爬

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/688896

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX