请教 Python 爬虫,存在 js 反爬,除了 selenium 还有什么解决方案呢

2019-05-22 10:56:55 +08:00
 dylanhu
3125 次点击
所在节点    Python
11 条回复
linhua
2019-05-22 11:03:31 +08:00
puppeteer
leebx
2019-05-22 11:05:53 +08:00
1. 很多 js 反爬 ,selenium 是解决不了的,大多需要剖析 js,执行 js 代码才能得到有效参数
2. 各种加密算法,url 中拼接的某些参数是底层算法搞出来的
linvaux
2019-05-22 11:07:09 +08:00
脱裤啊
mytry
2019-05-22 11:08:01 +08:00
JS 爬虫和 Python 有什么关系
tikazyq
2019-05-22 11:35:00 +08:00
还有 puppeteer,也是调用 chrome 来执行 js,但是对用户比较友好。顺便介绍一下爬虫平台 Crawlab,兼容任何框架任何语言的爬虫平台,http://github.com/tikazyq/crawlab
dongya
2019-05-22 11:52:17 +08:00
存在 js 反爬也有很多情况呀, 内容加密,token 生成啥的, 你的是哪种啊
lusi1990
2019-05-22 12:31:10 +08:00
也有反 selenium 的
danmu17
2019-05-22 18:52:44 +08:00
大部分的 js 反爬都可以通过 python 运行 js 来解决,
不过会提这种低质量的问题,
多半也不会这些基本的东西。
dylanhu
2019-05-23 09:20:29 +08:00
@danmu17 那么多 js 还能都运行了?
dylanhu
2019-05-23 09:21:31 +08:00
@dongya 我只找到了 cookie 加密,还可以怎么找
huaerxiela6
2019-05-25 05:32:31 +08:00
cookie 加密一般来说相较与参数加密,更难找到入口点,需要很多的调试技巧,比如有时需要 hook,hook 不住的时候如何处理等等,我简书 https://www.jianshu.com/nb/14730171 的几个例子就是基于 nodejs 实现的,如何用 py 运行,只是一个调用方式的问题,不行的话还可以用 node 封装接口,重要的是如何模拟加 /解密

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/566488

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX