Python 爬虫学到破解 js 卡了，知识储备不足。求接下来的学习指导。。

已经会 requests,bs4,xpath,框架还不太熟，但 scrapy 也简单用过。前几天爬了一个漫画站，http://www.shenmanhua.com/douluodalu/597.html 我需要的一段字符串，百度了下，说是没有解密的字符串。。求接下来的学习路径，是学习 js 吗。（我现在连 python 都还是半吊子，也没有太多精力去学另一个编程语言啊。）

var mh_info = {imgpath: "J+8L+K<+?<+?=+K=+HJ+?=+K;+G:+G=+K?+??+><+K<+>H+><+K;+>>+><+K=+>?+>>+8L;?=+K>+GL+?J+8L"

locoz

2018-04-07 03:04:21 +08:00

@fiht #14 个人认为爬虫是有两个发展方向的，而且都很极端，区别很大。
一个是广撒网型的，就是你说的这种，问题在于碰到反爬的平台没办法，只能靠其他平台补充。
另一个是精准打击型的，主要是逆向、针对某一个平台的反爬去破解。

locoz

2018-04-07 03:07:35 +08:00

@dengshuang #16 打开浏览器的开发者工具，按 ctrl+shift+f （ Chrome-Windows 下），简单难度的 js 直接搜加密参数名就能找到加密函数。

F1024

2018-04-07 09:41:21 +08:00

@yamiedie 网页源码里有 totalimg:12 就是 12 页 <script>var mh_info={imgpath:"J+8L+K<+?<+?=+K=+HJ+?=+K;+G:+G=+K?+??+><+K<+>H+><+K;+>>+><+K=+>?+>>+8L;?=+K>+GL+?J+8L",startimg:1,totalimg:12

也可以循环下载返回 404 的时候跳出章节+1 继续下载就行了

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/444401

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.