Python 爬虫学到破解 js 卡了,知识储备不足。求接下来的学习指导。。

2018-04-04 21:11:27 +08:00
 dengshuang

已经会 requests,bs4,xpath,框架还不太熟,但 scrapy 也简单用过。 前几天爬了一个漫画站,http://www.shenmanhua.com/douluodalu/597.html 我需要的一段字符串,百度了下,说是没有解密的字符串。。 求接下来的学习路径,是学习 js 吗。(我现在连 python 都还是半吊子,也没有太多精力去学另一个编程语言啊。)

var mh_info = {imgpath: "J+8L+K<+?<+?=+K=+HJ+?=+K;+G:+G=+K?+??+><+K<+>H+><+K;+>>+><+K=+>?+>>+8L;?=+K>+GL+?J+8L"

8334 次点击
所在节点    Python
23 条回复
locoz
2018-04-07 03:04:21 +08:00
@fiht #14 个人认为爬虫是有两个发展方向的,而且都很极端,区别很大。
一个是广撒网型的,就是你说的这种,问题在于碰到反爬的平台没办法,只能靠其他平台补充。
另一个是精准打击型的,主要是逆向、针对某一个平台的反爬去破解。
locoz
2018-04-07 03:07:35 +08:00
@dengshuang #16 打开浏览器的开发者工具,按 ctrl+shift+f ( Chrome-Windows 下),简单难度的 js 直接搜加密参数名就能找到加密函数。
F1024
2018-04-07 09:41:21 +08:00
@yamiedie 网页源码里有 totalimg:12 就是 12 页 <script>var mh_info={imgpath:"J+8L+K<+?<+?=+K=+HJ+?=+K;+G:+G=+K?+??+><+K<+>H+><+K;+>>+><+K=+>?+>>+8L;?=+K>+GL+?J+8L",startimg:1,totalimg:12

也可以循环下载 返回 404 的时候跳出 章节+1 继续下载就行了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/444401

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX