大神们请研究下这个页面里实际的 PDF 如何下载下来?

2020-02-02 01:30:21 +08:00
 ssdde

https://lib-nuanxin.wqxuetang.com/read/pdf/3208401

8781 次点击
所在节点    程序员
75 条回复
disk
2020-02-02 02:03:08 +08:00
粗看了下,没有实际的 pdf,返回的图片,要么爬下来合成。
ssdde
2020-02-02 02:18:48 +08:00
@disk 嗯如果只是图片的话,笨一点的方法可以加载完一张一张保存。求大神出个最简单最高质量的下载方法
ysc3839
2020-02-02 04:31:10 +08:00
shuangyeying
2020-02-02 06:52:44 +08:00
感谢感谢,很多新书呀。
magana
2020-02-02 08:23:27 +08:00
这个页面的书可以用浏览器页面打印的方式,打印为 pdf 文件
fromdark
2020-02-02 09:11:57 +08:00
哈哈哈,最近疫情免费开放,昨天也想下载,没想到没有下载的功能
yulihao
2020-02-02 09:56:50 +08:00
全是图片啊
linKnowEasy
2020-02-02 10:04:24 +08:00
有没有书本推荐. 不限题材.
xyjincan
2020-02-02 10:06:19 +08:00
昨天下载到一半,好像被封了,啥都看不见了
Mavious
2020-02-02 10:06:55 +08:00
fireflies
2020-02-02 11:54:07 +08:00
@ysc3839 RecursionError: maximum recursion depth exceeded 报错
InkAndBanner
2020-02-02 12:01:54 +08:00
@Mavious 慧眼识珠
LZSZ
2020-02-02 12:05:10 +08:00
@ssdde 用 py 爬 网上有很多爬图片的教程
CNHSK
2020-02-02 12:06:39 +08:00
@ysc3839 Traceback (most recent call last):
File "C:\Users\Administrator\Desktop\wqxt_pdf-master\imgautocompress.py", line 115, in <module>
input_file = sys.argv[1]
IndexError: list index out of range
>>> 怎么解决,大佬
ysc3839
2020-02-02 12:08:41 +08:00
@fireflies @CNHSK 我没用过,这也不是我开发的,只是恰好在网上看到了。
jakezh
2020-02-02 12:22:42 +08:00
看了一眼

@CNHSK #14 python crawl_wqxt.py book_id


@fireflies #11 parse catalog 有死循环,注释掉就 ok 了
yamedie
2020-02-02 12:32:59 +08:00
用 chrome 的 overrides, 去搞一个名为 read.v5.3.1.722eb.js 的文件, 把 getJwt 暴露到 window 对象上, 一切就迎刃而解了
ssdde
2020-02-02 13:17:11 +08:00
@yamedie 大神,你说的这个好像很不错的样子,但是不会搞呀,急
ssdde
2020-02-02 13:19:11 +08:00
@magana 浏览器打印的话,需要所有页面图片都清晰加载一次,而且存储来的 PDF 左下角有页面地址,还有书签符号,和在线客服,怎么去除啊
ssdde
2020-02-02 13:20:45 +08:00
有没有大佬能针对这个站,写一个工具,只要运行,自己粘贴网址就行,啥都不用管的,小白哭求

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/641529

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX