大神们请研究下这个页面里实际的 PDF 如何下载下来？

disk

2020-02-02 02:03:08 +08:00

粗看了下，没有实际的 pdf，返回的图片，要么爬下来合成。

ssdde

2020-02-02 02:18:48 +08:00

@disk 嗯如果只是图片的话，笨一点的方法可以加载完一张一张保存。求大神出个最简单最高质量的下载方法

shuangyeying

2020-02-02 06:52:44 +08:00

感谢感谢，很多新书呀。

magana

2020-02-02 08:23:27 +08:00

这个页面的书可以用浏览器页面打印的方式，打印为 pdf 文件

fromdark

2020-02-02 09:11:57 +08:00

哈哈哈，最近疫情免费开放，昨天也想下载，没想到没有下载的功能

linKnowEasy

2020-02-02 10:04:24 +08:00

有没有书本推荐. 不限题材.

xyjincan

2020-02-02 10:06:19 +08:00

昨天下载到一半，好像被封了，啥都看不见了

Mavious

2020-02-02 10:06:55 +08:00

转圈圈长条猫太萌了，是个 gif，下之。
lib-nuanxin.wqxuetang.com/static/read/img/loading.blue-longcat-spinner.dbcca15c.gif

fireflies

2020-02-02 11:54:07 +08:00

@ysc3839 RecursionError: maximum recursion depth exceeded 报错

LZSZ

2020-02-02 12:05:10 +08:00

@ssdde 用 py 爬网上有很多爬图片的教程

CNHSK

2020-02-02 12:06:39 +08:00

@ysc3839 Traceback (most recent call last):
File "C:\Users\Administrator\Desktop\wqxt_pdf-master\imgautocompress.py", line 115, in <module>
input_file = sys.argv[1]
IndexError: list index out of range
>>> 怎么解决，大佬

ysc3839

2020-02-02 12:08:41 +08:00

@fireflies @CNHSK 我没用过，这也不是我开发的，只是恰好在网上看到了。

jakezh

2020-02-02 12:22:42 +08:00

看了一眼

@CNHSK #14 python crawl_wqxt.py book_id

@fireflies #11 parse catalog 有死循环，注释掉就 ok 了

yamedie

2020-02-02 12:32:59 +08:00

用 chrome 的 overrides, 去搞一个名为 read.v5.3.1.722eb.js 的文件, 把 getJwt 暴露到 window 对象上, 一切就迎刃而解了

ssdde

2020-02-02 13:17:11 +08:00

@yamedie 大神，你说的这个好像很不错的样子，但是不会搞呀，急

ssdde

2020-02-02 13:19:11 +08:00

@magana 浏览器打印的话，需要所有页面图片都清晰加载一次，而且存储来的 PDF 左下角有页面地址，还有书签符号，和在线客服，怎么去除啊

ssdde

2020-02-02 13:20:45 +08:00

有没有大佬能针对这个站，写一个工具，只要运行，自己粘贴网址就行，啥都不用管的，小白哭求

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/641529

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.