大佬!我又来了! 怎样获取到网页中的 pdf 文件

2020-06-05 15:11:53 +08:00
 xueyoucai

http://bulletin.cebpubservice.com/biddingBulletin/2020-06-05/3034096.html

上述网站中的 pdf 文件,我可以获取到一个 swf 文件,这个文件只能用 360 浏览器打开。

有没有办法批量获取到 pdf 文件

感谢各位大佬!!

4292 次点击
所在节点    Python
25 条回复
Jerry1112
2020-06-05 15:16:47 +08:00
爬虫爬它
xueyoucai
2020-06-05 15:21:59 +08:00
@Jerry1112 我知道 问题是怎么获取这个 pdf 文件
kop1989
2020-06-05 15:24:51 +08:00
这个获取不了吧。相当于是一个 flash 做的 pdf 查看器。swf 是编译过的状态。
kop1989
2020-06-05 15:25:38 +08:00
除非你把这个 swf 反编译。拿到它里面对应的 pdf 地址,然后结合 html 里传入的参数,来推定你需要的 pdf 的网址。
yinzhili
2020-06-05 15:27:13 +08:00
这个页面不是 pdf,是 pdf 转换成了 flash
also24
2020-06-05 15:31:36 +08:00
also24
2020-06-05 15:33:59 +08:00
https://www.neowin.net/forum/topic/1226007-ways-to-download-pdf-from-flexpaper/

https://www.jianshu.com/p/1bcbfb9f144f


翻看了几个关于 flexpaper 的内容,基本都是通过 “打印 SWF 到虚拟打印机” 实现的。
different
2020-06-05 15:36:25 +08:00
点击打印,输出到 Microsoft Print to PDF 不就行了嘛?
different
2020-06-05 15:37:05 +08:00
不好意思,没留意到“批量”
sleepm
2020-06-05 15:38:30 +08:00
左上角打印,另存为 pdf
左上角菜单(打印 单页 第二页 缩略图 适合宽度...)
眼看着是扫描的,保存出来也是,所以文字是选择不了的
xueyoucai
2020-06-05 15:41:38 +08:00
@sleepm 批量获取
xueyoucai
2020-06-05 15:42:13 +08:00
@yinzhili 对 我在想怎么获取 pdf 文件 活着说识别这个 swf 文件
nuistzhou
2020-06-05 15:45:42 +08:00
Selenium 模拟然后批量虚拟打印?(我瞎说的)
xueyoucai
2020-06-05 15:47:20 +08:00
@nuistzhou 在 HMTL 中这个 pdf 展示 是一个<object> selenuim 无法获取到元素
Jirajine
2020-06-05 15:47:37 +08:00
抓包看一下,能找到文件请求的话可以通过 mitm 配合脚步截获,要是加密了的话就没办法了,你得找个会逆 flash 的人。
sleepm
2020-06-05 15:47:48 +08:00
批量的话按键精灵 。。。
xueyoucai
2020-06-05 15:49:43 +08:00
@Jirajine 咦 对哦 抓包 我还没试
xueyoucai
2020-06-05 15:50:17 +08:00
@sleepm 。。。。
yinzhili
2020-06-05 15:52:40 +08:00
@xueyoucai 我们以前做过一个在线教育的网站,就是用 swftools 把 PDF 文件转换成 swf 在网页上展示,原始 PDF 文件不会放到公网的。
CageZhong
2020-06-05 16:44:59 +08:00
之前做过一个工具,也是爬虫爬取所有的 swf 文件回来,然后转换 pdf,合并 pdf

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/678982

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX