Python 下载今日头条的文章（不是爬虫），无法解码，问题到底出在哪儿？

2021-02-20 11:48:30 +08:00

dididaren

周末打算写一个脚本，功能是输入今日头条的文章链接，自动下载文章里的图片本地。

遇到坑了。

python requests 能成功获取到文章数据，用 charles 抓包也可以看到 requests.get 是成本获取到了文章数据，但是在本地解码的时候，无论是用 response.text,还是 response.content.decode，还是直接把 respons 接收到的数据以二进制写入文本，要么是乱码，要么是报错。（ charles 抓包里查看是正常的数据）

respose 解码时试过 gbk,utf-8,iso ； decode 参数试过 ignore, replace 也没用。

谷歌百度也搜不到可用的解决方法。

2961 次点击

所在节点

Python

12 条回复

maobukui

2021-02-20 12:06:38 +08:00

地址，参数案例发一下看看

imn1

2021-02-20 12:13:29 +08:00

写到硬盘的文件试一下 zip 软件能否打开

est

2021-02-20 12:20:16 +08:00

目测 LZ 用的是 win98 + py2

limuyan44

2021-02-20 12:28:24 +08:00

你直接发代码吧，这样也好测试，不然帮个忙还得自己写代码，没抓过的人全靠猜。

dididaren

2021-02-20 13:23:06 +08:00

py3，已附代码

Arrowing

2021-02-20 13:29:17 +08:00

内容经过压缩编码(gzip，compress 等)了吧，解压一下，浏览器一般自动解压，爬取的需要自己解压。

Ptu2sha

2021-02-20 13:34:22 +08:00

accept-encoding: gzip, deflate, br 去掉

dididaren

2021-02-20 13:42:59 +08:00

@Arrowing 感谢

dididaren

2021-02-20 13:43:12 +08:00

@Ptu2sha 感谢

fucUup

2021-02-20 16:53:28 +08:00

Chrome/42.0 你是古董机

omph

2021-02-20 20:18:18 +08:00

运行环境：linux，locale 默认 utf8
代码输出正常。重定向存为 html 文件，打开正常

vone

2021-02-20 21:39:56 +08:00

6 楼正解，br 压缩的问题，requests 默认不能解析 br 压缩后的 Body 。

请求头的 accept-encoding 参数删掉 br 就可以了。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/754538

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.