萌新请教 Python 爬虫附件下载问题

2020-06-15 16:48:36 +08:00

Leon1s

有一个一直困扰的问题，爬虫过程中已经获取到所有附件的链接和文件名(不包含后缀名)到数据库，现在提取数据库里的信息进行附件下载。

问题是:
1.有些文件的后缀名可能不在 url 中,或者头信息中。没有办法获取到文件后缀名，下载的附件没有文件类型。
2.有些文件的真实后缀名跟 url 中的不一样。

请问各位大佬有什么好的办法解决这个痛点吗，谢谢。

1851 次点击

所在节点

Python

8 条回复

j0hnj

2020-06-15 17:01:07 +08:00

关键词：guess content type

Leon1s

2020-06-15 17:06:56 +08:00

@j0hnj 谢谢回复，可以麻烦详细说说吗。首先 guess 是什么，刚才没百度到。另外 content_type 应该是我说的第 1 点，可能头信息没有包含在内。

silencefly

2020-06-15 17:18:00 +08:00

根据文件最开始的字节匹配文件类型

zdnyp

2020-06-15 17:31:23 +08:00

1.后缀名在 response 的 header 里 2.放个例子

xiri

2020-06-15 17:34:04 +08:00

@Leon1s guess：猜测
python 又相应的包可以自动检测（猜测）文件类型

xiri

2020-06-15 17:34:17 +08:00

@xiri 又->有

xiri

2020-06-15 17:35:08 +08:00

@Leon1s mimetypes.guess_type()

warcraft1236

2020-06-30 10:03:33 +08:00

magic number，应该有相应的库来做这个事

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/681746

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.