萌新请教 Python 爬虫附件下载问题

2020-06-15 16:48:36 +08:00
 Leon1s
有一个一直困扰的问题,爬虫过程中已经获取到所有附件的链接和文件名(不包含后缀名)到数据库,现在提取数据库里的信息进行附件下载。

问题是:
1.有些文件的后缀名可能不在 url 中,或者头信息中。没有办法获取到文件后缀名,下载的附件没有文件类型。
2.有些文件的真实后缀名跟 url 中的不一样。

请问各位大佬有什么好的办法解决这个痛点吗,谢谢。
1707 次点击
所在节点    Python
8 条回复
j0hnj
2020-06-15 17:01:07 +08:00
关键词:guess content type
Leon1s
2020-06-15 17:06:56 +08:00
@j0hnj 谢谢回复,可以麻烦详细说说吗。首先 guess 是什么,刚才没百度到。另外 content_type 应该是我说的第 1 点,可能头信息没有包含在内。
silencefly
2020-06-15 17:18:00 +08:00
根据文件最开始的字节匹配文件类型
zdnyp
2020-06-15 17:31:23 +08:00
1.后缀名在 response 的 header 里 2.放个例子
xiri
2020-06-15 17:34:04 +08:00
@Leon1s guess:猜测
python 又相应的包可以自动检测(猜测)文件类型
xiri
2020-06-15 17:34:17 +08:00
@xiri 又->有
xiri
2020-06-15 17:35:08 +08:00
@Leon1s mimetypes.guess_type()
warcraft1236
2020-06-30 10:03:33 +08:00
magic number,应该有相应的库来做这个事

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/681746

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX