Python 通过文件下载链接下载文件,几乎每天文件都要更新,如何在下载文件前得知文件是否更新呢?

2018-02-08 09:12:55 +08:00
 sr0miao

别的公司每天不定时的会给我们数据,我们有一个定时系统检测文件数据是否更新,如果更新就下载。但有一个公司给我们的是 http 的文件下载链接,不知道如何在线上检测是否更新。之前的做法是下载下来和之前的作比较,有什么方法在下载钱就得知文件信息么? ps:刚刚实习,好多不懂的地方,请指教。

4199 次点击
所在节点    Python
15 条回复
TimePPT
2018-02-08 09:29:37 +08:00
让对方在下载链接带一个哈希值参数
sunnyadam
2018-02-08 09:37:12 +08:00
顶楼上,带哈希值,如果下载链接每次都变可以比对链接地址,或者和对方商量一下,他们那边更新后通过接口给你一个消息,你方接受到消息则认为文件更新,然后进行下载;等等的,方法很多的
CEBBCAT
2018-02-08 09:38:40 +08:00
head 可以拿到文件大小,可以做简单的判断
awenforlinux
2018-02-08 09:39:44 +08:00
last-modified
fiht
2018-02-08 09:40:59 +08:00
etag
sr0miao
2018-02-08 10:03:21 +08:00
@awenforlinux 阁下正解,十分感谢
scriptB0y
2018-02-08 10:06:25 +08:00
@fiht etag+1 https://developers.google.com/web/fundamentals/performance/optimizing-content-efficiency/http-caching?hl=zh-cn#etag

不过也需要服务器端正确实现才可以,如果没实现,还是让他们在链接加一个 hash 参数简单
sr0miao
2018-02-08 10:10:02 +08:00
@scriptB0y 能让对方改的话我就让他们利用 ftp 或 sftp 了,沟通十分艰难。
sr0miao
2018-02-08 10:28:46 +08:00
@sr0miao
@fiht
etag 也很不错,但我要在数据库记录时间,所以用了 last-modified
qsnow6
2018-02-08 10:31:23 +08:00
last-modified、etag、Content-Length

都可以,简单、高效
qsnow6
2018-02-08 10:41:50 +08:00
最低成本的是使用 If-Modified-Since,给 If-Modified-Since 设置一个时间,源服务器会比对时间,当资源的更新时间大于 If-Modified-Since 的值时,返回 200 状态码,否则就是 304。

https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Headers/If-Modified-Since
vimiix
2018-02-08 12:27:00 +08:00
让对方每次更新都提供文件的 MD5 值,判断值是否相同
pabupa
2018-02-08 14:13:32 +08:00
最后修改时间呀~
laodao1990
2018-02-08 15:02:52 +08:00
第一次听说 etag,学习了。感谢!
Xieldy
2018-02-09 00:06:55 +08:00
学到了学到了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/429353

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX