小白请教抓取网页,预期 404 或者 2M 内的网页,但是突然遇到 300M 的文件,怎么在全部下载完之前识别到?

2020-12-19 22:39:50 +08:00
 pinews
curl 试了好像暂时没找到办法!
1492 次点击
所在节点    问与答
4 条回复
ysc3839
2020-12-19 22:43:57 +08:00
你是用 shell 脚本调用 curl 吗?用 --max-filesize 参数。
pinews
2020-12-19 22:52:37 +08:00
php_curl

谢谢,我试试!
ClericPy
2020-12-19 22:53:35 +08:00
流式读写? 开始读之前先像楼上说的 Headers 里面看看 content-length

具体什么场景没描述, 就随便回复了下
napsterwu
2020-12-19 23:28:20 +08:00
curl -X HEAD

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/737127

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX