关于无界面浏览 web、headless、har、模拟浏览器

2017-03-30 17:33:30 +08:00

trys1

如何更好更轻量地在服务端获取 har （一个 URL 下所有元素的信息）？

我需要的：例如：输入： http://www.163.com 获得：该页面里所有元素，例如图片、 js 、 css 等的信息（包括 header 、 size 、 dns 时间、连接时间、下载时间等等）

试过的方案： phantomjs 缺点：没有 dns 时间和连接时间

chrome --headless --remote-debugging-port 缺点：太庞大了，安装包 40+MB ，还依赖一堆，全套起来接近百兆

我的服务端是对硬盘空间比较敏感的小型 linux 请问，有没有比这两个方案更好更轻量（程序文件尺寸）的其它方案？

3552 次点击

所在节点

10 条回复

Arrowing

2017-03-30 21:24:35 +08:00

webtestpage ？

Arrowing

2017-03-30 21:25:18 +08:00

打错了， 2333333
webpagetest

behappy

2017-03-30 21:25:28 +08:00

nightmare

knightdf

2017-03-30 21:46:22 +08:00

splash

trys1

2017-03-31 15:47:13 +08:00

@Arrowing 单单“ webpagetest_3.0.zip ”就要 48MB 了，部署这套方案应该要接近百兆以上的磁盘空间了吧？还得需要安装 python 、 php?

trys1

2017-03-31 15:48:13 +08:00

@behappy 它仅仅依赖 node.js 吗？还需要再安装别的东西吗？它能获取到每个元素的 dns 时间 connect 时间吗？

trys1

2017-03-31 15:52:10 +08:00

@knightdf splash 这个方案还要安装 QT 库和 python 吗？主要是 QT 库太庞大了

knightdf

2017-03-31 16:17:22 +08:00

@trys1 是的，但是他可以获取详细 har

knightdf

2017-03-31 16:18:05 +08:00

@trys1 但是你还可以直接用 docker ，不过看你具体要多小了

behappy

2017-03-31 22:52:54 +08:00

@trys1 sorry 没看清。这个还依赖 phantomjs

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.