go+phantomjs 的爬虫下载渲染时间长怎么优化?

2018-12-18 16:35:53 +08:00
 zarte

下载数度一百多 k,耗时二十几秒,渲染这个无法避免。有其他解决方案吗? py 的会快么,不熟 py,有做过的么?。
之后还有一堆的关键词匹配。。。

1145 次点击
所在节点    问与答
2 条回复
momo733
2018-12-18 17:02:25 +08:00
渲染无法避免?难道是页面上加载了 webgl 或者验证鼠标轨迹的 js ?

要想解决加载速度,最好的办法还是解析 js 直接发请求,降低 phantomjs 加载时间,感觉你这个网速还是提高一下吧,具体解决方案,我也想看看其他大佬有什么解决办法!

另外这种爬虫容易被识别,建议使用 go 的 Chromedp,利用 Chrome 调试协议驱动。
zarte
2018-12-19 09:28:08 +08:00
@momo733 因为页面不是特定的要渲染后通过 xpath 解析。Chromedp 这个我去看下。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/518669

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX