python 能不能通过 ie 或 chrome 来抓取渲染好的网页

2014-02-13 00:10:49 +08:00
 pythonee
通过urllib2或是requests来get页面,只是抓取了html源码,css渲染效果和ajax调用都没有,所以,我在想是不是可以通过ie或chrome来抓取在浏览器上看到的效果呢
5469 次点击
所在节点    Python
14 条回复
OhmyCaptain
2014-02-13 00:15:04 +08:00
selenium?
iloahz
2014-02-13 00:20:27 +08:00
貌似现在能模拟浏览器渲染的就只有1L说这个吧
txlty
2014-02-13 00:37:44 +08:00
est
2014-02-13 01:08:17 +08:00
IE可以。win32com
otakustay
2014-02-13 01:36:02 +08:00
phantomjs和真chrome的差距还是有点的,真要抓就用selenium吧,除了效率低下外没啥缺点
manhere
2014-02-13 02:10:03 +08:00
如果是win平台的话,有个命令行版网页截图工具,很好用
zhouzm
2014-02-13 08:19:02 +08:00
cefpython
simapple
2014-02-13 08:45:24 +08:00
python Qt webkit
ksc010
2014-02-13 09:12:45 +08:00
phantomjs + casperjs
PurpleSun
2014-02-13 10:10:32 +08:00
*nix平台:whhtmltopdf + pdfkit
josephshen
2014-02-13 10:33:27 +08:00
http://cutycapt.sourceforge.net/
然后自己再包装一个python接口就行
gonjay
2014-02-13 12:59:39 +08:00
用Chrome插件直接用js来抓取,再通过ajax给自己的数据库存起来?
pythonee
2014-02-25 09:26:54 +08:00
@gonjay 我是想做成daemon定期去抓的,不想起来一个chrome
keven
2014-03-26 00:20:15 +08:00
python应该有相关的库或者可以直接利用的东西吧,我也在抓数据,八爪鱼采集器就是内置了一个浏览器,然后通过浏览器来进行采集的。所以ajax这些肯定是支持的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/99957

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX