求问: scrapy 解析 js 有什么好的方案?

2015-10-24 18:59:50 +08:00
 Yc1992
现在只能解析静态的网页内容,想请教各位 scrapy 对于动态的内容有什么好的方案?
2594 次点击
所在节点    Python
12 条回复
bdbai
2015-10-24 19:41:21 +08:00
简单的 AJAX 分析一下请求即可,涉及到算法的可以尝试将 JavaScript 代码用 Python 表达。实在懒的话直接操控浏览器,不过效率很低。
est
2015-10-24 19:42:59 +08:00
pyexecjs phantomjs
Victor215
2015-10-24 20:00:38 +08:00
千年老问题,快成月经贴了……楼上的方法是通用的。
ljbha007
2015-10-24 20:20:21 +08:00
有个办法是遇到 script 标签和 js 文件 就用正则匹配 url 这样不用去管程序逻辑到底是怎样的
Yc1992
2015-10-24 21:17:51 +08:00
@ljbha007 有些情况这样可以,但是很多情况比如把链接放到 function 中或者 onload 这种情况就不行了
Yc1992
2015-10-24 21:18:17 +08:00
@bdbai 感谢回复,我研究下~
Yc1992
2015-10-24 21:19:05 +08:00
@est 谢谢
ljbha007
2015-10-24 21:46:49 +08:00
@Yc1992 那你把 onload 也加上啊
leavic
2015-10-24 23:36:05 +08:00
ajax 基本都可以查到实际查询的位置,查处后用 request 单独请求一次这个数据就行。
PythonAnswer
2015-10-25 00:33:05 +08:00
不要效率的话,模拟浏览器也没啥。对服务器也温柔。
gaotongfei
2015-10-25 09:31:21 +08:00
selenium
berry10086
2015-10-25 12:39:07 +08:00
selenium + phantomjs

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/230759

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX