我想要抓取http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/
上面的数据。
我用scrapy shell http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/
测试的时候,取不到包含'下一页'的a标签。
进行测试,利用如下规则来选取:
In [35]: Selector(response).xpath('span[@class="nav_go_next"]/a')
然后,我发现一个大概的原因,就是nav_go_next标签的父元素里面包含了两个script脚本
我能通过
In [35]: Selector(response).xpath('//div[@class="page"]/script')
来取得script标签,但是通过
In [35]: Selector(response).xpath('//div[@class="page"]/span')
就取不到span元素。
有谁碰到过类似的问题吗?求教!谢谢!
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.