scrapy 如何爬取网页元素显示样式设置为不可见（即 style="display:none"）标签下的内容

2018-10-28 23:52:35 +08:00

godluo

如题，scrapy 新手请教，如何爬取网页元素显示样式设置为不可见（即 style="display:none"）标签下的内容：
网页源码如下：
<dl class="xxx" style="display:none">
<li>
<span class="fl">text1</span>
<p class="fl">text11</p>
</li>
<li>
<span class="fl">text2</span>
<p class="fl">text22</p>
</li>
</dl>

请教如何操作？谢谢！

4209 次点击

所在节点

Python

6 条回复

Trim21

2018-10-29 00:31:22 +08:00

元素 display:none 会导致 xpath 选不到吗？

thedog

2018-10-29 00:56:06 +08:00

不可见，源码里还是有的，有什么影响吗？

zhijiansha

2018-10-29 09:45:39 +08:00

一样可以 xpath 取到的

xpresslink

2018-10-29 10:13:09 +08:00

不可见样式是指浏览器渲染方式不让人眼见，然而你爬虫取到的是网页的字符串。

Qzier

2018-10-29 13:40:44 +08:00

有什么区别吗？

godluo

2018-10-29 17:18:08 +08:00

scrapy shell ，元素 display:none 会导致 xpath 选不到。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/501995

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX