Scrapy xpath 匹配不到一些数据

2017-02-06 23:48:21 +08:00
 yangjiaronga
<table class="tabledataformat" cellspacing="0" >
	<tr>
		<td style="vertical-align:top;">Copper, Cu&nbsp;</td>
    	<td class="dataCell" style="vertical-align:top;"><= 0.03 %<span 		     class="dataCondition"></span></td>
    	<td class="dataCell" style="vertical-align:top;"><= 0.03 %<span class="dataCondition"></span></td>
    	<td class="dataComment" style="vertical-align:top;"></td>
    </tr>
</table>

response.xpath('//table[@class="tabledataformat"]/tr').extract() 只能获取到

<tr>
		<td style="vertical-align:top;">Copper, Cu&nbsp;</td>
    	<td class="dataCell" style="vertical-align:top;"></td>
    	<td class="dataCell" style="vertical-align:top;"></td>
    	<td class="dataComment" style="vertical-align:top;"></td>
    </tr>

<= 0.03 % 和 消失不见,为什么呢?

2080 次点击
所在节点    Python
4 条回复
imn1
2017-03-04 16:37:21 +08:00
因为<=的写法不符合 xml 标准
leavic
2017-03-04 16:39:45 +08:00
这部分数据可能是 javascript 异步请求显示的,也就是 ajax 内容, scrapy 是看不到的。
dsg001
2017-03-04 19:24:35 +08:00
'''
<tr> <td style="vertical-align:top;">Copper, Cu&#160;</td> <td class="dataCell" style="vertical-align:top;">&lt;= 0.03 %<span class="dataCondition"></span></td> <td class="dataCell" style="vertical-align:top;">&lt;= 0.03 %<span class="dataCondition"></span></td> <td class="dataComment" style="vertical-align:top;"></td> </tr>
'''

测试 lxml 能输出, scrapy 应该也没问题,查看 html 源码吧
crazypig14
2017-03-07 10:56:49 +08:00
scrapy 爬下来用 beautifulsoup 处理,我觉得方便些

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/338601

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX