请教:Scrapy 抓取 ‘a/text()’中含有 <em></em>标签,如何保留 em 间的文字?

2014-09-25 14:50:22 +08:00
 shawngao
参见例子:

HTML:
<a href="http://v2ex.com">网站<em>V2EX</em>是......</a>

Scrapy:
title_array = site.xpath('a/text()').extract()

结果:
["网站","是......"]


谢过先。
10755 次点击
所在节点    Python
5 条回复
yunchenran300
2014-09-25 15:36:09 +08:00
Melodic
2014-09-25 15:41:34 +08:00
a//text()可以。

但是如果前端写的不整齐,那么更好的办法是使用descendant轴来取所有子节点的文字

a/descendant::text()
shawngao
2014-09-25 16:23:50 +08:00
@yunchenran300
@Melodic

新手,非常感谢!
Melodic
2014-09-25 16:41:47 +08:00
@shawngao 哼,原来楼主是搞ios的,只会python的掩面而泣
shawngao
2014-09-25 18:58:56 +08:00
@Melodic 楼主东打一耙,西挥一棍,现在写代码有时语法都错乱了。尤其是Go与Python...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/135633

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX