Scrapy， xpath 解析求助

2015-04-07 16:31:20 +08:00

willdatascience

我想爬取某一个网页，一个div下的每一条a，但是第一条是标题，而且和剩下的结构不同，会造成如下错误：
我的想法是爬取的内容应该为：
{“省”：["a","b","c"],“市”:["d","e","f"],“区”：["g","h","i"]},但会变成：
{"省"：["a","b","c"],“市”:["d","e","f"],“区”：["地区"，"g"，"h"]
应该怎么办，我如何从第二条开始爬取。我本想在定义sites时改为 //div/a[2], 但是不成功。
scrapy新手求助！！！

3115 次点击

所在节点

Python

6 条回复

Septembers

2015-04-07 16:33:48 +08:00

没样本这不是扯淡么？

willdatascience

2015-04-07 16:36:11 +08:00

@Septembers 额。要是能截图我就发html了。。

Septembers

2015-04-07 16:53:40 +08:00

@willdatascience gist

aaaa007cn

2015-04-07 16:55:05 +08:00

//div/a[position()>1]
//div/a/following-sibling::a

zjuster

2015-04-07 17:17:41 +08:00

//div/a[2] 是只抽取第二个a结点，试试/a[position()>1]，

常用的xpath配置到w3school看看，都有。

oseau

2015-04-07 17:57:14 +08:00

http://zvon.org/comp/r/tut-XPath_1.html

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/182147

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.