scrapy 如何提取这样的动态标签内容？

运行环境：

OS ： CentOS 6 64 位

Scrapy 1.0.3

Python 2.7.4

需求：

http://ip/a.html
```
<div class="a">
<ul>
<li>
<strong>属性 1</strong>
内容 1
</li>
<li>
<strong>属性 2</strong>
内容 2
</li>
<li>
<strong>属性 3</strong>
内容 3
</li>
...
<ul>
</div>
```

文件 2 ： http://ip/b.html:
```
<div class="a">
<ul>
<li>
<strong>属性 1</strong>
内容 1
</li>
<li>
<strong>属性 3</strong>
内容 3
</li>
<li>
<strong>属性 4</strong>
内容 3
</li>
<li>
<strong>属性 5</strong>
内容 3
</li>
...
<ul>
</div>
```

'//div[@class="a"]/ul/li[1]/text ()' # 提取第一个 li

'//div[@class="a"]/ul/li[2]/text ()' # 提取第二个 li

每一个属性的内容将会赋值给对应的变量，例如属性 1 就赋值给 var1 ，属性 2 就赋值给 var2 ， var1 和 var2 最终会写入 DB 。

此处最关键的问题在于某些页面的第二个<li>并不一定就是属性 2 ，有可能是属性 3 ，这样就会造成提取到的第二个<li>会赋值给 var3 (在属性 2 不存在的情况下)，甚至是 var4 (在属性 1 属性 2 都不存在的情况下)。

请问各位爬虫牛人，有什么办法能解决这个问题？感谢。

agenge

2015-09-06 14:20:27 +08:00

@Shared 感谢回复。

想过一个办法，即每次判断 <strong>属性 4</strong> ，如果等于属性 4 ，即赋值给对应的变量。否则继续判断是否等于属于 5 、等于属于 6 ，不过这样效率非常低，有几十个类似的属性。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/218571

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.