解析html，如何获取无标签文本

获取的页面如下形式<div>循环，用simple_html_dom对其解析时想提取位置为“ 你好，转发的赠书大概什么时候送到，上海的，谢谢”这样的无标签的文本，求解答

<div class="c">
<span class="cmt"><a href="...">游完1200才閃</a> 对 我 说:</span>
你好，转发的赠书大概什么时候送到，上海的，谢谢 
<span class="ct">2011-09-16 21:17:35</span> <a href="....." class="cc">回复他 </a> <a href="......." class="cc">共3条对话</a>
</div>

flyphy

2012-03-01 16:18:46 +08:00

@laiwei 不是太懂python，只会php.
刚考虑了下用正则提取</span> <span 之间的字符串就行，能否指导如何匹配

lcxz

2012-03-01 16:19:23 +08:00

用正规则表达式将div内的标签去掉就剩下你想要的内容了

phus

2012-03-01 16:28:15 +08:00

HTML = u'''\
<div class="c">
<span class="cmt"><a href="...">游完1200才閃</a> 对 我 说:</span>
你好，转发的赠书大概什么时候送到，上海的，谢谢 
<span class="ct">2011-09-16 21:17:35</span> <a href="....." class="cc">回复他 </a> <a href="......." class="cc">共3条对话</a>
</div>
'''

def main():
tree = lxml.etree.fromstring(HTML, lxml.etree.HTMLParser())
print ''.join(x.strip() for x in tree.xpath('//div[@class="c"]/text()'))

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/28507

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.