xpath 怎么取出 html 原文?

2019-03-13 17:04:02 +08:00
 JCZ2MkKb5S8ZX9pq
<div class="a">
    <a href="123.jpg">sample</a>
</div>

假设有这样一个 html,我要提取 div 中间的 html 原文,如:

<a href="123.jpg">sample</a>

要这段 html 原文,而不是 text 之类的东西,这个该怎么做?
用了 xpath 停久了,第一次碰到这个需求,查了一圈关键字 xpath + html + 各种关键字结果都挺乱的,来 v2 请教一下。

2048 次点击
所在节点    程序员
6 条回复
jayong
2019-03-13 18:00:33 +08:00
//div[@class='a']
aaa5838769
2019-03-13 18:26:06 +08:00
//div[@class='a']/a/text() 不知道对不对,很久没用了
aaa5838769
2019-03-13 18:27:06 +08:00
当我上面语句没说- - 没仔细看完、
Nick2VIPUser
2019-03-13 18:31:53 +08:00
etree.tounicode()
etree.tostring()
JCZ2MkKb5S8ZX9pq
2019-03-13 18:58:56 +08:00
@Nick2VIPUser 嗯,后来我自己搜到这个 tostring,还有 tounicode 哦,我试试去。

题目没说完整,的确是 python etree。
Lax
2019-03-13 21:05:13 +08:00
echo '<div class="a">
<a href="123.jpg">sample</a>
</div>' | nokogiri -e 'puts $_.xpath("//div[@class=\"a\"]").inner_html'

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/544215

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX