求助大神,一个 div 标签的正则匹配

2018-09-07 09:38:05 +08:00
 kidlfy

匹配 class 是 cryptocompare-widget 的整个 div 标签 <div \class="cryptocompare-widget">........</div><scrpit></scrpit>

1793 次点击
所在节点    Python
6 条回复
tennc
2018-09-07 14:04:17 +08:00
chrome 打开后 直接在开发者工具里 找到相应的部分,copy xpath 完事
imdong
2018-09-07 14:44:51 +08:00
如果有嵌套 其他 div 的话,就不要来难为正则表达式了,不适合这么做。
如果是其他的唯一特征如例子的话,也许可以做到(但是效率并不高,不见的比字符串截取快。)
使用 </div><scrpit> 作为结束特征


<div[^>]+class=(["'])cryptocompare-widget\1[^>]*>(?<body>.+)</div><scrpit>
kidlfy
2018-09-07 16:13:31 +08:00
@tennc 嗯,我会 xpath,但是要做标签去除,还是贼心不死想试试 re
kidlfy
2018-09-07 16:15:43 +08:00
@imdong 确实 div 里还嵌套很多其他的 div 所以这个匹配对我很有难度,因为我要做这个带 class 的 div 标签去除,最后还是用的 xpath,用 replace 替换的,唉,re 有时候确实很麻烦啊
huaerxiela
2018-09-07 16:47:23 +08:00
from w3lib.html import remove_tags
kidlfy
2018-09-07 17:10:41 +08:00
@huaerxiela 这个应该只能去除标签内的内容吧,而且我要去除的这个标签非常非常非常长,不可能全部贴在代码里的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/486986

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX