>>> pattern = re.compile('\s?(class|style)=\".*?\"\s?') >>> result = re.sub(pattern , '', s) >>> print result
davin
2016-06-28 11:19:50 +08:00
看到了 o:p 标签,这是从 Word 粘贴来的么? 不知道楼主是用于什么用途,把 Word 导入到 Dreamweaver ,用 Dreamweaver 自带的 「清理 Word 的 HTML 」命令就够了
yiyiwa
2016-06-28 15:56:45 +08:00
刚学啊, 看起来有点恶心, #a 就是你的字符串
>>> print "".join([ "".join(i) for i in re.findall(r'(<[^ >]+>)|>([^<]+)',a) if "font" not in i[0]]) <b>一、岗位及人数</span></b><o:p></o:p></span></p>办公室工作人员, 1 名;教师, 4 名。</span>
yiyiwa
2016-06-28 16:19:49 +08:00
这样更好点, 正则不熟悉啊
print "".join([ "".join(i) for i in re.findall("(<(?!/font)[^ >]+>)|>([^<]+)",a)])