初学正则的两个小问题

1.正文
<html>
<head>
<title></title>
</head>
<body>
<div>test</div>
<h3>hh33</h3>
<p>asdf</p>
</body>
</html>
想取出<div></div>之间和<p></p>之间的东西，用：
<div>(.*)</div>[^.]*<p>(.*)</p>
就能找出来，但是换了：
</div>(.*)</div>[.\n\s\r]*<p>(.*)</p>
就匹配出不来了？
感觉两对角标之间的那些东西，就是换行符、空白符、再加上.，应该就能全部找到了吧？但是实际不行？

2.尝试着用python来进行正则匹配
import re
p = re.compile('xml') #define re:p
m = p.match('xml') #这样子m就有内容<_sre.SRE_Match object at 0x101a82100>
但是换成：
m = p.match('<xml') #这样子m就是None
#
想了下，<好像不用需要转义字符吧？

gastlygem

2013-04-02 11:04:14 +08:00

关于问题2，match是全字符串匹配，如果你想要匹配部分字符串，你需要用 m = p.search('<xml')

ivanlw

2013-04-02 12:17:39 +08:00

@doskoi 能麻烦发一下那篇文章吗……我看到的都是说用库比较慢，用正则比较快的……

yangg

2013-04-02 12:20:51 +08:00

1. </div>(.*)</div>[\s\S]*?<p>(.*)</p>

2. 第二个换search方法就行了，match是从开始匹配， re.match(pattern, string, flags=0)
If zero or more characters at the beginning of string match the regular expression pattern, return a corresponding MatchObject instance.
http://docs.python.org/release/2.7.3/library/re.html?highlight=re.match#re.match

ps:解析html可以用BeautifulSoup

hidden

2013-04-02 14:18:28 +08:00

@ivanlw <p>.*?</p> 后面那个问号表示非贪婪模式，遇到第一个</p>就停，不然会继续找后面的</p>

http://zh.wikipedia.org/wiki/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F

halfelf

2013-04-02 14:48:42 +08:00

不要用正则解析html/xml等，正则无法完整无误的解析，况且有各种各样的xpath轮子，还用自己写
http://stackoverflow.com/questions/590747/using-regular-expressions-to-parse-html-why-not

ivanlw

2013-04-03 03:43:31 +08:00

@keakon
用的是开源中国的在线正则测试，不知道这个工具会不会有什么问题……google搜出来的
http://imgur.com/FseGnWR

ivanlw

2013-04-03 03:47:46 +08:00

@yangg 哦，sorry，测试出来了……这个可以的……

想知道下中间部分如果用[.\n]*?为什么不可以……
我看的教程是.表示除了\n以外的所有字符，然后[]表示的是中间出现的情况都可以，所以觉得[.\n]应该是包含所有的情况了……

yangg

2013-04-03 11:11:51 +08:00

@ivanlw [.\n]不行，是因为.在[]里不转义就表示字符".",而不是any character except newline,
所以[.\n]只是两个字符
http://rubular.com/r/BT2pdwyprG

python里可以开启DOTALL模式 (?s)<div>(.*?)</div>.*?<p>(.*?)</p>

ivanlw

2013-04-03 13:03:37 +08:00

@yangg 多谢！如果不用python的话，正常应该怎么转义呢？这个好像不是简单的\.吧？(因为我试了\.不行)

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/64710

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.