文本内容如下 aaa (bbb) (ccc(dd)cc) 需要的是()及其之中的内容,但之中的内容至少有 3 个字符, 即结果需要是
1, (bbb)
2, (ccc(dd)cc)
目前我的规则是"(.+?)"
但这样的结果只能把 (bbb) 正确取出, 其余的部分就只能取到 (ccc(dd) 就结束了, 各位有什么建议吗? 谢谢
FYI1, 最后的)不一定在句末, 有可能后面还有字符
FYI2, 多个(.+)之间可能还有字符
1
iEverX 2017-12-26 00:34:09 +08:00
问号去掉不行吗?
|
2
freedomSky 2017-12-26 00:35:41 +08:00
➜ tmp cat data
(bb) (bbb) (bbbb) (ccc(dd)cc) xxxx)xxxxx(ccc(ddcc)xxx(x ➜ tmp sed -n 's/[^(]*(\(.\{3,\}\)).*/\1/p' data bbb bbbb ccc(dd)cc ccc(ddcc 不记得什么是贪婪不贪婪了:) |
3
geelaw 2017-12-26 00:55:44 +08:00 via iPhone
你先得告诉我为什么(ccc(dd)不是你期待的结果
那你期待(bbb) (ccc(dd)ccc)成为结果吗? 简单来说,你是否希望匹配里扔掉非左右小括号之后是完美的括号序列?如果是,那么正则表达式做不到,至少计算机科学意义上的正则表达式做不到,因为你期待的匹配组成的语言不是正则语言。 不排除有些引擎可以做到,比如支持反向引用的引擎可以识别 1^n 0 1^n (不是正则语言),但我认为通常所见的引擎不支持你的想法。 |
4
geelaw 2017-12-26 00:57:08 +08:00 via iPhone
@geelaw *更正:扔掉非左右小括号之后是合法括号序列且不能写成两个非空子串的连接,且这两个非空字串都是合法括号序列。
|
5
gamexg 2017-12-26 09:28:43 +08:00
(\(.+\))
|