菜鸟请教正则表达式问题

想匹配一段文字中"start"到"end"之间的内容, 文中除了"start"和"end"其他的可能是任意字符, 该段文字中可能存在多个"start", 怎样写正则表达式只匹配从"end"之前最近的那个"start"到"end"之间的内容.

Situated about 150 miles (240 km) north of Las Vegas, the remote start hamlet of just 50 year-round start residents lacks a grocery store end or even a gasoline station.

如上段文字, 只匹配"start residents lacks a grocery store end". 写了好久没弄出来, 也不知道如何搜索该问题. 谢了!

autoxbc

2019-09-21 14:02:31 +08:00

要是我的话，把 start 和 end 替换成 html tag，丢给浏览器解析，然后 CSS Selectors，XPath 随便玩

每次你用正则解析序列化的结构数据，就是重新写了一遍这种数据结构的解析器 -- 鲁迅

ipwx

2019-09-21 14:06:41 +08:00

@geelaw 嘛嘛，理论辅助思考这点我同意。

但是我觉得作为工程问题，可维护性也是很重要的。显然在这个例子里面，零宽断言（ @Nasei 版本）容易看懂，比较容易维护，就可以了。你那个版本的正则，只能作为智力游戏的结果，不能作为工程实践。

如果有什么是正则零宽都不能解决的，我认为应该上文法解析器。当然不能是 LL/LR 这类笨重的不好维护的解析器，我觉得以 PyParsing 为代表的那种解析器更适合工程。

ipwx

2019-09-21 14:08:24 +08:00

@geelaw 对，PyParsing 为代表的是 PEG 解析器。

https://en.wikipedia.org/wiki/Parsing_expression_grammar

这类我觉得更适合工程，更容易维护。因为你可以把一个一个子规则拆开来写单元测试，而不是写一长串 CFG 规则，然后用外部工具转换成根本没法调试的一坨代码。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/602716

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.