爬虫里用正则提取文本是很常规的操作,没什么不可以吧。 又不是真的用正则去解析一个完整的 Html 树结构,不过是提取其中一小段文本内容。
GuuJiang
2021-12-05 14:13:09 +08:00
@3dwelcome 除去我上面提到的扩展语法以外,标准的正则表达式仅能匹配正则语言,而“成对的括号”属于典型的非正则语言,从正则语言的定义就能断定不可能存在这样的表达式,我再举个非正则语言中的最简单例子 “若干个 a 后面跟若干个 b ,a 和 b 的数量相等” 不使用递归或计数等扩展语法,能够匹配这样的串的正则表达式也是不存在的 至于为什么一定要把这两种扩展语法独立出来讨论,上面以及解释过了,仅使用 DFA 是不可能实现这两种语法的