低创, 求放过, 优点是比较 简洁
只要有人不知道就不算火星(≧∇≦)ノ
原地址: https://github.com/MXXXXXS/Introduction-to-JS-Regex
如有资料侵权, 请立即联系本人删除, 可以在 Github 里发 issue
正则表达式是对文本模式的描述
在自然语言中,1, 2, 3
被称为 数字
, 水, 火, 风
被称为 物质
, 数字
, 物质
是对事物的描述
类似的,在一段文本中,a, b, c
可以称为 单词字符
, 文本 1, 2, 3
可以称为 数字字符
将 单词字符
, 数字字符
这些概念用符号表示,这些符号就是正则表达式
正则表达式是一种语言, 专用于模式匹配领域的语言(DSL, Domain-specific language)
正则表达式是为了解决模式匹配这个问题产生的一种方法
其有很多种实现, 不同编程语言有不同的正则表达式实现,表达式的语法也有差异
这里讨论的是 JS 里的正则表达式语法
更多类型的正则表达式细节可以参考这里
为了方便练习测试编写正则表达式,这里推荐一个工具网站 regexr
像上面提到的 单词字符
对应的符号是 \w
, 数字字符
对应的是\d
还有很多其他的符号,下面来看一些常见的表达式
单个的字符本身就是一种模式
/Regex/
会匹配
"Regex"
要匹配所有的单词字符
/\w/
会匹配
"a", "b", "_", "0"
注意/\w/
里的\
代表转义,/w/
会匹配 "w"
/\W/
是/\w/
的反面(非单词字符), /\D/
是/\d/
的反面(非数字字符)
[]
使用[]
来包含多个模式,会匹配多个模式中的一个
/[abc]/
会匹配
"a", "b", "c"
但不会匹配除这三个之外的别的字符
在[]
里,-
具有表示范围的功能
上方的表达式还可以写成
/[a-c]/
在[]
里,^
放置在开头表示不匹配
/[^a-c]/
表示不匹配a, b, c
, 或表示匹配除a, b, c
之外的别的字符
使用()
来表示一组模式
/[(a-c)(e-g)]/
匹配
"a", "b", "c"
"e", "f", "g"
|
|
类似“或”的含义,上面的例子也可以写成
/a|b|c/
/[a-c]|[e-g]/
?
代表某个模式的 0 或 1 次
+
代表某个模式的 1 或多次
*
代表某个模式的 0 或多次
/a*/
匹配
"", "a", "aa", "aaa"
{n}
指定具体的数量
/a{2}/
只匹配
"aa"
{m,n}
指定范围
/a{1,3}/
匹配
"a", "aa", "aaa"
{m,}
会至少匹配 m 个
/a{1,}/
匹配
"a", "aa", "aaa", "aaaa"
比如
"aaaaa"
使用
/a{1,3}/
会匹配到
"aaa"
这是默认的“尽量多匹配”的模式(贪婪模式)
如果加上?
/a{1,3}?/
会匹配到
"a"
这是“尽量少匹配”的模式(惰性模式)
字符之间的间隔被称为"位置", 有一些正则符号可以用来代表位置, 用来辅助匹配
比如
"22.33"
要匹配小数点前面的部分, 可以用
/^\d*/
来匹配, 其中^
代表了行首的位置
要匹配小数点后面的部分, 可以用
/\d*$/
来匹配, 其中$
代表了行末的位置
单词字符
与非单词字符
(比如标点符号)之间的间隔用\b
表示
比如要统一日期的表示, 将2022.6.28
, 2022/6/28
都统一成2022-6-28
'2022.6.28'.split(/\b\W*\b/).join('-')
'2022/6/28'.split(/\b\W*\b/).join('-')
Lookahead | lookbehind | |
---|---|---|
Positive | (?=p) | (?<=p) |
Negative | (?!p) | (?<!p) |
其中p
代表一个模式
"Positive Lookahead"指的是匹配p
前面的位置, "Positive lookbehind"指的是匹配p
后面的位置
"Negative Lookahead"指的是不匹配p
前面的位置, "Negative lookbehind"指的是不匹配p
后面的位置
举例
/Task\d (?=(done))/g
会匹配完成的 Task(后面跟着"done")
要匹配没有完成的项, 使用
/Task\d (?!(done))/g
上面的表达式出现了g
, 这是一个用于控制表达式行为的标志位
参考Advanced searching with flags
Flag | Description | Corresponding property |
---|---|---|
d |
Generate indices for substring matches. | RegExp.prototype.hasIndices |
g |
Global search. | RegExp.prototype.global |
i |
Case-insensitive search. | RegExp.prototype.ignoreCase |
m |
Multi-line search. | RegExp.prototype.multiline |
s |
Allows . to match newline characters. |
RegExp.prototype.dotAll |
u |
"unicode"; treat a pattern as a sequence of unicode code points. | RegExp.prototype.unicode |
y |
Perform a "sticky" search that matches starting at the current position in the target string. See sticky . |
RegExp.prototype.sticky |
这个很常见, 校验各种格式
比如 Meflow 里金额字段的识别
以及相关测试用例
其中/\p{sc=Han}/
代表一个汉字, 参考Unicode property escapes
String.prototype.replace()非常强大, 这里特指其第二个参数是一个replacerFunction
的时候
比如一个获取某篇博客文章的某个评论的 api 格式类似
Get /api/:blogId/comments/:commentId
要构造一个请求路径, 比如blogId: 14, commentId: 2
const apiSchema = "/api/:blogId/comments/:commentId"
const apiArgs = {
blogId: 14,
commentId: 2,
}
apiSchema.replace(/:(\w+)/g, (_, p) => {
return apiArgs[p]
})
会返回
'/api/14/comments/2'
[JavaScript 正则表达式迷你书( 1.1 版).pdf]( https://github.com/qdlaoyao/js-regex-mini-book/raw/master/JavaScript 正则表达式迷你书( 1.1 版).pdf): 一本小册子, 后面有个速查表非常方便
https://javascript.info/regular-expressions: 非常棒的在线教程
https://regexr.com/: 非常好用的正则测试网站
这是一定没人会仔细看的一节, 放最后, 供感兴趣的读者参考
摘自: Introduction to the Theory of Computation
豆瓣链接: 计算理论导引(英文版·第 3 版)
正则表达式 R 是一种language, P64
以上表述中的一些符号含义, P44
JS 正则表达按照定义来看, 1-6 条可以分别对应
注意: 这不是一个自循环的定义, P65
什么是language, P14
什么是string, P14
什么是alphabet, P13
正则表达式只能处理有限的 context-free language
像嵌套匹配的括号就没法用一个正则去描述
是否是 context-free language 可以用Pumping lemma去判断
This work is licensed under a Creative Commons Attribution 4.0 International License
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.