有什么高效的算法对 url 中的路径参数做模式识别分类么

2023-02-03 09:10:26 +08:00
 etoahn

比如我有以下 url(输入)

https://www.showcase.com/user/home

https://www.showcase.com/bill/BlKLSJDFLJERSDF
https://www.showcase.com/bill/BSERlKLSSDFEJSDF
https://www.showcase.com/bill/BSDREWRDF
https://www.showcase.com/bill/BSERDWEDFEJSDF # 类似 url 可能有 100+个

https://www.showcase.com/bill/BlKLSJDFLJERSDF/detail
https://www.showcase.com/bill/BSERlKLSSDFEJSDF/detail
https://www.showcase.com/bill/BSDREWRDF/detail
https://www.showcase.com/bill/BSERDWEDFEJSDF/detail # 类似 url 可能有 100+个


https://www.showcase.com/topic/234566833245234566
https://www.showcase.com/topic/200000234523456683
https://www.showcase.com/topic/2586683567243w56324 # 类似 url 可能有 100+个


# 其它大量 url , 正则规则不固定,只能通过统计分析

分类为(输出)

https://www.showcase.com/user/home
https://www.showcase.com/bill/{param} 
https://www.showcase.com/bill/{param}/detail
https://www.showcase.com/topic/{param}

暂时只想到用模式识别, 不知大佬有无其它方法

1166 次点击
所在节点    算法
4 条回复
Coderuancun
2023-02-03 09:20:11 +08:00
分词处理,有那种分词处理算法
acmerliu
2023-02-03 09:21:29 +08:00
隐马尔可夫
Jooooooooo
2023-02-03 10:39:28 +08:00
这不是正则吗
34127chi
2023-02-03 13:43:41 +08:00
这不是正则吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/912764

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX