如何用正则表达式分别匹配各大电商的 url

2014-09-13 01:17:46 +08:00
 kfdt74
比如

淘宝:
http://item.taobao.com/item.htm?spm=2013.1.20141001.2.QbMEqh&id=17237347492&scm=1007.10115.1595.0&pvid=a77c3634-0728-4d7f-9359-08c9968e0ea4

天猫:
http://detail.tmall.com/item.htm?spm=a230r.1.14.1.d5YG4w&id=35259286943&ad_id=&am_id=&cm_id=140105335569ed55e27b&pm_id=&sku_properties=

京东:
http://item.jd.com/941442.html?utm_source=www.smzdm.com&utm_medium=tuiguang&utm_campaign=t_4298_YH&utm_term=0fdd61435f434ff686ecba5ef9689726

如何分别匹配这些url?
3711 次点击
所在节点    问与答
6 条回复
Execution
2014-09-13 01:24:26 +08:00
同求
Abirdcfly
2014-09-13 01:34:15 +08:00
我说的很可能是错的。但是
第一个的链接可以是http://item.taobao.com/item.htm?id=17237347492 只要这个就好了。
tianrunlin
2014-09-13 08:52:30 +08:00
@Abirdcfly 你说的没错
spm是淘宝的导购跟踪标记,utm是google分析的标记,直接去掉就好了
http://item.taobao.com/item.htm?id=17237347492
http://detail.tmall.com/item.htm?id=35259286943
http://item.jd.com/941442.html
kfdt74
2014-09-13 09:01:15 +08:00
我的需求是不管后面接什么参数都能通过正则找到并替换掉
loginv2
2014-09-13 09:34:05 +08:00
Doubear
2014-09-13 10:37:58 +08:00
(\.com\/(\d+)|item\.html.*id=(\d+))

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/133190

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX