推荐下 Python 格式化字符串轮子(零宽/特殊标点)?

2019-01-11 01:19:20 +08:00
 JCZ2MkKb5S8ZX9pq

问题 1

类似这样的字符清洗的轮子有嘛? 手动写筛选条件怕有遗漏。

问题 2

另外在 python3 里,有些字符串

"\u2086san'中文"

类似这样的,其中中文也是 unicode,但是是可见的。
用 unicode-escape 的话,中文也会变成\u 开头。
有没有方法,在\u2086这种表现形式的字符出现的时候,判断一下?

2462 次点击
所在节点    Python
4 条回复
locoz
2019-01-11 10:31:05 +08:00
捞一下防沉
xpresslink
2019-01-11 13:02:42 +08:00
form = ['NFC', 'NFKC', 'NFD', 'NFKD']
unicodedata.normalize(form[3], unicodestr)
JCZ2MkKb5S8ZX9pq
2019-01-11 13:52:12 +08:00
@xpresslink 谢谢 我查一下
JCZ2MkKb5S8ZX9pq
2019-01-11 14:54:03 +08:00
@xpresslink 好像并没有滤掉 `\u200b` 这类零宽字符

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/525882

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX