想用 python 去除 xml 文件中的法语字母 à â ä è é î ô等;大牛们,有没有好方法推荐?

2014-10-22 18:03:43 +08:00
 figol
4981 次点击
所在节点    Python
7 条回复
icedx
2014-10-22 18:08:19 +08:00
你搜下 这个问题很有名…
具体链接忘记了...
plprapper
2014-10-22 18:14:23 +08:00
asc 有范围吗
poke707
2014-10-22 18:40:08 +08:00
这些字符估计其unicode是连着的,简单的正则即可替换掉
Actrace
2014-10-22 18:53:17 +08:00
法语字母不多吧 ..?
匹配替换.
wangfengmadking
2014-10-22 19:30:13 +08:00
我一般就用.encode('ascii', "ignore")来忽略了
GeekGao
2014-10-22 19:35:27 +08:00
查下unicode字符集表 http://www.tamasoft.co.jp/en/general-info/unicode.html
找到区间:00C0~0100 (我不懂法语,看着像而已)
写正则匹配^[\u00C0-\u0100]+$

思路基本这样子。
wibile
2014-10-22 20:37:26 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/140802

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX