这种垃圾字符怎么过滤?

2014-08-07 11:34:48 +08:00
 rogeecn
不能发图片么?☑ ♨ ✔ 不知道是什么字符。谁知道怎么过滤?不限于这几种字符,应该还有别的更多 这种无聊字符。。
我还想知道这种字符从哪儿来的?
4024 次点击
所在节点    程序员
13 条回复
jakwings
2014-08-07 11:43:56 +08:00
emoji 表情符之类的,何必过滤,一般都不是很重要的内容。
rogeecn
2014-08-07 11:46:55 +08:00
@jakwings 关键是这东西出现在标题里了。
jakwings
2014-08-07 11:47:16 +08:00
@jakwings 我还以为楼主看不到那些字符……查一下特殊字符映射表就知道了,大致是在 U+2600-U+27BF。
Actrace
2014-08-07 12:41:25 +08:00
反向匹配,只允许特定字符出现.
Delbert
2014-08-07 12:45:34 +08:00
我晕。emoji啊,去 http://getemoji.com 整个页面都是楼主所谓的垃圾字符……

比如 Face Emoji
😄 😃 😀 😊 ☺ 😉 😍 😘 😚 😗 😙 😜 😝 😛 😳 😁 😔 😌 😒 😞 😣 😢 😂 😭 😪 😥 😰 😅 😓 😩 😫 😨 😱 😠 😡 😤 😖 😆 😋 😷 😎 😴 😵 😲 😟 😦 😧 😈 👿 😮 😬 😐 😕 😯 😶 😇 😏 😑 👲 👳 👮 👷 💂 👶 👦 👧 👨 👩 👴 👵 👱 👼 👸
dong3580
2014-08-07 12:50:30 +08:00
字体字符,都可以自己做自己的。。。能过滤完?
jsonline
2014-08-07 12:51:03 +08:00
你不能用黑名单,只能用白名单,吧。
imn1
2014-08-07 13:07:34 +08:00
@dong3580 自己造的别人看不到,想别人也能看到一般都是unicode符号
@jsonline +1
unicode符号太多,而且区段很多,只能用白名单把你想要的文字区段保留
http://www.unicode.org/charts/ 这里是unicode所有区段的说明及对应字符表pdf下载
dong3580
2014-08-07 13:10:36 +08:00
@imn1
引用,看“淘宝”那几个字就是字体。
jakwings
2014-08-07 13:16:43 +08:00
估计可以植入一段 CSS,用设计好的 0 宽度字符 webfont 替换掉这些符号的常用字体中的对应字符实现无 JS 无 JS 损害过滤。

具体方法如下:
@font-face {
font-family: "Custom";
font-style: normal;
src: url(Custom.woff) format('woff');
}
@font-face {
font-family: "Custom";
font-style: bolder;
src: url(Custom.woff) format('woff');
}
@font-face{
font-style: normal;
font-family: "SimSun";
src: local("Custom");
unicode-range: U+2600-27BF, U+2E80-9FFF, U+F900-FAFF, U+FE30-FE4F, U+20000-2FA1F;
}
jakwings
2014-08-07 13:21:57 +08:00
啊,修正了一下,顺便放到 gist 上了。
https://gist.github.com/jakwings/7ae0e5bf833ed64c6fbf
imn1
2014-08-07 13:31:17 +08:00
@dong3580 哪里?
qq5775548
2014-08-08 11:10:33 +08:00
直接过滤出自己允许的字符~~就可以过滤掉不要的字符 不过貌似这也不好搞

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/126542

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX