V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
vvong
V2EX  ›  问与答

求助,'𝑀𝑏𝑎𝑘𝑢𝑛𝑑𝑎 𝑎𝑙𝑒𝑥' 是什么属于字符?怎么将它转换成正常的字符

  •  
  •   vvong · 2021-08-13 15:59:18 +08:00 · 1289 次点击
    这是一个创建于 979 天前的主题,其中的信息可能已经有所发展或是发生改变。
    RT,系统最近接收到一些这种输入,第三方接口无法识别,导致处理失败,有 v2er 知道这种字符是怎么输入或者转换的吗
    13 条回复    2021-08-16 08:00:38 +08:00
    creanme
        1
    creanme  
       2021-08-13 16:03:04 +08:00   ❤️ 1
    unicode? 不知道怎么转
    XiLingHost
        2
    XiLingHost  
       2021-08-13 16:03:06 +08:00   ❤️ 1
    base64
    1423
        3
    1423  
       2021-08-13 16:08:43 +08:00   ❤️ 1
    wangkun025
        4
    wangkun025  
       2021-08-13 16:08:44 +08:00   ❤️ 1
    第三方处理不了 utf8 的话,就没什么办法。
    这个就是 utf8,第一个字符 Unicode number 应该是 U+1D440
    learningman
        5
    learningman  
       2021-08-13 16:08:56 +08:00 via Android   ❤️ 2
    这些是某些小语言里面的字体,长得跟英文像,被拿来当艺术字了。
    这个没有直接转换的办法,你只能自己维护一个映射列表。我觉得干脆禁止更干脆一点。
    如果你要问这是什么编码的话,那只能说只要你能看到,那就肯定 Unicode 。
    wangkun025
        6
    wangkun025  
       2021-08-13 16:10:55 +08:00   ❤️ 1
    这个没法转换的。类似于把一个中文的字符转换成英文,本质上是无法转换的。
    让第三方接受 utf8 是正途。
    1423
        7
    1423  
       2021-08-13 16:14:15 +08:00   ❤️ 1
    还挺有意思的,试一下效果

    Sans-serif bold italic symbols
    𝘼𝘽𝘾𝘿𝙀𝙁𝙂𝙃𝙄𝙅𝙆𝙇𝙈𝙉𝙊𝙋𝙌𝙍𝙎𝙏𝙐𝙑𝙒𝙓𝙔𝙕𝙖𝙗𝙘𝙙𝙚𝙛𝙜𝙝𝙞𝙟𝙠𝙡𝙢𝙣𝙤𝙥𝙦𝙧𝙨𝙩𝙪𝙫𝙬𝙭𝙮𝙯

    Dotless symbols
    𝚤𝚥

    Double-struck digits
    𝟘𝟙𝟚𝟛𝟜𝟝𝟞𝟟𝟠𝟡

    Double-struck symbols
    𝔸𝔹𝔻𝔼𝔽𝔾𝕀𝕁𝕂𝕃𝕄𝕆𝕊𝕋𝕌𝕍𝕎𝕏𝕐𝕒𝕓𝕔𝕕𝕖𝕗𝕘𝕙𝕚𝕛𝕜𝕝𝕞𝕟𝕠𝕡𝕢𝕣𝕤𝕥𝕦𝕧𝕨𝕩𝕪𝕫
    vvong
        8
    vvong  
    OP
       2021-08-13 16:26:01 +08:00
    @1423
    @wangkun025
    @learningman
    @wangkun025
    @1423
    当在 google 中搜索这个单词的时候 它搜索的页面是正常的 字母 所以想知道这中间是如何处理的
    hahastudio
        9
    hahastudio  
       2021-08-13 16:32:42 +08:00 via Android   ❤️ 2
    Unicode normalization
    013231
        10
    013231  
       2021-08-13 16:36:47 +08:00   ❤️ 6
    標題中的字母屬於“Mathematical Alphanumeric Symbols”. 將其轉換為“正常”字符的行為叫“Unicode Normalization”.
    以 Python 為例, 可以使用標準庫中的 unicodedata.normalize 做這樣的轉換.

    >>> import unicodedata
    >>> print(unicodedata.normalize('NFKD', '𝑀𝑏𝑎𝑘𝑢𝑛𝑑𝑎 𝑎𝑙𝑒𝑥'))
    Mbakunda alex
    hahastudio
        11
    hahastudio  
       2021-08-14 10:26:01 +08:00   ❤️ 1
    说起来,这个帖子的 tag 是怎么回事,是分词 bug 了么 @livid
    learningman
        12
    learningman  
       2021-08-14 12:12:13 +08:00
    @hahastudio 应该是,估计是 4 字节 unicode 被当成 3 字节处理了
    Conty
        13
    Conty  
       2021-08-16 08:00:38 +08:00
    我倒是经常收到类似编码的垃圾邮件,subject 就是这样的,让你能读懂,但是又没法用关键词过滤。

    大家有啥好办法吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1355 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 23:42 · PVG 07:42 · LAX 16:42 · JFK 19:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.