V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
liuxu
V2EX  ›  程序员

刚才看中文维基百科的 utf-8 解释,有一处是不是有错误

  •  
  •   liuxu ·
    liuquanhao · 2017-02-28 12:02:49 +08:00 · 2439 次点击
    这是一个创建于 2621 天前的主题,其中的信息可能已经有所发展或是发生改变。
    google 搜” utf-8 编码“,进中文维基百科链接
    或者是这个链接: https://zh.wikipedia.org/wiki/UTF-8

    在”描述“下,第一个表,表头 -> ”代码范围-标量值-UTF-8-注释“

    最后一行 4 字节的”代码范围“,它写的是” 010000 - 10FFFF “,但我计算出来的和它右边的配图来看,应该是” 01000 - 1FFFFF “才对吧。。看它给的”标量值“对应最大也应该是 1FFFFF 才对。。
    第 1 条附言  ·  2017-02-28 13:32:52 +08:00
    看回复说我错了弄的我有点不明不白了,不知到哪错了,我也是才看 utf-8 编码原理,求指教
    google “ unicode 转 utf8",
    第二条链接:”字符编码笔记: ASCII , Unicode 和 UTF-8 - 阮一峰的网络日志“,他文章写的是
    "0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx"

    但第四条链接:”[字符集]Unicode 和 UTF-8 之间的转换详解- 网魂小兵- 博客园“,他文章写的是
    ” U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx “

    wiki 文字是"10FFFF",配图是” 1FFFFF “,我计算出来的是和配图相同的"1FFFFF",也和 google 第四条相同
    第 2 条附言  ·  2017-02-28 13:41:53 +08:00
    感谢 imn1 ,弄明白了,理论是有 1FFFFF ,但 unicode 实际只用到 10FFFF
    来自”百度百科“的 unicode 解释,在”方式“第一段和第四段:
    ” Unicode 是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的 Unicode 字符分为 17 组编排, 0x0000 至 0x10FFFF ,每组称为平面( Plane ),而每平面拥有 65536 个码位,共 1114112 个。然而目前只用了少数平面。 UTF-8 、 UTF-16 、 UTF-32 都是将数字转换到程序数据的编码方案。“

    ”从 Unicode 2.0 开始, Unicode 采用了与 ISO 10646-1 相同的字库和字码; ISO 也承诺, ISO 10646 将不会替超出 U+10FFFF 的 UCS-4 编码赋值,以使得两者保持一致。两个项目仍都存在,并独立地公布各自的标准。但统一码联盟和 ISO/IEC JTC1/SC2 都同意保持两者标准的码表兼容,并紧密地共同调整任何未来的扩展。“
    8 条回复    2017-02-28 16:53:59 +08:00
    alienhsu
        1
    alienhsu  
       2017-02-28 12:11:03 +08:00 via iPhone
    如果确认,提交修改, wiki 本来就是大家一起参与维护的嘛
    imn1
        2
    imn1  
       2017-02-28 12:20:47 +08:00
    是你搞错了
    liuxu
        3
    liuxu  
    OP
       2017-02-28 13:11:42 +08:00
    @imn1 错在哪。。如果就是 10FFFF ,那配图就错了。。
    liuxu
        4
    liuxu  
    OP
       2017-02-28 13:15:15 +08:00
    @alienhsu 我 ss 被确认为代理屏蔽了
    imn1
        6
    imn1  
       2017-02-28 13:30:25 +08:00
    @liuxu
    因为 unicode 的 range 就是到 10FFFF ,据我所知最新的 version 9.0 仍在这个范围内
    至少目前主要的相关编码方面的工具(如转码、语言、正则等等)都是按这个标准的
    那个图片只是说了构造方法,已经远超出 unicode 的 range 了
    liuxu
        7
    liuxu  
    OP
       2017-02-28 13:36:26 +08:00
    @imn1 感谢,明白了,原来是实际应用最大是 10FFFFF
    yansyuei
        8
    yansyuei  
       2017-02-28 16:53:59 +08:00
    @liuxu #4 sni 代理不会屏蔽
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2343 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 12:24 · PVG 20:24 · LAX 05:24 · JFK 08:24
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.