首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
广告
V2EX
›
程序员
刚才看中文维基百科的 utf-8 解释,有一处是不是有错误
liuxu
·
liuquanhao
·
2017-02-28 12:02:49 +08:00
· 2439 次点击
这是一个创建于 2621 天前的主题,其中的信息可能已经有所发展或是发生改变。
google 搜” utf-8 编码“,进中文维基百科链接
或者是这个链接:
https://zh.wikipedia.org/wiki/UTF-8
在”描述“下,第一个表,表头 -> ”代码范围-标量值-UTF-8-注释“
最后一行 4 字节的”代码范围“,它写的是” 010000 - 10FFFF “,但我计算出来的和它右边的配图来看,应该是” 01000 - 1FFFFF “才对吧。。看它给的”标量值“对应最大也应该是 1FFFFF 才对。。
第 1 条附言 ·
2017-02-28 13:32:52 +08:00
看回复说我错了弄的我有点不明不白了,不知到哪错了,我也是才看 utf-8 编码原理,求指教
google “ unicode 转 utf8",
第二条链接:”字符编码笔记: ASCII , Unicode 和 UTF-8 - 阮一峰的网络日志“,他文章写的是
"0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx"
但第四条链接:”[字符集]Unicode 和 UTF-8 之间的转换详解- 网魂小兵- 博客园“,他文章写的是
” U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx “
wiki 文字是"10FFFF",配图是” 1FFFFF “,我计算出来的是和配图相同的"1FFFFF",也和 google 第四条相同
第 2 条附言 ·
2017-02-28 13:41:53 +08:00
感谢 imn1 ,弄明白了,理论是有 1FFFFF ,但 unicode 实际只用到 10FFFF
来自”百度百科“的 unicode 解释,在”方式“第一段和第四段:
” Unicode 是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的 Unicode 字符分为 17 组编排, 0x0000 至 0x10FFFF ,每组称为平面( Plane ),而每平面拥有 65536 个码位,共 1114112 个。然而目前只用了少数平面。 UTF-8 、 UTF-16 、 UTF-32 都是将数字转换到程序数据的编码方案。“
”从 Unicode 2.0 开始, Unicode 采用了与 ISO 10646-1 相同的字库和字码; ISO 也承诺, ISO 10646 将不会替超出 U+10FFFF 的 UCS-4 编码赋值,以使得两者保持一致。两个项目仍都存在,并独立地公布各自的标准。但统一码联盟和 ISO/IEC JTC1/SC2 都同意保持两者标准的码表兼容,并紧密地共同调整任何未来的扩展。“
标量值
fffff
utf-8
维基百科
8 条回复
•
2017-02-28 16:53:59 +08:00
1
alienhsu
2017-02-28 12:11:03 +08:00 via iPhone
如果确认,提交修改, wiki 本来就是大家一起参与维护的嘛
2
imn1
2017-02-28 12:20:47 +08:00
是你搞错了
3
liuxu
OP
2017-02-28 13:11:42 +08:00
@
imn1
错在哪。。如果就是 10FFFF ,那配图就错了。。
4
liuxu
OP
2017-02-28 13:15:15 +08:00
@
alienhsu
我 ss 被确认为代理屏蔽了
5
liuxu
OP
2017-02-28 13:22:19 +08:00
https://68.media.tumblr.com/cb89cc2bdac05231d4135ace13f50ca1/tumblr_om2k7wwWve1ut08vfo1_1280.png
https://68.media.tumblr.com/db48fedfa55f608fa4ab8f64802f023d/tumblr_om2k7wwWve1ut08vfo2_1280.png
6
imn1
2017-02-28 13:30:25 +08:00
@
liuxu
因为 unicode 的 range 就是到 10FFFF ,据我所知最新的 version 9.0 仍在这个范围内
至少目前主要的相关编码方面的工具(如转码、语言、正则等等)都是按这个标准的
那个图片只是说了构造方法,已经远超出 unicode 的 range 了
7
liuxu
OP
2017-02-28 13:36:26 +08:00
@
imn1
感谢,明白了,原来是实际应用最大是 10FFFFF
8
yansyuei
2017-02-28 16:53:59 +08:00
@
liuxu
#4 sni 代理不会屏蔽
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
我们的愿景
·
实用小工具
·
2343 人在线
最高记录 6543
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 35ms ·
UTC 12:24
·
PVG 20:24
·
LAX 05:24
·
JFK 08:24
Developed with
CodeLauncher
♥ Do have faith in what you're doing.