用 C++17 写程序到底要用 string 还是 u32string

2018-11-21 10:13:51 +08:00
 fyyz
https://en.cppreference.com/w/cpp/locale/codecvt_utf8_utf16

看了一下这个链接,这些函数都在 C++17 里废弃了。

所以用 C++17 写程序到底该用 string 还是 u32string ?

个人更喜欢用 u32string,应为这样做 split 什么的更方便点。
4548 次点击
所在节点    C
14 条回复
ipwx
2018-11-21 10:18:25 +08:00
UTF-8 基本上对 find/split/replace 是安全的。

所以为什么不用 UTF-8 呢?
shylockhg
2018-11-21 10:19:52 +08:00
看需求呗,ascii---string,宽字符---xstring
wutiantong
2018-11-21 10:32:13 +08:00
wutiantong
2018-11-21 10:34:08 +08:00
wutiantong
2018-11-21 10:38:20 +08:00
实际上<codecvt>的实现情况好像一直都不太好
fyyz
2018-11-21 11:02:45 +08:00
谢谢大家,决定只用 utf-8 了
GeruzoniAnsasu
2018-11-21 11:19:30 +08:00
同一直有这个迷惑。。。我感觉 python3 的做法其实挺好,不知道有没有类似的实现
fyyz
2018-11-21 11:35:20 +08:00
@ipwx 对不起我还有个问题,如果我用 string 存 utf8 字符串,那我如何遍历这个字符串中的每个字符(而不是遍历字节)呢?
htfy96
2018-11-21 11:47:07 +08:00
不要用 codecvt。以 Ascii 为主就全用 string,别的就使用 C++20 的 u8"字面量"和 std::u8string。转换自己处理,可以抄 http://llvm.org/svn/llvm-project/llvm/trunk/include/llvm/Support/ConvertUTF.h 一份。
GeruzoniAnsasu
2018-11-21 12:11:28 +08:00
看完 3# 发的文章有了新认识


@fyyz 照文章的说法,遍历某个 code point 并不是那么有意义,更有意义的是遍历某个字素群(比如两个码点组合成的一个字),而遍历字素群的方法在几乎所有的语言上都没有官方实现,所以大概还不如自己撸一个
fyyz
2018-11-21 13:04:11 +08:00
@GeruzoniAnsasu 感觉要遍历字素群这玩意必须要看到具体的每个字符的值,并且 if 判断才行
GeruzoniAnsasu
2018-11-21 13:12:05 +08:00
@fyyz 是这样,但看起来麻烦得要死,我大概会先不管只按 code point 划分然后查表 if 一把梭有 bug 再说
ipwx
2018-11-21 15:59:40 +08:00
reus
2018-11-21 17:12:38 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/509887

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX