请问 c++中文件读写,有没有什么办法无视文本编码方式,强行按照 8bit 一字符读取?

2018-12-03 21:35:29 +08:00
 Newyorkcity
情景是这样的
一个霍夫曼编码树的作业,所谓霍夫曼编码就是按照一定方式将文本中的字符用 0 和 1 重新编码,其中出现较多的字符所用的位数少.比如说字母 e 在这个文本中大量出现,可能给它规定的编码就是 01,而字母 s 较少出现,可能给它的编码就是 011110.
因为我没法直接对文件读写 bit(如果有办法或者有成熟的库还劳烦推荐),所以只有先将文件的内容全部转换为 0 或 1 的 字符存储在一个 string 里,然后对这个 string 每 8 个字符一截,因为这 8 个字符都是 01 组成的,把这一段当作二进制数处理,就能得到一个 0-255 间的数,然后把这个数强制类型转换为 char 然后输出到一个文件里去..
然后问题来了,现在我要从这个文件里读我输出的内容(显然直接去看这个内容的话会是一堆乱码)...
我的想法是乱不乱码没关系,反正我读进来放到一个 string 里,然后每个字符对应一个 0-255 的数,我再把这个数转回那个二进制字符串,然后拼起来,这样我就又得到霍夫曼编码了...结果发现这一步已经回不去了...
我个人的想法是可能我在读入的时候,c++一脸懵逼不知道它要按照什么编码方式,在读入啥 j8 玩意儿,所以读回来的东西猜不对..如果能告诉 c++你就按照 8bit 一字符读,具体读进来的内容到底是什么用不着你管,我觉着能解决这个问题吧?
谢谢
1249 次点击
所在节点    问与答
7 条回复
ysc3839
2018-12-03 21:44:36 +08:00
贴出代码看看吧。
shirokow
2018-12-03 21:46:54 +08:00
ifstream ifs(ifsteam::binary) 试试?
zn
2018-12-03 21:53:09 +08:00
mmap 了解一下。
choury
2018-12-03 21:57:32 +08:00
这和 c++没关系,读内存字节是最小的单位了,你自己封装一个读写函数就行了
wevsty
2018-12-03 21:57:54 +08:00
按照二进制位来操作,std::bitset 了解一下。
file open 的时候传入标志位按照二进制方式做 read 出来就是原始的字节了。

std::fstream 系列的类的话传入 ios::binary 就行
whileFalse
2018-12-03 21:57:55 +08:00
msg7086
2018-12-04 02:03:16 +08:00
你这是要把 C++用出 Python 2 的感觉吗。C 系读 bits 直接读不就是了,反正都是一堆内存字节。C 本身连编码都没有,你想让他编码都不行(得找 iconv 外援什么的)。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/513978

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX