中文字符串能压缩吗?

2022-06-02 01:14:07 +08:00
 makeitwork

帮别人压缩一些中文文章,可能一份就几千个字吧 用 zlib 这种库压缩,发现不会变小,反而变大了

但把文章放在 txt ,用 tar 或者 zip 压缩,反而容量小了一半 求正确压缩中文字符串的方法,谢谢

3098 次点击
所在节点    Python
8 条回复
Tyanboot
2022-06-02 03:11:05 +08:00
先说说你是怎么操作的,是如何对比发现变大的。

比如说是不是直接比较了 len(origin_string)和 len(compressed_bytes)的大小?
eason1874
2022-06-02 07:13:39 +08:00
#!/usr/bin/python
# coding=utf-8

import zlib

text = "zlib 以字节为单位压缩,中文字符串能压缩,任何数据都能压缩,因为任何数据都能表现为字节。只有一种情况会导致压缩后变大,就是输入内容太短。但是你几千字,已经不短了,所以肯定是变小,而不是变大。你误认为变大,原因应该就是 #1 说的那样,你用 len() 比较压缩前的字符数和压缩后的字节数,错误的比较得到了错误的结果"

origin_bytes = bytes(text, "UTF-8")
compressed_bytes = zlib.compress(origin_bytes, 2)

print("------字符数", len(text))
print("--原始字节数", len(origin_bytes))
print("压缩后字节数", len(compressed_bytes))
shuax
2022-06-02 09:25:19 +08:00
python 的 len 不是字节长度。
Latin
2022-06-02 11:03:00 +08:00
makeitwork
2022-06-02 14:42:21 +08:00
@eason1874 @Latin 谢谢各位大佬
makeitwork
2022-06-02 18:36:35 +08:00
@eason1874 这里对比的是,
把原始文本 "zlib 以字节为单位压缩。。。"贴到到 txt ,在 mac 下面是 445 字节
把压缩后的"b'x^eP\xc1N\xc2@\x14\xfc\x95&^。。。" 贴到 txt ,在 mac 是 857 字节
这么看,压缩之后,反而更大了
虽然用 len( ) 或者 sys.getsizeof 函数来看,压缩的字节数是小一点的
eason1874
2022-06-02 19:18:35 +08:00
@makeitwork 以 b' 开头这段不是字节数据,这是字节数据的十六进制格式文本,那肯定比字节本身要大的

字节有 256 个,只有 95 个是可见字符(字母数字和标点符号),其他都是不可见字符。当你要打印出来,程序会以十六进制表示不可见字符(让它变得可见),并以 \x 开头表示格式

比如 Delete 键,它是不可见字符,本身只占 1 字节,它的十六进制是 7F 。当你以可见的十六进制打印出来,它会表现为 4 字节,也就是 \x7f

如果你把中文字符也转为十六进制,你会发现字节长度也变大了。比如 UTF8 的“中文”占 6 字节,当你转为十六进制并以\x 开头,它就变成了 24 字节 \xe4\xb8\xad\xe6\x96\x87

所以你比较错了。压缩后你应该直接存储字节,而非转十六进制文本再存,字节流转成任何可见字符编码都会导致体积变大
binaryify
2022-06-02 21:15:03 +08:00
能重复就能压缩

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/856834

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX