中文字符串能压缩吗？

帮别人压缩一些中文文章，可能一份就几千个字吧用 zlib 这种库压缩，发现不会变小，反而变大了

但把文章放在 txt ，用 tar 或者 zip 压缩，反而容量小了一半求正确压缩中文字符串的方法，谢谢

Tyanboot

2022-06-02 03:11:05 +08:00

先说说你是怎么操作的，是如何对比发现变大的。

比如说是不是直接比较了 len(origin_string)和 len(compressed_bytes)的大小？

eason1874

2022-06-02 07:13:39 +08:00

#!/usr/bin/python
# coding=utf-8

import zlib

text = "zlib 以字节为单位压缩，中文字符串能压缩，任何数据都能压缩，因为任何数据都能表现为字节。只有一种情况会导致压缩后变大，就是输入内容太短。但是你几千字，已经不短了，所以肯定是变小，而不是变大。你误认为变大，原因应该就是 #1 说的那样，你用 len() 比较压缩前的字符数和压缩后的字节数，错误的比较得到了错误的结果"

origin_bytes = bytes(text, "UTF-8")
compressed_bytes = zlib.compress(origin_bytes, 2)

print("------字符数", len(text))
print("--原始字节数", len(origin_bytes))
print("压缩后字节数", len(compressed_bytes))

shuax

2022-06-02 09:25:19 +08:00

python 的 len 不是字节长度。

Latin

2022-06-02 11:03:00 +08:00

stackoverflow 解君忧
https://stackoverflow.com/questions/29243119/how-to-compress-or-compact-a-string-in-python

makeitwork

2022-06-02 14:42:21 +08:00

@eason1874 @Latin 谢谢各位大佬

makeitwork

2022-06-02 18:36:35 +08:00

@eason1874 这里对比的是，
把原始文本 "zlib 以字节为单位压缩。。。"贴到到 txt ，在 mac 下面是 445 字节
把压缩后的"b'x^eP\xc1N\xc2@\x14\xfc\x95&^。。。" 贴到 txt ，在 mac 是 857 字节
这么看，压缩之后，反而更大了
虽然用 len( ) 或者 sys.getsizeof 函数来看，压缩的字节数是小一点的

eason1874

2022-06-02 19:18:35 +08:00

@makeitwork 以 b' 开头这段不是字节数据，这是字节数据的十六进制格式文本，那肯定比字节本身要大的

字节有 256 个，只有 95 个是可见字符（字母数字和标点符号），其他都是不可见字符。当你要打印出来，程序会以十六进制表示不可见字符（让它变得可见），并以 \x 开头表示格式

比如 Delete 键，它是不可见字符，本身只占 1 字节，它的十六进制是 7F 。当你以可见的十六进制打印出来，它会表现为 4 字节，也就是 \x7f

如果你把中文字符也转为十六进制，你会发现字节长度也变大了。比如 UTF8 的“中文”占 6 字节，当你转为十六进制并以\x 开头，它就变成了 24 字节 \xe4\xb8\xad\xe6\x96\x87

所以你比较错了。压缩后你应该直接存储字节，而非转十六进制文本再存，字节流转成任何可见字符编码都会导致体积变大

binaryify

2022-06-02 21:15:03 +08:00

能重复就能压缩

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/856834

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.