[求助]用 urllib2 抓取到的一个页面出现了惨不忍睹的编码，我该怎么做？

页面是这个：
http://sports.sina.com.cn/g/premierleague/index.shtml

代码：
# coding: u8
import urllib2
url = "http://sports.sina.com.cn/g/premierleague/index.shtml"
response = urllib2.urlopen(url)
html = response.read()
print html

输出：
��wױ8�3��'͠�L/�J
��.u�Vխ�[w�5��;:�S��煝{7l��!�Z��p8�'-��y϶��=e�P�Usł��;��__�Zj
�::��]�K��챵��
e�Y�ڕkV��%I��B��U�VY�"��*')��ڤ��S.�
��JT�>"T�T�Zk+�!x��*)l�d2I��,��kUU�ҭ�/k��X�j�jk�HI� ��U��0�n2}j��US�ݲ"�>!�p��j^[��Ǉg�'o^=��Nq��ȕ7n|�57yy��'��\��ul
j��=�9T,g/��t�0�ݕ7�'^��o�|v}>8=7�흯!��tp��ٹˏgF�S��?�z��d��~�`��M��u�C%�U2�\ �f��߉V��q�ߍ7�~2~��ɓ��lE��=}��M��}��X��w�o}u��s�'>?�*��zp��S�:��7Oݚ�~��ч�b��=��
HK!��s�عi�nQ��R��}@�TsY�|,�#b\d�+�#yM@qaR��TP�V�N��w
��?[�((t�G��P��,��A��$�O��/�E�XP�)��oN�gA��\�`�Z��
��4
e�L7ȓVn+
Ʉ�e�R fT��`&WՂ�bV
f{
�j_p@-�@�[I�b�_ͷ��CZ��'!4�O1C�,�کhy b0W(ժ�Z��˨�V5��-��ټ�X)��5��{Ek��v��XÝN �(P�PU��Ck��ϫ��? ��j(�
�V3{��Z!��LOO�P+��L��P%WP��L!\=�! ��@X�D8ׯ�j�p�T,W+�#we~م ��{C�Bo@�_Y+ij��p;�^,�=�(��h� :�NxH��|A��r��]-��|��Bk�q<
ڻ�+}��.ܹl�t.�)�c�pt�RX��J4CJЃB��v@��B�X��d�P&��6��dó��gs�R^=�/f��b�@��s�#m} uZ��h�.V�80_)��$.1W�
h��S��*z�Q��J��Ñ��|��ă{�n�I�P��a±a#ن��L<��SA
%��^y�g2��*�\�f�xJ��h�Q�h_�F��BK��(c��%c��BKw��aH��eRB� ��8�w�6��<�Ͼ��K�� @.��k�*[��k�|^�_�¹BV;��,��p�u�]2�4��Y�
�B��wԢ��C�m�3`��>5��#FzF�G-%�Ũ
W��0A�{�TȪ�#��u�4��@e��24�߈��*�:*�6Ђt&��XGe�@dc�%�cເ�h�|΀�y��$Hh��Gv�3�s$(Y)�sY�M��v�E@l�C(��.�tk��ب�6�K��(�E;�Op1?:
D��6�wОƘfO&��zq�Z3Z>��0�M�C��{�ڟ�i#.��
tPڻu�-�u�-�t3�8�X W��t2h�!�.>9;TVK��r�j_��$�yAB�Z�Ȋ�6��.ƭ��I��\y�K:￢
s��#lh��sx�zb=I��Nse�/��FUad�4�H3�l�n�Ho0T�^"j�*�]y�fr�MY!��׋��-#I�(�YVaΡ@��1kE뗴��2=qRt�ۈ��h@y�@�(GX)�I-Z�$l�NX�,��vg��^~�cE��
/虬&j�z��=АUd��Y��_��_�\FG��A}

编码问题参考了 http://in355hz.iteye.com/blog/1860787 ，感觉基本明白怎么回事儿了，按理说

isinstance(html, str) == True

并且页面的编码确定为 GBK，那么

html.decode('gbk').encode('utf-8')

就应该解决问题的，可是收到这样的提示：

UnicodeDecodeError: 'gbk' codec can't decode bytes in position 1-2: illegal multibyte sequence

我也试过其它的网站，就新浪会抓到这些鬼东西，这些是 gzip 以后的东西吗？我还有什么没有做，应该怎么办呢？

larryzh

2014-01-29 00:52:15 +08:00

囧了，上面那个回复按错发出去了，删不掉，这里继续

折腾了一下，应该是如 3 楼所说是 gzip 过的缘故。我使用：
html = gzip.GzipFile(fileobj=StringIO.StringIO(html), mode="r")
html = html.read().decode('gbk').encode('utf-8')
终于输出可读的内容了，编码也正确了。

于是，对于 gzip 解码又有了个疑问，就是为什么不能直接用 zlib.decompress() 来直接解压缩字符串，而非要通过 gzip 和 StringIO 麻烦兮兮地绕道呢？如果我使用：
html = zlib.decompress(html)
会输出错误：
zlib.error: Error -3 while decompressing data: incorrect header check

Google一下发现了：
http://stackoverflow.com/questions/1838699/how-can-i-decompress-a-gzip-stream-with-zlib
有同学遇到类似的问题，也可以参考这里。

主贴中的问题算是解决了，非常感谢所有楼上的同学！