菜鸡求助, go 爬虫得到的二进制 utf8 数据解码相关

2019-08-07 14:56:44 +08:00
 EthanDon

html 的 content-type 是 utf8

go read body 获得的是二进制

这两个有什么联系吗? utf8 的形式不应该是\u 开头的吗(大概记得是这样

网上找了几个 demo 都没能成功解码(或许我应该编码?)

求助各位前辈

1925 次点击
所在节点    程序员
8 条回复
whoami9894
2019-08-07 16:29:51 +08:00
read 出来的是[]byte,content type 是 utf8 的话直接 string(data)就可以了
dabaibai
2019-08-07 16:32:14 +08:00
一般我都是 把几种解密都写了, 直到解密函数不返回 error 为止... 比较笨
EthanDon
2019-08-07 18:42:37 +08:00
@whoami9894 string 出来是乱码,后来我查到一个库可以检测是什么编码,检测出来是 windows-1253 。。。
@dabaibai 实不相瞒我也是这样搞的,但是主流编码解析出来都是乱码。。。我怀疑它原来的编码就不是 utf8
whoami9894
2019-08-07 20:17:41 +08:00
@EthanDon
URL 贴出来看看
GuangXiN
2019-08-07 20:57:00 +08:00
检查一下 content encoding 是否 gzip 了
lsls931011
2019-08-07 21:48:27 +08:00
URL 贴出来看看
gamexg
2019-08-07 23:21:45 +08:00
将二进制 body 写到文件,然后用文本编辑器打开,手工测试到底是什么编码。
EthanDon
2019-08-08 11:11:16 +08:00
@whoami9894
@GuangXiN
@lsls931011
@gamexg 已经确认了是 gzip 了,感谢各位大佬🙏

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/589825

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX