请教一个 Python 爬 bing 词典遇到的音标乱码的问题。

用 HTMLParser 解析页面代码，其它部分都没问题，但是个别音标会出错。
比如 abdication, 音标为: "美 [ˌæbdɪ'keɪʃ(ə)n] "，会被解析成"美[ˌbdɪ'ke�", 查看页面编码是 utf-8 没问题，音标行代码为：
<div class="hd_prUS">美 [ˌæbdɪ'keɪʃ(ə)n] </div>。

Python 版本 2.7, 请问我是哪里出了问题？

rabbbit

2018-01-30 19:35:40 +08:00

把所有代码贴上来

TimePPT

2018-01-30 19:49:08 +08:00

<div class="hd_prUS">美 [ˌæbdɪ'keɪʃ(ə)n] </div>
直接看页面源码，这个 div 的内容是这样的，部分字符被转义了。
看看是不是这个原因导致的编码问题。
记得 HTMLParser 有专门的处理方法。
好像是这个 https://docs.python.org/2/library/htmlparser.html#HTMLParser.HTMLParser.handle_charref
你看下。

以及，貌似页面 head 的 meta 里也有同样信息，还好解一些，可以试试拿到。
我用 BeautifulSoup 直接解析的，没问题（解析器用的 lxml ）