最近在做网易云个人信息遍历抓取;
那么毛病就来了;
https://music.163.com/user/home?id=29879272
https://music.163.com/user/home?id=132128
这是两个个人主页; 29879272 这个呢,etree.HTML(源码),可以完全解析 html。
132128 这个呢,就 BUG 了,etree.HTML(源码),发现 html 被截断。
会被源码里面的 description 的 —— 双横线给截断了。简直奇葩;
有没有大神 look look。我发现这是一个 BUG
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.