爬取( Python )今日头条数据入库(sqlserver)时数据存在‘?’问题,百度无果,有没有大佬知道?

2018-04-09 20:24:32 +08:00
 dapengzhao

该剧被爆出有刘诗诗出演,不过,诗诗确实很适合演这个“侠女”的角色,希望诗诗能演。
"​​2·《白发皇妃》"

这里的​&#8203 是检查网页时才有的,爬取的数据源码都没有,用 requests 库爬取的时候打印出数据也没有这些符号数字,但入库以后就会以?的形式显示在库里。

我怀疑是编码问题,考虑过替换文中?,但不光是这一种情况,所有替换不具备通用性,求助。。

1535 次点击
所在节点    问与答
3 条回复
dapengzhao
2018-04-09 20:26:44 +08:00
“该剧被爆出有刘诗诗出演,不过,诗诗确实很适合演这个“侠女”的角色,希望诗诗能演。<br><img src="http://p3.pstatp.com/large/pgc-image/15223145376813a05173058" img_width="500" img_height="500" alt="这六部古装 IP 剧即将开拍,唐嫣刘诗诗郑爽热巴,谁将出演?" inline="0"><img src="http://p1.pstatp.com/large/pgc-image/1522314542716650abadf9a" img_width="500" img_height="379" alt="这六部古装 IP 剧即将开拍,唐嫣刘诗诗郑爽热巴,谁将出演?" inline="0">​​"&#8203;&#8203;"2·《白发皇妃》"

一发布 html 就被解析了,上面是没解析的样子(我去掉了头尾的 p 标签)
GooMS
2018-04-10 00:02:33 +08:00
干掉非 ASCII
http://www.fileformat.info/info/unicode/char/200b/index.htm
同样的问题谷歌会给你一堆资料
dapengzhao
2018-04-10 09:29:52 +08:00
@GooMS 以后找歌

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/445459

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX