写了一个爬虫,使用 lxml,然后 xpath 定位到标签 s = html.xpath("//div[@class='cont_font']/p/span")
但是 s[0].text 的时候只输出了部分内容,仔细一看,原来是遇到
,后来我干脆使用 re.sub() 替换掉所有
才正常输出。可是感觉这样好麻烦。是不是.text 用的姿势不对,还是程序遇到 < 就默认这个标签的 text 结束?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.