scrapy 爬一个网站,如:http://xxx.org/,遇到了一个链接是 http://xxx.org/新闻,
发现这个链接,在 scrpay print 话能输出到 shell 里,在 scrapy shell 里用 sel.xpath("//@href"),也能筛选到,但是在入 mysql 的时候,只能存入这个中文链接前的 url 链接,这个是 python2 的 unicode 问题么?
def parse(self, response):
conn = MySQLdb.connect(host="localhost",user="root",passwd="root",db="url")
cur = conn.cursor()
for sel in response.xpath('//@href').extract():
x = sel
cur.execute('insert into urlsinfo (url) values(%s)',x)
conn.commit()
cur.close()
代码略丑,勿喷。 刚学习 scrapy ,你们都是怎么解决这个问题的?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.