昨晚心血来潮写了一段代码抓取房天下的广州楼盘信息,但一直抓不到数据,请高手们帮忙看看

2018-09-23 23:26:19 +08:00
 funboy
最近学习数据挖掘,用 python 写了一个程序,使用 lxml 和 requests 爬 http://gz.newhouse.fang.com/house/s/b91/这个网页,网页爬下来后,用 xpath 挑选数据集。看网页源码可以看到每个楼盘信息的数据分段都是在标签"<div class=clearfix>"里,但是 python 中用 xpath('//div[@class="clearfix"]')语句,却只返回空表。请各位帮忙看看,是哪里错了?



for index in range(28):
url = 'http://gz.newhouse.fang.com/house/s/b9{}'.format(index)
con=con+requests.get(url).content
sel = html.fromstring(con)
print("Read!")

print("Writting",end="")



#获得楼盘信息的数据集合
for i in sel.xpath('//div[@class="clearfix"]'):
# 楼盘名称
name = "".join(i.xpath('div[@class="div class="house_value clearfix""]/div/a/text()')).split()
print(name)

print(".",end="")

print("Done!")
1770 次点击
所在节点    Python
3 条回复
ClutchBear
2018-09-24 00:34:49 +08:00
问题是你这个代码根本没法运行啊.
con 是啥
html 是啥.
根本没说.
在知乎看到过了, 我专门拷贝下来想运行一下的.
funboy
2018-09-24 14:12:37 +08:00
@ClutchBear 对不起,我没留意到发帖时候抓屏不全

import requests
import pymysql
from lxml import html

db=pymysql.connect(host='localhost',port=3306,user='dbuser',passwd='wilson',db='mydb',charset='utf8')
cursor = db.cursor()
#ursor.execute("TRUNCATE TABLE `gz_newhouse`")
#b.commit()
con=b''
wersonliu9527
2018-09-25 17:48:02 +08:00
先取 这个 //*[@id="newhouse_loupai_list"]/ul/li

再循环

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/492023

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX