第一次玩 python, 也是第一次玩爬虫
import requests
from lxml import etree
url = 'http://s.weibo.com/top/summary'
data = requests.get(url).text
s=etree.HTML(data)
result1 = s.xpath('//*[@id="pl_common_searchTop"]')
result2 = s.xpath('//*[@id="realtimehot"]')
print(result1)
print(result2)
输出:
[<Element div at 0x10874a888>]
[]
为何 result2 为空?而 result1 能获取到,而且 xpath 一级一级往下获取有时候直接就获取不到对象了,发现在获取不到的前面会有
<!-- xxx -->
这样的注释,是因为这个才获取不到吗?大神求指点,翻来翻去没翻到有这种情况,可能是属于 hello world 级别问题了...
import requests
from lxml import etree
url = 'http://s.weibo.com/top/summary'
data = requests.get(url).text
s=etree.HTML(data)
result1 = s.xpath('//*[@id="pl_common_searchTop"]')
result2 = s.xpath('//*[@id="realtimehot"]')
print(result1)
print(result2)
输出:
[<Element div at 0x10874a888>]
[]
为何 result2 为空?而 result1 能获取到,而且 xpath 一级一级往下获取有时候直接就获取不到对象了,发现在获取不到的前面会有
<!-- xxx -->
这样的注释,是因为这个才获取不到吗?大神求指点,翻来翻去没翻到有这种情况,可能是属于 hello world 级别问题了...