大家好,我想请教一个关于 python 爬虫的小问题^_^

我想写个小爬虫,获取指定视频网站累计播放次数的

这是一个视频网页http://www.iqiyi.com/v_19rrh6k4pk.html

这是它播放量的html片段 <span id="widget-playcount" data-vi-elem="playCount">105万</span>

这是我的代码:

# encoding: utf-8
import urllib2,re

def getInfo(url,keyword):

print 'getting information from :'+ url +' ...'
myPage = urllib2.urlopen(url).read()
myItems = re.findall(r'<span\sid="widget-playcount"\sdata-vi-elem="playCount">.*?<\/span>',myPage,re.S)

for item in myItems:
print item

getInfo('http://www.iqiyi.com/v_19rrh6k4pk.html','')

为什么找不到呢?RE表达式有什么问题吗? 谢谢大家帮我看看...

yakczh

2014-02-24 09:57:33 +08:00

from pyquery import PyQuery as pyq

url=r'http://www.iqiyi.com/v_19rrh6k4pk.html'

doc=pyq(url)

legend=doc("#widget-playcount")

print(legend.text())

StackGao

2014-02-24 11:38:36 +08:00

@yangg 还真是查看源代码还真是没有播放量...为啥开发工具里不准呢... 这种情况怎么抓取特定的信息?

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/101520

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.