大家好,我想请教一个关于 python 爬虫的小问题^_^

2014-02-24 09:00:53 +08:00
 StackGao
我想写个小爬虫,获取指定视频网站累计播放次数的

这是一个视频网页http://www.iqiyi.com/v_19rrh6k4pk.html

这是它播放量的html片段 <span id="widget-playcount" data-vi-elem="playCount">105万</span>



这是我的代码:

# encoding: utf-8
import urllib2,re


def getInfo(url,keyword):

print 'getting information from :'+ url +' ...'
myPage = urllib2.urlopen(url).read()
myItems = re.findall(r'<span\sid="widget-playcount"\sdata-vi-elem="playCount">.*?<\/span>',myPage,re.S)

for item in myItems:
print item

getInfo('http://www.iqiyi.com/v_19rrh6k4pk.html','')



为什么找不到呢?RE表达式有什么问题吗? 谢谢大家帮我看看...
3324 次点击
所在节点    Python
6 条回复
clino
2014-02-24 09:06:31 +08:00
建议用kodos调试正则表达式
glongzh
2014-02-24 09:08:42 +08:00
估计数据是动态加载的吧
yakczh
2014-02-24 09:57:33 +08:00
from pyquery import PyQuery as pyq


url=r'http://www.iqiyi.com/v_19rrh6k4pk.html'

doc=pyq(url)

legend=doc("#widget-playcount")

print(legend.text())
yangg
2014-02-24 10:06:58 +08:00
viewsource 查看源代码为准,而不是从开发工具里看
StackGao
2014-02-24 11:38:36 +08:00
@yangg 还真是 查看源代码还真是没有播放量...为啥开发工具里不准呢... 这种情况怎么抓取特定的信息?
AlloVince
2014-02-24 13:20:17 +08:00
casperjs

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/101520

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX