请教一个抓取tweets的问题

2012-03-07 18:42:22 +08:00
 sutar
比如现在有个URL:https://twitter.com/#!/sutar/status/170814521433276416
我使用Python的urllib2库进行抓取,设定了Cookie和UA信息。

由于该页面载入的时候twitter使用了跳转,所以用urlopen读取的页面不是所需要的页面,而是一个提示登录的页面。估计是twitter为了防止采集所采取的方式吧。

可是现在的确需要抓取该页面的信息,请问我该怎么做呢?
目前对于跳转的页面完全没思路啊,看response的信息也看不到门道。。求助!
4852 次点击
所在节点    问与答
14 条回复
laiwei
2012-03-07 18:46:25 +08:00
嗯,twitter的消息,都是要经过用户授权的。

你可以申请一个appkey,然后做一个应用,让用户授权,然后你访问数据。

就是这么个过程,没有捷径^^
sutar
2012-03-07 18:49:24 +08:00
@laiwei 是啊,原先也想过使用API,但是API的访问限制不满足需要啊。昨天不到半小时就采集了几千条tweets。用API肯定超额了。 :(
谢谢你了。
laiwei
2012-03-07 19:18:36 +08:00
哈,你采集的是什么tweets呢?是自己的?其他用户的?
sutar
2012-03-07 19:20:54 +08:00
@laiwei 当然不是自己的,自己的就好办了。。= =#
sobigfish
2012-03-07 19:38:31 +08:00
twitterfeed之类的服务呢,再采集他们的feed
toothpaste
2012-03-07 19:45:56 +08:00
tuoxie007
2012-03-07 20:30:06 +08:00
redirecthandler
wynemo
2012-03-07 20:48:19 +08:00
是不是该抓https://twitter.com/sutar/status/170814521433276416

$ wget https://twitter.com/#!/sutar/status/170814521433276416 之后

cat 170814521433276416 |grep -P '<span class="entry-content">'

<span class="entry-content">I'm at 华联商厦(五道口店) (北京海淀区成府路28号  , 北京) <a href="http://t.co
/hKED0mQ9" target="_blank" class="tweet-url web" rel="nofollow noopener" class="twitter-timeline-link">t.co/hKED0mQ9</a></span>

直接抓那个带#的估计就是抓的首页吧。。。
tuoxie007
2012-03-07 20:51:35 +08:00
@wynemo 同学,这个地址怎么和我在一栋呀
wynemo
2012-03-07 21:34:28 +08:00
@tuoxie007 这个你就问楼主了
wynemo
2012-03-07 21:36:19 +08:00
sutar
2012-03-07 21:58:25 +08:00
@wynemo 啊 谢谢你啊!貌似可以的! :)
sutar
2012-03-07 21:59:05 +08:00
@tuoxie007 咦?你在五道口购物中心?
tuoxie007
2012-03-08 10:12:27 +08:00
@sutar ,我就是地下一层楼梯口卖糖葫芦的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/28993

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX