V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
manoon
V2EX  ›  问与答

关于feed输出,请教一下。

  •  
  •   manoon · 2013-06-08 18:33:47 +08:00 · 2438 次点击
    这是一个创建于 4178 天前的主题,其中的信息可能已经有所发展或是发生改变。
    情况是酱纸滴,想抓某一个博客。
    按照以往的思路,是直接写爬虫来爬目录然后爬文章的。
    但是,今天突然发现。这个博客原来有FEED输出的。
    这样子的话,工作就要轻松好多了。
    FEED输出里面只有最近一个月的数据。我想爬去年以及历史的数据。
    这个。。。。有没得什么法子?在FEED后面加一些参数可以取出来么?
    www.xxooooxx.com/feeds/posts/default
    8 条回复    1970-01-01 08:00:00 +08:00
    haiyang416
        1
    haiyang416  
       2013-06-08 18:38:30 +08:00 via Android
    你自己写过feed没,如果知道原理的话,就好办了。
    是否支持时间参数要看那博客的作者,不过99%是没有的。
    manoon
        2
    manoon  
    OP
       2013-06-08 18:41:04 +08:00
    @haiyang416
    没写过。FEED是自己写的?我一直以为FEED,是第三的一个服务。只要一使用就可以博客全文FEED输入了。
    haiyang416
        3
    haiyang416  
       2013-06-08 18:46:02 +08:00 via Android
    不是的,我打不开你那个地址,不知道是什么程序,如果是wp之类的开源程序就是没有的。
    feed输出多少,是否全文输出都是博客程序决定的,不过我认为没有人会给个人博客feed加参数,还是爬吧。
    manoon
        4
    manoon  
    OP
       2013-06-08 18:58:51 +08:00
    @haiyang416 blogspot的
    找到了一些资料。有些用处,哈哈。不过还是不尽如人意。

    3.Other:有以下參數可下,中間用 & 做分隔
    alt=rss:強制提供RSS,預設是ATOM
    max-results=N:最多可提供N篇文章
    start-index=N:從第N篇文章開始提供
    orderby=published:提供文章以發表時間作為排序依據(預設是以修改的時間排序)
    範例:提供完整內容的Feed,強制RSS 2.0,以發表時間排序,只提供前10篇文章。
    caomu
        5
    caomu  
       2013-06-08 19:00:16 +08:00   ❤️ 1
    趁现在Google Reader没有关,赶紧从里面扒历史数据。只要之前有人订阅过这个博客就行了,Google服务器会缓存这些数据(这也是为什么Google要关GR很多人惋惜),不过要是之前没人订阅过这个Blog的话,那此法不行。
    输出历史条目: https://www.google.com/reader/atom/feed/[Feed地址]?n=1000 (Feed地址最好encode一下)

    参:http://www.36kr.com/p/201886.html
    manoon
        6
    manoon  
    OP
       2013-06-08 19:00:40 +08:00
    搞定了。。。。
    start-index=N 把这个值设置成“无穷大”或者其它合适的值就OKAY了。。谢谢。

    PS:我又找不到V2EX的APPEND按钮了!!!!
    manoon
        7
    manoon  
    OP
       2013-06-08 19:01:31 +08:00
    @caomu

    谢谢哈。。呵呵。刚搞定。
    haiyang416
        8
    haiyang416  
       2013-06-08 19:15:17 +08:00 via Android
    还是google 提供的功能丰富啊,哈哈
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2695 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 05:02 · PVG 13:02 · LAX 21:02 · JFK 00:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.