首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
探索世界的好奇心万岁
Udacity
网易公开课
Godel, Escher, Bach: An Eternal Golden Braid
Coding
V2EX  ›  分享发现

Feed DIY 开启全网订阅( RSS)

  •  8
     
  •   sohoer · 2017-02-20 09:52:34 +08:00 · 11352 次点击
    这是一个创建于 1029 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有点迫不及待的想跟大家分享这款基于鸟巢采集器的 RSS Feed 烧制工具( www.FeedDiy.com )。

    在信息过载的今天, FeedDiy 可以全网监控并生成 RSS Feed ,

    如监控人才热线上爬虫这个职位的更新 、各种电视剧的更新、更能监控各网站的新闻资讯更新。


    FeedDiy 的特色功能:全文抓取、基于 Chrome 的 Javascript 支持

    FeedDiy 的爬虫架构:



    FeedDiy 演示视频:

    http://video.newcrawler.com/feeddiy_v1.0.mp4


    RSS 订阅效果( Inoreader ):










    第 1 条附言  ·  2017-02-20 11:33:38 +08:00
    未注册账户创建的 Feed 会定期删除,所以不要当正规的订阅源使用
    目前的 FeedDiy 应该是功能最强的 Feed 烧制服务,但也会有 Bug ,发现 Bug 我会第一时间解决
    免费账号目前使用的是 GAE 爬虫,所以请放心使用免费服务

    有任何意见建议请留言,每一个收藏与回复都是对我最大的支持,谢谢!
    第 2 条附言  ·  2017-02-27 10:46:51 +08:00
    优化了 CSS SELECTOR
    修复编码识别 BUG
    增加了几个可选参数配置:
    Charset (页面编码设置,避免乱码)
    Headers (登录 COOKIE ,模拟登录抓取)
    Skip how many rows to get the latest information.(排除 BBS 置顶贴)
    At the end of the list to get the latest information.(末尾更新的列表)
    91 回复  |  直到 2017-09-13 09:37:18 +08:00
        1
    Hant   2017-02-20 10:11:22 +08:00
    用的什么 App
        2
    tyhunter   2017-02-20 10:11:48 +08:00
    感觉好像很牛逼
        3
    sohoer   2017-02-20 10:13:23 +08:00
        4
    sohoer   2017-02-20 10:14:01 +08:00
    @tyhunter #2 你要试一试,才能发现惊喜
        5
    vilen1   2017-02-20 10:20:10 +08:00
    很厉害的样子,试试
        6
    gamecmt   2017-02-20 10:25:37 +08:00
    赞一个,也在用 inoreader ,各路正规的源感觉太少。你这个应该能帮我解决很多问题。
    不知楼主在 inoreader 创建了订阅源没有?如果有就更方便了?
        7
    sohoer   2017-02-20 10:29:37 +08:00
    @gamecmt #6 你用 FeedDiy 制作好并保存后,再看右上角下拉框选择 inoreader 可以直接用 inoreader 订阅你刚生成的 Feed
        8
    jiezhi   2017-02-20 10:55:45 +08:00
    搞个 v 站的二手版块 rss 呢,关键是要登录
        9
    designer   2017-02-20 10:57:42 +08:00
    不明觉厉!
        10
    zhucha   2017-02-20 10:59:09 +08:00
    看起来不错,有啥限制吗?
        11
    sohoer   2017-02-20 11:03:20 +08:00
    @zhucha #10 要求不高免费版也够用了,需要较高的更新频率就要付费了毕竟爬虫还是很耗资 源的,具体登录后看 Plans and Pricing
        12
    zhucha   2017-02-20 11:08:41 +08:00
    @sohoer 谢谢,还在研究这个要怎么操作哈~
        13
    jy02201949   2017-02-20 11:16:37 +08:00
    这么多楼了居然没一个提到第二张截图,果然程序员才是最专注于专业的人:
    女:“你能让这个论坛的人都吵起来,我就跟你去开房。”
    程序猿:“好!” 于是在论坛里发帖:“ PHP 是最好的语言! ”
    论坛炸锅了,各种吵架。
    女:“服了你了,我们走吧。”
    程序猿:“今天不行,我一定要说服他们, PHP 必须是最好的语言。”
        14
    zhucha   2017-02-20 11:18:08 +08:00
    @sohoer 看视频会自动跳出 inoreader ,不过操作时并没跳出。。。另外,如果订阅的页面有分页要怎么操作?
    @gamecmt 发现在首页右上角,直接给出了几条应该是所有人的记录。。。 http://www.feeddiy.com/feed/new
        15
    zhucha   2017-02-20 11:19:02 +08:00
    @jy02201949 我不会程序,所以只关注到了亚洲无码。
        16
    sohoer   2017-02-20 11:19:53 +08:00
    @jy02201949 #13 哈哈

    @zhucha
    你用 FeedDiy 制作好并保存后,再看右上角下拉框选择 inoreader 可以直接用 inoreader 订阅你刚生成的 Feed
        17
    AlwaysBee   2017-02-20 11:24:02 +08:00
    楼主很隐晦
        18
    sohoer   2017-02-20 11:26:31 +08:00
    @jiezhi 二手版链接,有时间我做好给你用


    @zhucha 不想支持分页,列表页不需要支持分页本来是订阅更新内 容,详情页如果有分页就全文抓取第一页就当摘要来看,感兴趣再打开原网页看
        19
    Troevil   2017-02-20 11:26:33 +08:00
    我在截图中看到了什么了不得的东西
        20
    GoldenPillow   2017-02-20 11:39:19 +08:00
    支持 rss !!
        21
    jy02201949   2017-02-20 11:46:18 +08:00
    100 days
    Your RSS will be disabled

    看到这条有点不想用了,还是自己爬了丢在 vps 上吧。。。
        22
    Gandum   2017-02-20 11:49:52 +08:00
    这是楼主的产品?
    真不错,算得上是 Yahoo Pipes 的一个优秀替代品。
    相当于 Feed43+RSS 全文输出的结合品。
    不过如果能够像 Yahoo Pipes 那样,全面细节的控制+丰富 API ,多么完美!
    当然像 Pipes 那样是可遇不可求的,这样也不错了,而且相比 Pipes 操作还挺方便。
    (最后希望不要死的太早)
        23
    Gandum   2017-02-20 12:14:01 +08:00
    对了,没有 filters 是一个很大的遗憾
        24
    sohoer   2017-02-20 12:21:17 +08:00   ♥ 1
    @jy02201949 放心用吧其实没做删除,加这个声明主要是想删除一些抓取规则异常的爬虫任务(避免占用服务器资源)

    我会把这条声明改一下
        25
    sohoer   2017-02-20 12:22:19 +08:00
    @Gandum 不知道你用的什么 RSS 订阅器, inoreader.com 支持过滤
        26
    Gandum   2017-02-20 12:45:30 +08:00 via iPhone
    @sohoer 我用的 feedly ,不支持过滤,至少我没有发现。
        27
    echohanyu   2017-02-20 12:47:23 +08:00
    支持一发。。。试试看,打开 mac reeder
        28
    echohanyu   2017-02-20 12:57:34 +08:00
    gmail 收不到邮件验证啊。。。
        29
    sohoer   2017-02-20 13:09:20 +08:00
    @echohanyu 是否进了垃圾邮箱,如果还没收到可以把邮箱告诉我
        30
    cqcn1991   2017-02-20 13:14:22 +08:00 via iPhone
    非常棒,我的一个产品就有比较好的支持了
        31
    Acirno   2017-02-20 13:15:23 +08:00
    同收不到,你用什么发邮件的?
        32
    sohoer   2017-02-20 13:15:39 +08:00
    @Gandum Feedly 看到付费版有搜索和过滤
        33
    wizos   2017-02-20 13:16:07 +08:00
    谢谢楼主,这个服务很棒!就是现在在页面点击生成 css selector 规则的时候很卡。还有我这根本看不到根据选择到的链接再去抓取内层内容的 icon 。
        34
    sohoer   2017-02-20 13:18:12 +08:00
    @Acirno 需要告知我邮箱,我才能查原因,使用的阿里域名邮箱
        35
    hst001   2017-02-20 13:20:29 +08:00
    一直提示 Headline is required ,不会用
        36
    sohoer   2017-02-20 13:21:17 +08:00
    @wizos
    Content 标签为空的情况 Link 标签必需是有效的 URL 地址
    Content 标签不为空的情况 Link 标签和 Content 标签必需都是有效的 URL 地址
    不满足以上条件 FullText 的 Icon 是不会显示的
        37
    sohoer   2017-02-20 13:22:14 +08:00
    @hst001 看下视频,需要点击选择标题、链接
        38
    sohoer   2017-02-20 13:23:42 +08:00
    @wizos 确认 Link 标签匹配的是不是 URL ,可以按空格键预览
        39
    sohoer   2017-02-20 13:25:05 +08:00
    @cqcn1991 有机会可以合作
        40
    Acirno   2017-02-20 13:31:07 +08:00
    @sohoer #34 dashuqizhi#gmail 。 com
        41
    EvanQu   2017-02-20 14:38:06 +08:00
    @sohoer #39 outlook 收不到验证码 evanqu#outlook.com
        42
    sohoer   2017-02-20 14:40:04 +08:00
    @Acirno 邮件发送队列设置错了,被阻塞了,迟些才能收到,你的应该已经发送过去了
        43
    sohoer   2017-02-20 14:40:53 +08:00
    @EvanQu 邮件发送队列设置错了,被阻塞了,迟些才能收到,需要晚点解决这个 BUG
        44
    iphp   2017-02-20 15:27:35 +08:00
    @sohoer 貌似最后 save 的时候一直 system error 了
        45
    sohoer   2017-02-20 15:43:30 +08:00
    @iphp 是否刚刚勾选了 chrome?
        46
    iphp   2017-02-20 15:56:23 +08:00
    @sohoer 我都没有登录,勾选不了吧,等下注册邮件到了,再次试一试
        47
    sohoer   2017-02-20 16:03:07 +08:00 via iPhone
    @iphp 还没收到吗?刚刚重置了队列,并重新发送了注册邮件,如果没收到可以告知我你的邮箱,我再查一下,谢谢
        48
    jy02201949   2017-02-20 16:15:19 +08:00
    @sohoer #24 好的,月付这个价格有点高啊,不考虑降低一些么,毕竟省了很多写爬虫的事,可以考虑来个付费账户
        49
    sohoer   2017-02-20 16:25:03 +08:00
    @jy02201949 谢谢支持,可以先试用一段时间,我再出一个限时优惠或折扣的功能
        50
    Mavious   2017-02-20 16:52:56 +08:00 via iPhone
    刚刚注册了, gmail 可以收到邮件了。
    这....免费用户的限制貌似有点大啊。 vip 价格颇高...可以和 inoreader 比肩了....

    5 条+12 小时更新...比 feed43 限制大多了。
    我在 feed43 搞了 20 多个 rss ,让他们去爬 g0v 网站....如果能够和雅虎一样我就换平台了。

    顺便问问这种 post 性质的抓取能解决吗?
    https://www.v2ex.com/t/305688
        51
    sohoer   2017-02-20 17:26:55 +08:00   ♥ 1
    @Mavious
    第一个
    http://www.feeddiy.com/rss/qIZzUf

    第二个的抓取有些问题,解决了再给你回复
        52
    Gandum   2017-02-20 17:29:41 +08:00   ♥ 1
    @Mavious #50 代楼主回复句,其实他这个在同类服务中算便宜的(当然不知道性能怎么样), Yahoo Pipes 那种再也没有了

    @sohoer #49 确实应该考虑加入些 Yahoo Pipes 里面的热门功能,过滤、合并、分离、替换、简单逻辑,现在这样让人不怎么提得起兴趣来
        53
    binux   2017-02-20 17:34:40 +08:00
    @Gandum #52 google apps script 也是很好的替代品
        54
    sohoer   2017-02-20 17:40:32 +08:00
    @binux 你又搞个这么有难度的
        55
    Gandum   2017-02-20 17:51:36 +08:00
    @binux #53 你说的是 GAE 吧, google apps script 不是那啥,写 add-ons 的么。
    但是 GAE 在使用难度上提升不是一点半点啊,等于自己从头开始编程,有没有大神写了什么成熟方案,我不是很清楚
        56
    binux   2017-02-20 18:16:25 +08:00   ♥ 1
    @sohoer #54 因为免费啊

    @Gandum #55 比 GAE 轻量, https://developers.google.com/apps-script/ , https://binux.blog/2013/03/google-apps-script/
        57
    fanghui   2017-02-20 19:21:34 +08:00
    @sohoer 安装你们的步骤,在 mac 上部署了一个,用户名和账号怎么设置? http://www.feeddiy.com/feed/new 这个平台在 chrome 版本 56.0.2924.87 (64-bit)上没法用
        58
    sohoer   2017-02-20 19:45:01 +08:00
    @fanghui #57 不知道你说的是什么,这个不需要部署,
    www.feeddiy.com 直接用就行
        59
    fanghui   2017-02-20 21:13:04 +08:00
    @sohoer http://www.feeddiy.com/这个平台在 chrome 版本 56.0.2924.87 (64-bit)上没法用?谢谢了
        60
    zangbob   2017-02-20 21:13:19 +08:00
    Basic 和 Professional 能针对 V2EX 的兄弟们打个折扣么?
        61
    sohoer   2017-02-20 21:33:29 +08:00
    @fanghui 我就是这个版本,没问题啊!最好能具体说下什么问题,谢谢
        62
    sohoer   2017-02-20 21:34:10 +08:00
    @zangbob 以后会考虑加上折扣功能
        63
    welsmann   2017-02-20 21:55:08 +08:00
    试用了一下,简直 6 的不行...期待针对 V 站来个打折,一定会买
        64
    sohoer   2017-02-20 22:43:24 +08:00   ♥ 1
    @Mavious

    第二个
    http://www.feeddiy.com/rss/nUJVri

    这两个网址都需要 Chrome 的支持,你可以注册账号试用

    过段时间我会删除,每一个基于 Chrome 的抓取都是比较耗资源的
        65
    sohoer   2017-02-20 22:55:03 +08:00
    @welsmann 好,可以先试用一段时间
        66
    autulin   2017-02-20 23:13:22 +08:00
    用了,满足 ing...

    向作者提需要改进的一个小细节,就是爬取出的 item 的顺序是反的,比如本来顺序是( 1 、 2 、 3 、 4 、 5 ), Feed 中的顺序则是( 5 、 4 、 3 、 2 、 1 )
        67
    sohoer   2017-02-20 23:31:34 +08:00
    @autulin 确实是这样,对目前程序中的一些逻辑有冲突所以不是很好处理
        68
    fanghui   2017-02-21 00:32:11 +08:00
    @sohoer 主要问题是没有 xpath 表达式显示在页面的左上角, [chrome 版本 56.0.2924.87 (64-bit)] 你可以看下截图,截图地址: https://pan.baidu.com/s/1ctf1Yu
        69
    lmusicwq   2017-02-21 00:37:31 +08:00   ♥ 1
    @Mavious #50 你可以看下 56 楼 binux 大大推荐的,可能需要补下一些 js 知识,不过应该不是特别难的。我 js 也没怎么学,试了下第一个 https://script.google.com/macros/s/AKfycbxnXuGbfbeJ7cKJFHiyYkM8ajJkcYzleiXAE0ro-YnuuE-3a4I/exec ,有兴趣试的话我的代码可以参考下 https://script.google.com/d/1BoghluAF8982Ku516FyPl11a8qEcsNC5OTyqanJNJhNd3IgZgnuyTqqu/edit?usp=sharing
        70
    sohoer   2017-02-21 00:46:42 +08:00
    @fanghui 你把 Event 勾上了,这表示开启原网页的事件
        71
    suduo1987   2017-02-21 13:48:43 +08:00 via iPhone
    我用 gas 没有搞不定的
        72
    tortoo   2017-03-03 20:04:08 +08:00
    楼主我按照你的视频教程做出来一直有问题,这是我做的: http://www.feeddiy.com/rss/AB3Iru 。我按照顺序选择的,而且选择都 OK ,怎么最后标题丢了,正文成了标题,其他也很乱……我一共四个兴趣部落希望都能做成 rss 订阅,能够推送,能不能帮忙看下,告知问题在哪里
        73
    tortoo   2017-03-04 07:59:55 +08:00
    @sohoer 忘了 @你了,我又新做了, http://www.feeddiy.com/rss/beEfmy ,但还是不尽满意,正文最底下显示的缩略部分,网页版 inoreader 显示为原始附件,链接点击跳转正常, iOS 版显示 image+简介文字链接,但链接调整都是 404 。另一个大问题是,我用 inoreader 和 reeder 同样订阅,但抓取的条目不一样,显示也不一样,比如 reeder 里显示正文,但不显示缩略和简介这部分。这该如何是好
        74
    sohoer   2017-03-06 23:54:05 +08:00
    @tortoo #73


    前天看到了留言刚好又在实现这个功能,就特意完成了再来回复,
    你输入这个网址:
    https://buluo.qq.com/p/barindex.html?bid=10247
    选第一个再按 clone ,保存后再订阅到 inoreader
        75
    tortoo   2017-03-12 22:01:06 +08:00
    @sohoer 你这个克隆的办法不错,哈,相当于代做😹。但还是不理想,比我做的改进的地方,是消息列表里的缩略图 OK 了,但有的正文丢了,比如《“限客令”能让学生正常的学习》这篇,我做的原文是 OK 的,乱但是不丢东西😹。唉,好像没有两全的办法……我的建议是, feeddiy 的优势很明显,结合了 distill 这种监控网页的做法,所见即所得,能实现绝大部分内容,但是需要代码微调这部分没有。要是能再结合 feed43 就好了,不过我试了 feed43 ,代码一直通不过,不知道是不是腾讯的网页代码太变态😹。我很看好你这个 diy ,如果能完善微调这部分,再结合即刻 APP 的订阅,几乎很完美
        76
    tortoo   2017-03-12 22:09:49 +08:00
    @sohoer 我又翻了翻我第二次做的,有的也丢东西,比如《坚持就是胜利》和《武大, forever love 》这两篇,没有图片,正文有了,虽然变成了链接 404 的蓝字。这些都只能点标题进去原网页看全部
        77
    llhh   2017-03-31 17:58:25 +08:00
    可以列出一些热门的资源出来。
        78
    ITOutsider   2017-04-21 15:34:38 +08:00
    无法添加,左键一直是选择区域,右键是系统选项
        79
    sohoer   2017-04-21 15:37:12 +08:00
    @ITOutsider #78 我操作是可以的,网址是什么呢?
        80
    ITOutsider   2017-04-21 15:44:20 +08:00
    @sohoer http://chinese.engadget.com/

    只有“ Google Home 現支援多人(帳號)語音辨識”这个最新的标题可以正常选择,其他文章标题就无法选择了
        81
    sohoer   2017-04-21 15:48:21 +08:00
    @ITOutsider #80 这个网站是有点怪,我看看,你可以先把右上角的 CSS 勾去掉再选取元素
        82
    sohoer   2017-04-21 15:54:12 +08:00
    @ITOutsider #80
    engadget 这个网站的 A 标签覆盖了整个块,所以就优先选到了整 个块
    只能不勾选右上角的 CSS ,才能解决这个问题
        83
    sohoer   2017-04-21 15:57:45 +08:00
    @ITOutsider #80 不勾选 CSS 好像也有问题,应该是选择器的 BUG ,我解决了再回复你
        84
    sohoer   2017-04-21 18:09:19 +08:00
    @ITOutsider #80 这个网站的 CSS 写的有点另类, BUG 修复了,你可以 CLONE

    http://www.feeddiy.com/preview/1875
        85
    ITOutsider   2017-04-21 22:50:14 +08:00 via iPhone
    @sohoer thx for 非常感谢
        86
    lada04   2017-05-20 18:09:02 +08:00
    楼主是作者?那可以发到分享创造节点嘛~

    我正在用 Huginn。话说 FeedDiy 能做*哪些*Huginn 不能做的事情?能给几个例子吗?谢谢
        87
    zhucha   2017-09-12 09:13:34 +08:00
    @sohoer 请问保存时提示 System errors 有可能是什么原因呢?无法订阅长城外面的网站?谢谢。
        88
    sohoer   2017-09-13 01:03:20 +08:00
    @zhucha #87 是个 BUG 查了好久解决了, 墙外的网也是可以抓的
        89
    zhucha   2017-09-13 08:57:27 +08:00
    @sohoer 谢谢。
    同样的页面,因为之前不太懂,所以设置得有点问题,想重新设置一下,结果一直错误。刚刚试了下,已经可以生成 rss 了,但是,rss 里面没有内容。。。www.feeddiy.com/rss/NnUv2q 难道我又有什么地方搞错了?
        90
    sohoer   2017-09-13 09:23:38 +08:00
    @zhucha #89 数据抓取是异步的,一般 5 分钟之内可以采集到数据
        91
    zhucha   2017-09-13 09:37:18 +08:00
    @sohoer 可以了,谢谢!
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4174 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 32ms · UTC 07:18 · PVG 15:18 · LAX 23:18 · JFK 02:18
    ♥ Do have faith in what you're doing.