Feed DIY 开启全网订阅( RSS)更新

2017-02-27 10:56:32 +08:00
 sohoer
优化了 CSS SELECTOR
修复编码识别 BUG
增加了几个可选参数配置:
Charset (页面编码设置,避免乱码)
Headers (设置登录 COOKIE ,模拟登录抓取)
Skip how many rows to get the latest information.(排除 BBS 置顶贴)
At the end of the list to get the latest information.(末尾更新的列表)

原贴: https://www.v2ex.com/t/341672

btw:
追加更新不会在首页显示,是降权了吗?
1783 次点击
所在节点    分享发现
11 条回复
loadingimg
2017-02-27 11:02:28 +08:00
顶一下,一直有在用
sohoer
2017-02-27 11:09:31 +08:00
@loadingimg #1

感谢!有使用问题可以给我留言。

我经常会去看大家创建的规则,发现有些规则创建的不是很准确导至匹配效果不好。有时候也可能是 CSS SELECTOR 的 BUG , BUG 问题我会第一时间解决
notgood
2017-04-07 11:43:10 +08:00
@sohoer 楼主你好, 发现个 bug, 无法抓取这个页面更新,点生成 feed 无法加载,能帮忙看看吗? http://www.smzdm.com/fenlei/gutaiyingpan/h1c4s0f0t0p1/#feed-main
sohoer
2017-04-07 11:48:43 +08:00
@notgood #3 你登录的吗?
未登录的爬虫 ,磁盘满了现在清理
sohoer
2017-04-07 12:02:47 +08:00
@notgood #3 清理完毕,可以了,你再试一下
notgood
2017-04-07 13:26:26 +08:00
@sohoer 我登陆的,还是不行,
sohoer
2017-04-07 14:13:31 +08:00
@notgood #6 有什么提示吗?右上角的 Event 不要勾上

我都有创建一个,你可以直接 clone
http://www.feeddiy.com/preview/1634
notgood
2017-04-07 15:02:40 +08:00
@sohoer 感谢, 可以了, 刷新好久 clone 才出现
sohoer
2017-04-07 15:09:33 +08:00
@notgood #8 好的,有问题再留言
ZakaryTime
2017-04-17 16:57:21 +08:00
http://www.cqhrss.gov.cn/zwxx/ywfl/rsrc/sydw/sydwzp/ 这个地址服务器访问异常,不能进行爬虫!
sohoer
2017-04-17 17:04:02 +08:00
@ZakaryTime #10 确实,这个是服务器端对 GAE 爬虫做了限制

需要升级账户,走 VPS 爬虫 ,你可以试用一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/343447

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX