有用 Feed43 自制 RSS 源的吗?求问 JS 输出的网站如何爬出内容?

2016-09-12 15:20:39 +08:00
 Mavious

feed43 是个好网站,我做了一大堆 rss 源爬各类 g0v 招聘信息,用的很爽 虽然前几个月 feed43 偷偷摸摸把一次输出信息从 100 条降为 20 。。但我还是忠诚的使用它! 但是现在遇到疑难问题!

测试网站 1 : http://www.zjhrss.gov.cn/col/col_1985059/index.html 测试网站 2 : http://www.xsks.gov.cn/ExamInfolist.aspx?ClassValue=10

这两个网站都使用 JS 输出, feed43 这种 HTML 纯文本抓取方式没辙了! 第二个站只能抓取左侧栏那些信息,我担心错过消息啊,我想抓主栏目的条目! 或者谁能找一个 JS 输出的地址,方便我爬么?我通过 firebug 找了半天实在不行。。。

或者有更多支持 JS 抓取的 rss 站点推荐? 我搜了很久, feed43 的功能可以说是全互联网唯一的(通过定制可以输出干净整洁的 rss 文本),没有任何替代网站啊~


我不是程序猿,谢谢,请不要说什么“自己做一个爬虫”之类的话,要是能自己做我就不会求助了…… 任何意见都可以,求任何点拨!我现在毫无思路啊!


不能换抓取地址,因为我需要官方消息。


我用一剪下来指甲打赌,没人回....T_T

1797 次点击
所在节点    问与答
1 条回复
UnisandK
2016-09-12 16:23:05 +08:00
第一个网站的内容是朝 http://www.zjhrss.gov.cn/gotoPage.do POST 的,内容为
channelId=1985059&subStr=35&childoption=1&toPage=1&pageSize=15

第二个网站的内容是朝 http://www.xsks.gov.cn/include/NewsInfo.ashx?ClassValue=10 POST 的,内容为
Action=getPageData&start=0&end=20

不是 JS 输出,但的确必需先有一个服务转成 GET 获取才可以用 feed43 抓

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/305688

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX