最新想爬一个论坛的最新回复板块的帖子,然后生成 RSS 。但是最新回复的顺序是乱序的,经常爬过的帖子又回到顶部导致重复。
我目前的想法是用一个固定大小的 Set (因为可以认为超过这个大小数量的帖子都比较久远不会再重复)保存已经爬过的帖子的标题,然后判断爬过了就跳过。不知道大家有没有比较好的办法保证输出的 RSS 没有重复的。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.