关于RSS阅读器的数据库的设计

2013-09-06 17:15:50 +08:00
 tonghuashuai
最近在想RSS阅读器(web版,有用户,像google reader)的实现,有几个问题比较困惑,希望大家能帮忙解答一下:

1. 根据订阅的xml解析出文章以后是存到数据库中吗,未读和已读状态是更新数据库实现的吗?

2. 如果1成立,那么已读以后就要删掉吗?如果删掉并且怎么知道下次来的文章已经读过了,如果不删掉,那么数据量就会猛张,怎么解?

3. 用户数量到一定规模以后(比如google reader或鲜果阅读器)频繁的更新数据库怎么突破瓶颈,有必要用NoSQL吗?如果用关系型数据库能hold住吗?有啥方案?

4. 来自不同订阅的内容按日期排序问题,怎么实现?直接在库里desc?

先问这些吧,因为对rss还不是很了解,如果能有热心人整体描述一下工作原理就更好了。

先谢过!!!
1030 次点击
所在节点    数据库
4 条回复
orzfly
2013-09-06 17:31:40 +08:00
我觉得你需要先考虑一下每个条目的 uuid 这个东西。
horsley
2013-09-06 17:37:17 +08:00
1 不然呢
2 暴涨很正常啊,时间久了的dump出来放在冷库呗
3 我觉得痛点是抓取,现有有不少开源的方案的,你应该先看看
4 你是不了解rss还是不了解数据库……
Mutoo
2013-09-06 17:39:11 +08:00
google:分表分库分布式,总之硬件能解决的都不叫瓶颈,硬件不值钱。
tonghuashuai
2013-09-06 19:07:11 +08:00
@orzfly rss中有guid,但是是非必须

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/81570

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX