对于新内容监控的程序,面临大量去重计算如何实施比较好?

2012-08-10 16:45:17 +08:00
 richiefans
需要做大量的内容页面进行监控
主要是方便了解各网站最新内容的 没有rss
大概设想是准备监控页url列表
定期抓取urlhtml 遍历所有a节点 和数据库内的url做比对 如果以前抓取过该链接即视为重复 数据量小没什么问题 用mysql来存储 判断的时候直接where url = alink 如果存在记录就是重复
如果数据量过大 如何解决?

或者这种程序有什么现成的解决方案吗?

大概url列表过万,监控频率按小时差不多
2406 次点击
所在节点    编程
2 条回复
richiefans
2012-08-10 16:45:37 +08:00
不需要采集文章内容 只需要了解最新的内容link and title即可 也就是抓取到列表就可以了
richiefans
2012-08-10 16:58:16 +08:00
对url 进行md5 之后匹配是不是会性能好一些

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/44812

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX