#实时抓取网页最新数据,处理并发布
##简介
我这里指的“数据采集”并非大规模地批量地缓慢地采集大量数据,而是监控似地实时采集最新的有效数据。
* “最新”意味着不需要老数据,而是目标网站所新增或更新的最新数据。
* “实时”意味着一旦目标网站有数据新增或更新,我们能第一时间(3秒内最佳)采集到。
* “有效”意味着需要对数据做去重处理。
##目标网页和数据
1. 目标网页示例
http://sz.58.com/longgang/waimaozhuanyuan/http://sz.58.com/buji/waimaozhuanyuan/……
2. 目标数据
* 数据内容:公司名字、地址、职位、对应网址
* 目标数据说明:
通过网页可以看到现有的大量数据,但这并非我们的目标。我们要的是目标网站实时新增和更新的数据。
* 数据规律:
通过观察可以知道,我们的目标数据一般都出现在网页的前排,并且,如果我们实时采集的话,基本不需要去采集第二页内容,因为最新增的数据基本不会出现到第二页。(其它网站的规律另说)
由于数据的更新规律,会有数据重复的情况,这就需要对数据进行去重处理,同一条数据我们只需要第一条(通过不同网站采集到的数据集中去重,“公司名字”字段一样即为重复数据)。
3. 其它
* 程序需要支持多任务和多用户模式
* 更多目标网页整理中
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/54339
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.